pyspark.pandas.DataFrame.sample???

数据Frame 采样 高山市 N级:可选性[整数万事通=无, frac:可选性[浮点万事通=无, 替换:布卢尔=虚伪, 随机状态:可选性[整数万事通=无, 忽略索引:布卢尔=虚伪 )→ pyspark.pandas.frame.DataFrame ???

返回对象轴随机样本

请用命名参数调用此函数frac参数推理

可使用随机状态可复制性与熊猫不同,熊猫标注spark/spark无法保证采样行会固定结果集不仅取决于种子,还取决于数据如何跨机分布和网络随机性即使是最简单的例子,结果集取决于系统CPU核心计数

参数解析

N级 int可选: 项数返回当前不支持。使用frac替代
frac 可选浮点: 轴项分数返回
替换布尔默认假: 样本置换或置换
随机状态 int可选: 随机数生成器种子
忽略索引 布尔默认假: if true, 生成索引标签0, 1,.n-

回归

数组或数据Frame: 一个新对象类型与调用器相同,内含样本项

实例

           >>>df=ss系统.数据Frame{{Num-legs:[2,4,8,0万事通.努姆翼:[2,0,0,0万事通.'num_specimen_seen':[10,2,一号,8},.索引化=[法尔康,狗狗,spider大全,鱼类万事通.列内=[Num-legs,努姆翼,'num_specimen_seen')>>>dfNum_legsn_windsnm_specimen鹰2210狗402蜘蛛80鱼08
          

随机25%样本数据Frame.注意使用随机状态以确保实例可复制性

           >>>df.采样高山市frac=0.25,随机状态=一号)Num_legsn_windsnm_specimen鹰2210鱼08
          

随机50%样本数据Frame中忽略索引

           >>>df.采样高山市frac=0.5,随机状态=一号,忽略索引=真实性)Num_legsn_windsnm_specimen0402八零一二零八
          

提取25%随机元素串行f['num'legs'后置换相同项目可多次出现

           >>>df[Num-legs万事通.采样高山市frac=0.4,替换=真实性,随机状态=一号)猎鹰2蜘蛛8蜘蛛8名称:numlegsd类型:int64
          

指定返回项目精度目前不支持

           >>>df.采样高山市N级=5)追踪回调(最近最后调用 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数.NotImplementedError:函数样本目前不支持说明.
          

前一

pyspark.pandas.DataFrame.isin

下一个

pyspark.pandas.DataFrame.truncate