pyspark.pandas.DataFrame.sample???

数据Frame 采样 高山市 N级:可选性[整数万事通=, frac:可选性[浮点万事通=, 替换:布卢尔=虚伪, 随机状态:可选性[整数万事通=, 忽略索引:布卢尔=虚伪 )→ pyspark.pandas.frame.DataFrame ???

返回对象轴随机样本

请用命名参数调用此函数frac参数推理

可使用随机状态可复制性与熊猫不同,熊猫标注spark/spark无法保证采样行会固定结果集不仅取决于种子,还取决于数据如何跨机分布和网络随机性即使是最简单的例子,结果集取决于系统CPU核心计数

参数解析
N级 int可选

项数返回当前不支持 。使用frac替代

frac 可选浮点

轴项分数返回

替换 布尔默认假

样本置换或置换

随机状态 int可选

随机数生成器种子

忽略索引 布尔默认假

if true, 生成索引标签0, 1,.n-

回归
数组或数据Frame

一个新对象类型与调用器相同,内含样本项

实例

>>>df=ss系统.数据Frame{{Num-legs:[2,4,8,0万事通.努姆翼:[2,0,0,0万事通.'num_specimen_seen':[10,2,一号,8},.索引化=[法尔康,狗狗,spider大全,鱼类万事通.列内=[Num-legs,努姆翼,'num_specimen_seen')>>>dfNum_legsn_windsnm_specimen鹰2210狗402蜘蛛80鱼08

随机25%样本数据Frame.注意使用随机状态以确保实例可复制性

>>>df.采样高山市frac=0.25,随机状态=一号)Num_legsn_windsnm_specimen鹰2210鱼08

随机50%样本数据Frame中忽略索引

>>>df.采样高山市frac=0.5,随机状态=一号,忽略索引=真实性)Num_legsn_windsnm_specimen0402八零一二零八

提取25%随机元素串行f['num'legs'后置换相同项目可多次出现

>>>df[Num-legs万事通.采样高山市frac=0.4,替换=真实性,随机状态=一号)猎鹰2蜘蛛8蜘蛛8名称:numlegsd类型:int64

指定返回项目精度目前不支持

>>>df.采样高山市N级=5)追踪回调(最近最后调用 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数.NotImplementedError:函数样本目前不支持说明.