pyspark.pandas.DataFrame.sample???
-
数据Frame
采样
高山市 N级:可选性[整数万事通=无, frac:可选性[浮点万事通=无, 替换:布卢尔=虚伪, 随机状态:可选性[整数万事通=无, 忽略索引:布卢尔=虚伪 )→ pyspark.pandas.frame.DataFrame ??? -
返回对象轴随机样本
请用命名参数调用此函数
frac
参数推理可使用随机状态可复制性与熊猫不同,熊猫标注spark/spark无法保证采样行会固定结果集不仅取决于种子,还取决于数据如何跨机分布和网络随机性即使是最简单的例子,结果集取决于系统CPU核心计数
- 参数解析
-
- N级 int可选
-
项数返回当前不支持 。使用frac替代
- frac 可选浮点
-
轴项分数返回
- 替换 布尔默认假
-
样本置换或置换
- 随机状态 int可选
-
随机数生成器种子
- 忽略索引 布尔默认假
-
if true, 生成索引标签0, 1,.n-
- 回归
-
- 数组或数据Frame
-
一个新对象类型与调用器相同,内含样本项
实例
>>>df=ss系统.数据Frame{{Num-legs:[2,4,8,0万事通.努姆翼:[2,0,0,0万事通.'num_specimen_seen':[10,2,一号,8},.索引化=[法尔康,狗狗,spider大全,鱼类万事通.列内=[Num-legs,努姆翼,'num_specimen_seen')>>>dfNum_legsn_windsnm_specimen鹰2210狗402蜘蛛80鱼08
随机25%样本
数据Frame
.注意使用随机状态以确保实例可复制性>>>df.采样高山市frac=0.25,随机状态=一号)Num_legsn_windsnm_specimen鹰2210鱼08
随机50%样本
数据Frame
中忽略索引>>>df.采样高山市frac=0.5,随机状态=一号,忽略索引=真实性)Num_legsn_windsnm_specimen0402八零一二零八
提取25%随机元素
串行
f['num'legs'
后置换相同项目可多次出现>>>df[Num-legs万事通.采样高山市frac=0.4,替换=真实性,随机状态=一号)猎鹰2蜘蛛8蜘蛛8名称:numlegsd类型:int64
指定返回项目精度目前不支持
>>>df.采样高山市N级=5)追踪回调(最近最后调用 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数 数.NotImplementedError:函数样本目前不支持说明.