pyspark.sql.DataFrame.sample¶
-
DataFrame。
样本
( withReplacement:联盟(浮动,bool,没有)=没有一个,分数:联盟(整数、浮点数、没有)=没有一个,种子:可选(int]=没有一个 )→pyspark.sql.dataframe.DataFrame¶ -
返回一个样本子集
DataFrame
。- 参数
-
- withReplacement bool,可选
-
样品与替换(默认
假
)。 - 分数 浮动,可选
-
分数的行生成、范围[0.0,1.0]。
- 种子 int,可选
-
随机种子种子取样(默认)。
笔记
这是不能保证提供完全指定的分数的总计数
DataFrame
。分数是必需的,withReplacement和种子是可选的。
例子
> > >df=火花。范围(10)> > >df。样本(0.5,3)。数()7> > >df。样本(分数=0.5,种子=3)。数()7> > >df。样本(withReplacement=真正的,分数=0.5,种子=3)。数()1> > >df。样本(1.0)。数()10> > >df。样本(分数=1.0)。数()10> > >df。样本(假,分数=1.0)。数()10