pyspark.sql.DataFrame.sample

DataFrame。 样本 ( withReplacement:联盟(浮动,bool,没有)=没有一个,分数:联盟(整数、浮点数、没有)=没有一个,种子:可选(int]=没有一个 )→pyspark.sql.dataframe.DataFrame

返回一个样本子集DataFrame

参数
withReplacement bool,可选

样品与替换(默认)。

分数 浮动,可选

分数的行生成、范围[0.0,1.0]。

种子 int,可选

随机种子种子取样(默认)。

笔记

这是不能保证提供完全指定的分数的总计数DataFrame

分数是必需的,withReplacement种子是可选的。

例子

> > >df=火花范围(10)> > >df样本(0.5,3)()7> > >df样本(分数=0.5,种子=3)()7> > >df样本(withReplacement=真正的,分数=0.5,种子=3)()1> > >df样本(1.0)()10> > >df样本(分数=1.0)()10> > >df样本(,分数=1.0)()10