pyspark.sql.DataFrameStatFunctions.sampleBy

DataFrameStatFunctions。 sampleBy ( 上校:str,分数:Dict(任何,浮动],种子:可选(int]=没有一个 )→pyspark.sql.dataframe.DataFrame

返回一个分层抽样不重复每层基于给出的分数。

参数
上校 或str

列定义地层

添加抽样的一列

分数 dict

每层抽样比例。如果没有指定层,我们对待它的分数为零。

种子 int,可选

随机种子

返回
一个新的DataFrame这代表了分层抽样

例子

> > >pyspark.sql.functions进口上校> > >数据集=sqlContext范围(0,One hundred.)选择((上校(“id”)%3)别名(“关键”))> > >采样=数据集sampleBy(“关键”,分数={0:0.1,1:0.2},种子=0)> > >采样groupBy(“关键”)()orderBy(“关键”)显示()+ - - - + - - - +| | |计数的关键+ - - - + - - - +| 0 | 3 || 1 | 6 |+ - - - + - - - +> > >数据集sampleBy(上校(“关键”),分数={2:1.0},种子=0)()33