pyspark.sql.DataFrameStatFunctions.sampleBy¶
-
DataFrameStatFunctions。
sampleBy
( 上校:str,分数:Dict(任何,浮动],种子:可选(int]=没有一个 )→pyspark.sql.dataframe.DataFrame¶ -
返回一个分层抽样不重复每层基于给出的分数。
- 参数
- 返回
-
-
一个新的
DataFrame
这代表了分层抽样
-
一个新的
例子
> > >从pyspark.sql.functions进口上校> > >数据集=sqlContext。范围(0,One hundred.)。选择((上校(“id”)%3)。别名(“关键”))> > >采样=数据集。sampleBy(“关键”,分数={0:0.1,1:0.2},种子=0)> > >采样。groupBy(“关键”)。数()。orderBy(“关键”)。显示()+ - - - + - - - +| | |计数的关键+ - - - + - - - +| 0 | 3 || 1 | 6 |+ - - - + - - - +> > >数据集。sampleBy(上校(“关键”),分数={2:1.0},种子=0)。数()33