pyspark.RDD.sampleByKey

抽样。 sampleByKey ( withReplacement:bool,分数:Dict(K,联盟(浮动,int]],种子:可选(int]=没有一个 )→pyspark.rdd.RDD(元组(K,V] ]

返回一个子集的抽样样本的关键(通过分层抽样)。使用变量创建一个样本抽样的抽样率不同的键指定的分数,采样率的关键。

例子

> > >分数={“一个”:0.2,“b”:0.1}> > >抽样=sc并行化(分数())笛卡儿(sc并行化(范围(0,1000年)))> > >样本=dict(抽样sampleByKey(,分数,2)groupByKey()收集())> > >One hundred.<len(样本(“一个”])<300年50<len(样本(“b”])<150年真正的> > >马克斯(样本(“一个”])< =999年最小值(样本(“一个”])> =0真正的> > >马克斯(样本(“b”])< =999年最小值(样本(“b”])> =0真正的