pyspark.RDD.sampleByKey¶
-
抽样。
sampleByKey
( withReplacement:bool,分数:Dict(K,联盟(浮动,int]],种子:可选(int]=没有一个 )→pyspark.rdd.RDD(元组(K,V] ] ¶ -
返回一个子集的抽样样本的关键(通过分层抽样)。使用变量创建一个样本抽样的抽样率不同的键指定的分数,采样率的关键。
例子
> > >分数={“一个”:0.2,“b”:0.1}> > >抽样=sc。并行化(分数。键())。笛卡儿(sc。并行化(范围(0,1000年)))> > >样本=dict(抽样。sampleByKey(假,分数,2)。groupByKey()。收集())> > >One hundred.<len(样本(“一个”])<300年和50<len(样本(“b”])<150年真正的> > >马克斯(样本(“一个”])< =999年和最小值(样本(“一个”])> =0真正的> > >马克斯(样本(“b”])< =999年和最小值(样本(“b”])> =0真正的