pyspark.RDD.sample

抽样。 样本 ( withReplacement:bool,分数:浮动,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(T]

返回这个抽样的样本子集。

参数
withReplacement bool

元素可以多次采样(取代当采样)

分数 浮动

预期的样本大小的一小部分不重复抽样的规模:概率选择每个元素;分数必须[0,1]替换:预期的次数选择每个元素;分数必须> = 0

种子 int,可选

随机数生成器的种子

笔记

这是不能保证提供完全指定的分数的总计数DataFrame

例子

> > >抽样=sc并行化(范围(One hundred.),4)> > >6< =抽样样本(,0.1,81年)()< =14真正的