pyspark.RDD.sample¶
-
抽样。
样本
( withReplacement:bool,分数:浮动,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(T] ¶ -
返回这个抽样的样本子集。
- 参数
-
- withReplacement bool
-
元素可以多次采样(取代当采样)
- 分数 浮动
-
预期的样本大小的一小部分不重复抽样的规模:概率选择每个元素;分数必须[0,1]替换:预期的次数选择每个元素;分数必须> = 0
- 种子 int,可选
-
随机数生成器的种子
笔记
这是不能保证提供完全指定的分数的总计数
DataFrame
。例子
> > >抽样=sc。并行化(范围(One hundred.),4)> > >6< =抽样。样本(假,0.1,81年)。数()< =14真正的