pyspark.RDD.takeSample

抽样。 takeSample ( withReplacement:bool,全国矿工工会:int,种子:可选(int]=没有一个 )→列表(T]

返回一个固定大小的样本子集抽样。

笔记

这种方法应该只用于如果生成的数组将小,因为所有数据加载到司机的记忆。

例子

> > >抽样=sc并行化(范围(0,10))> > >len(抽样takeSample(真正的,20.,1))20.> > >len(抽样takeSample(,5,2))5> > >len(抽样takeSample(,15,3))10