pyspark.RDD.take

抽样。 ( 全国矿工工会:int )→列表(T]

第一次抽样的num元素。

先扫描一个分区,并使用该分区的结果估计所需的额外的分区数量满足极限。

翻译从Scala实现在抽样# ()。

笔记

这种方法应该只用于如果生成的数组将小,因为所有数据加载到司机的记忆。

例子

> > >sc并行化([2,3,4,5,6])缓存()(2)(2、3)> > >sc并行化([2,3,4,5,6])(10)(2、3、4、5、6)> > >sc并行化(范围(One hundred.),One hundred.)过滤器(λx:x>90年)(3)(91、92、93)