pyspark.RDD.take¶
-
抽样。
取
( 全国矿工工会:int )→列表(T] ¶ -
第一次抽样的num元素。
先扫描一个分区,并使用该分区的结果估计所需的额外的分区数量满足极限。
翻译从Scala实现在抽样# ()。
笔记
这种方法应该只用于如果生成的数组将小,因为所有数据加载到司机的记忆。
例子
> > >sc。并行化([2,3,4,5,6])。缓存()。取(2)(2、3)> > >sc。并行化([2,3,4,5,6])。取(10)(2、3、4、5、6)> > >sc。并行化(范围(One hundred.),One hundred.)。过滤器(λx:x>90年)。取(3)(91、92、93)