pyspark.RDD.take¶

抽样。 取 ( 全国矿工工会:int )→列表(T] ¶

第一次抽样的num元素。

先扫描一个分区,并使用该分区的结果估计所需的额外的分区数量满足极限。

翻译从Scala实现在抽样# ()。

笔记

这种方法应该只用于如果生成的数组将小,因为所有数据加载到司机的记忆。

例子

           > > >sc。并行化([2,3,4,5,6])。缓存()。取(2)(2、3)> > >sc。并行化([2,3,4,5,6])。取(10)(2、3、4、5、6)> > >sc。并行化(范围(One hundred.),One hundred.)。过滤器(λx:x>90年)。取(3)(91、92、93)
          

以前的

pyspark.RDD.sumApprox

下一个

pyspark.RDD.takeOrdered