pyspark.RDD.top

抽样。 ( 全国矿工工会:int,关键:可选(可调用的((T],年代]]=没有一个 )→列表(T]

从一个抽样得到前N个元素。

笔记

这种方法应该只用于如果生成的数组将小,因为所有数据加载到司机的记忆。

它返回列表在降序排序。

例子

> > >sc并行化([10,4,2,12,3])(1)[12]> > >sc并行化([2,3,4,5,6),2)(2)(6,5)> > >sc并行化([10,4,2,12,3])(3,关键=str)(4、3、2)