pyspark.RDD.groupBy¶
-
抽样。
groupBy
( f:可调用的[[T], K], numPartitions:可选(int) = None, partitionFunc:可调用的[[K], int] = <函数portable_hash > )→pyspark.rdd.RDD(元组(K,Iterable(T] ] ] ¶ -
返回一个抽样分组项。
例子
> > >抽样=sc。并行化([1,1,2,3,5,8])> > >结果=抽样。groupBy(λx:x%2)。收集()> > >排序(((x,排序(y))为(x,y)在结果])((0,(2,8)),(1,(1,1,3,5)))