pyspark.RDD.repartitionAndSortWithinPartitions¶
-
抽样。
repartitionAndSortWithinPartitions
( numPartitions:可选(int) = None, partitionFunc:可调用的[[任何],int] = <函数portable_hash >,提升:bool = True, keyfunc:可调用的[[所有],任何]= <函数抽样。<λ> > )→pyspark.rdd.RDD(元组(任何,任何] ] ¶ -
重新分配抽样根据给定的分割者,在每个分区结果,记录的键。
例子
> > >抽样=sc。并行化(((0,5),(3,8),(2,6),(0,8),(3,8),(1,3)))> > >rdd2=抽样。repartitionAndSortWithinPartitions(2,λx:x%2,真正的)> > >rdd2。偷()。收集()[[(0 5)(0,8),(2,6)],[(1,3),(8),(8)]]