pyspark.RDD.repartitionAndSortWithinPartitions

抽样。 repartitionAndSortWithinPartitions ( numPartitions:可选(int) = None, partitionFunc:可调用的[[任何],int] = <函数portable_hash >,提升:bool = True, keyfunc:可调用的[[所有],任何]= <函数抽样。<λ> > )→pyspark.rdd.RDD(元组(任何,任何] ]

重新分配抽样根据给定的分割者,在每个分区结果,记录的键。

例子

> > >抽样=sc并行化(((0,5),(3,8),(2,6),(0,8),(3,8),(1,3)))> > >rdd2=抽样repartitionAndSortWithinPartitions(2,λx:x%2,真正的)> > >rdd2()收集()[[(0 5)(0,8),(2,6)],[(1,3),(8),(8)]]