pyspark.RDD.sortByKey¶

抽样。 sortByKey ( 提升:可选(bool) = True, numPartitions:可选(int) = None, keyfunc:可调用的[[所有],任何]= <函数抽样。<λ> > )→pyspark.rdd.RDD(元组(K,V] ] ¶

假定分类抽样,由(键值)对。

例子

           > > >tmp=((“一个”,1),(“b”,2),(' 1 ',3),(' d ',4),(' 2 ',5)]> > >sc。并行化(tmp)。sortByKey()。第一个()(' 1 ',3)> > >sc。并行化(tmp)。sortByKey(真正的,1)。收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >sc。并行化(tmp)。sortByKey(真正的,2)。收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >tmp2=((“玛丽”,1),(“有”,2),(“一个”,3),(“小”,4),(“羔羊”,5)]> > >tmp2。扩展(((“的”,6),(“羊毛”,7),(“是”,8),(“白色”,9)))> > >sc。并行化(tmp2)。sortByKey(真正的,3,keyfunc=λk:k。较低的())。收集()[(a, 3),(“羊毛”,7),(‘有’,2),(“羔羊”,5),…(9)“白”(“的”,6)]
          

以前的

pyspark.RDD.sortBy

下一个

pyspark.RDD.stats