pyspark.RDD.sortByKey

抽样。 sortByKey ( 提升:可选(bool) = True, numPartitions:可选(int) = None, keyfunc:可调用的[[所有],任何]= <函数抽样。<λ> > )→pyspark.rdd.RDD(元组(K,V] ]

假定分类抽样,由(键值)对。

例子

> > >tmp=((“一个”,1),(“b”,2),(' 1 ',3),(' d ',4),(' 2 ',5)]> > >sc并行化(tmp)sortByKey()第一个()(' 1 ',3)> > >sc并行化(tmp)sortByKey(真正的,1)收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >sc并行化(tmp)sortByKey(真正的,2)收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >tmp2=((“玛丽”,1),(“有”,2),(“一个”,3),(“小”,4),(“羔羊”,5)]> > >tmp2扩展(((“的”,6),(“羊毛”,7),(“是”,8),(“白色”,9)))> > >sc并行化(tmp2)sortByKey(真正的,3,keyfunc=λk:k较低的())收集()[(a, 3),(“羊毛”,7),(‘有’,2),(“羔羊”,5),…(9)“白”(“的”,6)]