pyspark.RDD.countByKey

抽样。 countByKey ( )→Dict类型(K,int]

计数为每个关键元素的个数,并将结果返回给主作为一个字典。

例子

> > >抽样=sc并行化(((“一个”,1),(“b”,1),(“一个”,1)))> > >排序(抽样countByKey()项目())[(' a ', 2), (' b ', 1))