pyspark.RDD.aggregateByKey

抽样。 aggregateByKey ( zeroValue: U, seqFunc:调用(U, V), U, combFunc:调用(U, U), U, numPartitions:可选(int) = None, partitionFunc:可调用的[[K], int] = <函数portable_hash > )→pyspark.rdd.RDD(元组(K,U] ]

聚合每个键的值,使用组合函数和一个中立的“零值”。这个函数可以返回不同的结果类型,U,比在这个抽样值的类型,V .因此,我们需要为U V合并成一个操作,一个操作合并两个U,前者操作用于合并值在一个分区中,而后者用于合并分区之间的值。为了避免内存分配,这些函数都是允许修改并返回它们的第一个参数,而不是创建一个新的你。