pyspark.SparkContext.runJob

SparkContext。 runJob ( 抽样:pyspark.rdd.RDD(T],partitionFunc:可调用的((Iterable(T]],Iterable(U]],分区:可选(序列(int]]=没有一个,allowLocal:bool= )→列表(U]

执行给定partitionFunc指定的分区上,返回结果的数组元素。

如果没有指定“分区”,这将在所有分区运行。

例子

> > >myRDD=sc并行化(范围(6),3)> > >scrunJob(myRDD,λ部分:(x*xx部分])(0、1、4、9、16、25)
> > >myRDD=sc并行化(范围(6),3)> > >scrunJob(myRDD,λ部分:(x*xx部分),(0,2),真正的)(0,1,16日,25)