pyspark.RDD.zipWithIndex¶

抽样。 zipWithIndex ( )→pyspark.rdd.RDD(元组(T,int] ] ¶

拉链这抽样元素指标。

首先基于分区索引排序,然后每个分区内商品的订购。第一项在第一个分区索引0,和在过去的最后一项分区收到最大的指数。

这种方法需要触发火花工作当这个抽样包含不止一个分区。

例子

           > > >sc。并行化([“一个”,“b”,“c”,“d”),3)。zipWithIndex()。收集()[(' a ', 0)、(' b ', 1), (' c ', 2), (' d ', 3)]
          

以前的

pyspark.RDD.zip

下一个

pyspark.RDD.zipWithUniqueId