pyspark.RDD.zipWithIndex

抽样。 zipWithIndex ( )→pyspark.rdd.RDD(元组(T,int] ]

拉链这抽样元素指标。

首先基于分区索引排序,然后每个分区内商品的订购。第一项在第一个分区索引0,和在过去的最后一项分区收到最大的指数。

这种方法需要触发火花工作当这个抽样包含不止一个分区。

例子

> > >sc并行化([“一个”,“b”,“c”,“d”),3)zipWithIndex()收集()[(' a ', 0)、(' b ', 1), (' c ', 2), (' d ', 3)]