pyspark.RDD.randomSplit

抽样。 randomSplit ( 权重:序列(联盟(int,浮动]],种子:可选(int]=没有一个 )→列表(pyspark.rdd.RDD(T] ]

随机分裂这个抽样所提供的重量。

权重列表

权重分裂,将归一化如果他们不总和为1

种子int,可选

随机种子

返回
列表

列表中抽样

例子

> > >抽样=sc并行化(范围(500年),1)> > >rdd1,rdd2=抽样randomSplit([2,3),17)> > >len(rdd1收集()+rdd2收集())500年> > >150年<rdd1()<250年真正的> > >250年<rdd2()<350年真正的