pyspark.RDD.randomSplit¶
-
抽样。
randomSplit
( 权重:序列(联盟(int,浮动]],种子:可选(int]=没有一个 )→列表(pyspark.rdd.RDD(T] ] ¶ -
随机分裂这个抽样所提供的重量。
- 权重列表
-
权重分裂,将归一化如果他们不总和为1
- 种子int,可选
-
随机种子
- 返回
-
- 列表
-
列表中抽样
例子
> > >抽样=sc。并行化(范围(500年),1)> > >rdd1,rdd2=抽样。randomSplit([2,3),17)> > >len(rdd1。收集()+rdd2。收集())500年> > >150年<rdd1。数()<250年真正的> > >250年<rdd2。数()<350年真正的