RandomRDDs<一个类="headerlink" href="//www.neidfyre.com/api-docs/python/pyspark/latest/api/#randomrdds" title="¶">¶

pyspark.mllib.random。 RandomRDDs

生成器创建我组成的抽样方法。d一些样本分布。

方法

exponentialRDD(sc,意思是,大小[…])

生成一个抽样由先验知识。

exponentialVectorRDD(sc,意思是,numRows numCols)

生成一个抽样包含先验知识组成的向量。

gammaRDD(sc、形状、规模、大小[…])

生成一个抽样由先验知识。

gammaVectorRDD(sc、形状、规模、numRows…)

生成一个抽样包含先验知识组成的向量。

logNormalRDD(sc,意思是,性病,大小[…])

生成一个抽样由先验知识。

logNormalVectorRDD(sc,意思是,性病,numRows…)

生成一个抽样包含先验知识组成的向量。

normalRDD(sc、大小[numPartitions,种子])

生成一个抽样由先验知识。

normalVectorRDD(sc、numRows numCols […])

生成一个抽样包含先验知识组成的向量。

poissonRDD(sc,意思是,大小[numPartitions,种子])

生成一个抽样由先验知识。

poissonVectorRDD(sc,意思是,numRows numCols)

生成一个抽样包含先验知识组成的向量。

uniformRDD(sc、大小[numPartitions,种子])

生成一个抽样由先验知识。

uniformVectorRDD(sc、numRows numCols […])

生成一个抽样包含先验知识组成的向量。

方法的文档

静态 exponentialRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个抽样由i.i.d.样本输入的指数分布的意思。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

的意思是 浮动

意思是,或1 /λ,指数分布。

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的浮子由i.i.d.样品~ Exp(的意思)。

例子

> > >的意思是=2.0> > >x=RandomRDDsexponentialRDD(sc,的意思是,1000年,种子=2)> > >统计数据=x统计数据()> > >统计数据()1000年> > >腹肌(统计数据的意思是()- - - - - -的意思是)<0.5真正的> > >数学进口√6> > >腹肌(统计数据方差()- - - - - -√6(的意思是))<0.5真正的
静态 exponentialVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本从输入的指数分布的意思。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

的意思是 浮动

意思是,或1 /λ,指数分布。

numRows int

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样样本向量和向量包含i.i.d. ~ Exp(的意思)。

例子

> > >进口numpy作为np> > >的意思是=0.5> > >抽样=RandomRDDsexponentialVectorRDD(sc,的意思是,One hundred.,One hundred.,种子=1)> > >=np(抽样收集())> > >形状(100,100)> > >腹肌(的意思是()- - - - - -的意思是)<0.5真正的> > >数学进口√6> > >腹肌(性病()- - - - - -√6(的意思是))<0.5真正的
静态 gammaRDD ( sc:pyspark.context.SparkContext,形状:浮动,规模:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个抽样由i.i.d.样本输入的伽马分布形状和规模。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

形状 浮动

形状(> 0)伽马分布的参数

规模 浮动

规模(> 0)伽马分布的参数

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的浮子由i.i.d.样品~γ(形状、规模)。

例子

> > >数学进口√6> > >形状=1.0> > >规模=2.0> > >expMean=形状*规模> > >expStd=√6(形状*规模*规模)> > >x=RandomRDDsgammaRDD(sc,形状,规模,1000年,种子=2)> > >统计数据=x统计数据()> > >统计数据()1000年> > >腹肌(统计数据的意思是()- - - - - -expMean)<0.5真正的> > >腹肌(统计数据方差()- - - - - -expStd)<0.5真正的
静态 gammaVectorRDD ( sc:pyspark.context.SparkContext,形状:浮动,规模:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本来自伽马分布。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

形状 浮动

伽马分布的形状(> 0)

规模 浮动

伽马分布的规模(> 0)

numRows int

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选的,

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样样本向量和向量包含i.i.d. ~γ(形状、规模)。

例子

> > >进口numpy作为np> > >数学进口√6> > >形状=1.0> > >规模=2.0> > >expMean=形状*规模> > >expStd=√6(形状*规模*规模)> > >=np矩阵(RandomRDDsgammaVectorRDD(sc,形状,规模,One hundred.,One hundred.,种子=1)收集())> > >形状(100,100)> > >腹肌(的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(性病()- - - - - -expStd)<0.1真正的
静态 logNormalRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,性病:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个抽样由i.i.d.样本输入的对数正态分布均值和标准分布。

参数
sc pyspark.SparkContext

用于创建抽样。

的意思是 浮动

意味着为对数正态分布

性病 浮动

性病的对数正态分布

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
抽样的浮子由i.i.d.样品~ o (log N)(意思是,std)。

例子

> > >数学进口√6,经验值> > >的意思是=0.0> > >性病=1.0> > >expMean=经验值(的意思是+0.5*性病*性病)> > >expStd=√6((经验值(性病*性病)- - - - - -1.0)*经验值(2.0*的意思是+性病*性病))> > >x=RandomRDDslogNormalRDD(sc,的意思是,性病,1000年,种子=2)> > >统计数据=x统计数据()> > >统计数据()1000年> > >腹肌(统计数据的意思是()- - - - - -expMean)<0.5真正的> > >数学进口√6> > >腹肌(统计数据方差()- - - - - -expStd)<0.5真正的
静态 logNormalVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,性病:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本的对数正态分布。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

的意思是 浮动

对数正态分布的均值

性病 浮动

对数正态分布的标准偏差

numRows int

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样样本向量和向量包含i.i.d. ~日志N(意思是,std)

例子

> > >进口numpy作为np> > >数学进口√6,经验值> > >的意思是=0.0> > >性病=1.0> > >expMean=经验值(的意思是+0.5*性病*性病)> > >expStd=√6((经验值(性病*性病)- - - - - -1.0)*经验值(2.0*的意思是+性病*性病))> > >=RandomRDDslogNormalVectorRDD(sc,的意思是,性病,One hundred.,One hundred.,种子=1)收集()> > >=np矩阵()> > >形状(100,100)> > >腹肌(的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(性病()- - - - - -expStd)<0.1真正的
静态 normalRDD ( sc:pyspark.context.SparkContext,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个i.i.d.组成的抽样样本的标准正态分布。

将从标准正态分布生成的抽样其他正常N(意思是,σ^ 2),使用RandomRDDs.normal (sc,n,p,种子). map(λv:的意思是+σ*v)

参数
sc pyspark.SparkContext

用于创建抽样。

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的浮子由i.i.d.样品~ N (0.0, 1.0)。

例子

> > >x=RandomRDDsnormalRDD(sc,1000年,种子=1)> > >统计数据=x统计数据()> > >统计数据()1000年> > >腹肌(统计数据的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(统计数据方差()- - - - - -1.0)<0.1真正的
静态 normalVectorRDD ( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本来自正态分布的标准。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

numRows int

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的向量和向量包含i.i.d.样品~N (0.0, 1.0)

例子

> > >进口numpy作为np> > >=np矩阵(RandomRDDsnormalVectorRDD(sc,One hundred.,One hundred.,种子=1)收集())> > >形状(100,100)> > >腹肌(的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(性病()- - - - - -1.0)<0.1真正的
静态 poissonRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个抽样由i.i.d.样本输入的泊松分布的意思。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

的意思是 浮动

意思是,或λ,泊松分布。

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的浮子由i.i.d.样品~ Pois(的意思)。

例子

> > >的意思是=100.0> > >x=RandomRDDspoissonRDD(sc,的意思是,1000年,种子=2)> > >统计数据=x统计数据()> > >统计数据()1000年> > >腹肌(统计数据的意思是()- - - - - -的意思是)<0.5真正的> > >数学进口√6> > >腹肌(统计数据方差()- - - - - -√6(的意思是))<0.5真正的
静态 poissonVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本来自泊松分布与输入的意思。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

的意思是 浮动

意思是,或λ,泊松分布。

numRows 浮动

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样样本向量和向量包含i.i.d. ~ Pois(的意思)。

例子

> > >进口numpy作为np> > >的意思是=100.0> > >抽样=RandomRDDspoissonVectorRDD(sc,的意思是,One hundred.,One hundred.,种子=1)> > >=np(抽样收集())> > >形状(100,100)> > >腹肌(的意思是()- - - - - -的意思是)<0.5真正的> > >数学进口√6> > >腹肌(性病()- - - - - -√6(的意思是))<0.5真正的
静态 uniformRDD ( sc:pyspark.context.SparkContext,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动]

生成一个抽样由i.i.d.样本均匀分布U (0.0, 1.0)。

将在生成的抽样分布从U (0.0, 1.0) (a、b),使用RandomRDDs.uniformRDD (sc,n,p,种子). map(λv:一个+(b- - - - - -一)*v)

参数
sc pyspark.SparkContext

用于创建抽样。

大小 int

抽样的大小。

numPartitions int,可选

抽样数量的分区(默认值:sc.defaultParallelism)。

种子 int,可选

随机种子(默认值:一个随机整数)。

返回
pyspark.RDD

抽样的浮动~ i.i.d.组成的样本U (0.0, 1.0)

例子

> > >x=RandomRDDsuniformRDD(sc,One hundred.)收集()> > >len(x)One hundred.> > >马克斯(x)< =1.0最小值(x)> =0.0真正的> > >RandomRDDsuniformRDD(sc,One hundred.,4)getNumPartitions()4> > >部分=RandomRDDsuniformRDD(sc,One hundred.,种子=4)getNumPartitions()> > >部分= =scdefaultParallelism真正的
静态 uniformVectorRDD ( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一个包含i.i.d.向量组成的抽样样本来自均匀分布U (0.0, 1.0)。

参数
sc pyspark.SparkContext

SparkContext用来创建抽样。

numRows int

抽样数量的向量。

numCols int

在每个向量的元素数量。

numPartitions int,可选

抽样数量的分区。

种子 int,可选

RNG产生种子的种子每个分区的发电机。

返回
pyspark.RDD

包含我抽样向量和向量。d样品~U (0.0, 1.0)

例子

> > >进口numpy作为np> > >=np矩阵(RandomRDDsuniformVectorRDD(sc,10,10)收集())> > >形状(10,10)> > >马克斯()< =1.0最小值()> =0.0真正的> > >RandomRDDsuniformVectorRDD(sc,10,10,4)getNumPartitions()4