RandomRDDs<一个类="headerlink" href="//www.neidfyre.com/api-docs/python/pyspark/latest/api/#randomrdds" title="¶">¶
-
类
pyspark.mllib.random。
RandomRDDs
¶ -
生成器创建我组成的抽样方法。d一些样本分布。
方法
exponentialRDD
(sc,意思是,大小[…])生成一个抽样由先验知识。
exponentialVectorRDD
(sc,意思是,numRows numCols)生成一个抽样包含先验知识组成的向量。
gammaRDD
(sc、形状、规模、大小[…])生成一个抽样由先验知识。
gammaVectorRDD
(sc、形状、规模、numRows…)生成一个抽样包含先验知识组成的向量。
logNormalRDD
(sc,意思是,性病,大小[…])生成一个抽样由先验知识。
logNormalVectorRDD
(sc,意思是,性病,numRows…)生成一个抽样包含先验知识组成的向量。
normalRDD
(sc、大小[numPartitions,种子])生成一个抽样由先验知识。
normalVectorRDD
(sc、numRows numCols […])生成一个抽样包含先验知识组成的向量。
poissonRDD
(sc,意思是,大小[numPartitions,种子])生成一个抽样由先验知识。
poissonVectorRDD
(sc,意思是,numRows numCols)生成一个抽样包含先验知识组成的向量。
uniformRDD
(sc、大小[numPartitions,种子])生成一个抽样由先验知识。
uniformVectorRDD
(sc、numRows numCols […])生成一个抽样包含先验知识组成的向量。
方法的文档
-
静态
exponentialRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个抽样由i.i.d.样本输入的指数分布的意思。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 的意思是 浮动
-
意思是,或1 /λ,指数分布。
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的浮子由i.i.d.样品~ Exp(的意思)。
-
例子
> > >的意思是=2.0> > >x=RandomRDDs。exponentialRDD(sc,的意思是,1000年,种子=2)> > >统计数据=x。统计数据()> > >统计数据。数()1000年> > >腹肌(统计数据。的意思是()- - - - - -的意思是)<0.5真正的> > >从数学进口√6> > >腹肌(统计数据。方差()- - - - - -√6(的意思是))<0.5真正的
-
静态
exponentialVectorRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本从输入的指数分布的意思。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 的意思是 浮动
-
意思是,或1 /λ,指数分布。
- numRows int
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样样本向量和向量包含i.i.d. ~ Exp(的意思)。
-
例子
> > >进口numpy作为np> > >的意思是=0.5> > >抽样=RandomRDDs。exponentialVectorRDD(sc,的意思是,One hundred.,One hundred.,种子=1)> > >垫=np。垫(抽样。收集())> > >垫。形状(100,100)> > >腹肌(垫。的意思是()- - - - - -的意思是)<0.5真正的> > >从数学进口√6> > >腹肌(垫。性病()- - - - - -√6(的意思是))<0.5真正的
-
静态
gammaRDD
( sc:pyspark.context.SparkContext,形状:浮动,规模:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个抽样由i.i.d.样本输入的伽马分布形状和规模。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 形状 浮动
-
形状(> 0)伽马分布的参数
- 规模 浮动
-
规模(> 0)伽马分布的参数
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的浮子由i.i.d.样品~γ(形状、规模)。
-
例子
> > >从数学进口√6> > >形状=1.0> > >规模=2.0> > >expMean=形状*规模> > >expStd=√6(形状*规模*规模)> > >x=RandomRDDs。gammaRDD(sc,形状,规模,1000年,种子=2)> > >统计数据=x。统计数据()> > >统计数据。数()1000年> > >腹肌(统计数据。的意思是()- - - - - -expMean)<0.5真正的> > >腹肌(统计数据。方差()- - - - - -expStd)<0.5真正的
-
静态
gammaVectorRDD
( sc:pyspark.context.SparkContext,形状:浮动,规模:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本来自伽马分布。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 形状 浮动
-
伽马分布的形状(> 0)
- 规模 浮动
-
伽马分布的规模(> 0)
- numRows int
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选的,
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样样本向量和向量包含i.i.d. ~γ(形状、规模)。
-
例子
> > >进口numpy作为np> > >从数学进口√6> > >形状=1.0> > >规模=2.0> > >expMean=形状*规模> > >expStd=√6(形状*规模*规模)> > >垫=np。矩阵(RandomRDDs。gammaVectorRDD(sc,形状,规模,One hundred.,One hundred.,种子=1)。收集())> > >垫。形状(100,100)> > >腹肌(垫。的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(垫。性病()- - - - - -expStd)<0.1真正的
-
静态
logNormalRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,性病:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个抽样由i.i.d.样本输入的对数正态分布均值和标准分布。
- 参数
-
-
sc
pyspark.SparkContext
-
用于创建抽样。
- 的意思是 浮动
-
意味着为对数正态分布
- 性病 浮动
-
性病的对数正态分布
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
- 抽样的浮子由i.i.d.样品~ o (log N)(意思是,std)。
例子
> > >从数学进口√6,经验值> > >的意思是=0.0> > >性病=1.0> > >expMean=经验值(的意思是+0.5*性病*性病)> > >expStd=√6((经验值(性病*性病)- - - - - -1.0)*经验值(2.0*的意思是+性病*性病))> > >x=RandomRDDs。logNormalRDD(sc,的意思是,性病,1000年,种子=2)> > >统计数据=x。统计数据()> > >统计数据。数()1000年> > >腹肌(统计数据。的意思是()- - - - - -expMean)<0.5真正的> > >从数学进口√6> > >腹肌(统计数据。方差()- - - - - -expStd)<0.5真正的
-
静态
logNormalVectorRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,性病:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本的对数正态分布。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 的意思是 浮动
-
对数正态分布的均值
- 性病 浮动
-
对数正态分布的标准偏差
- numRows int
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样样本向量和向量包含i.i.d. ~日志N(意思是,std)。
-
例子
> > >进口numpy作为np> > >从数学进口√6,经验值> > >的意思是=0.0> > >性病=1.0> > >expMean=经验值(的意思是+0.5*性病*性病)> > >expStd=√6((经验值(性病*性病)- - - - - -1.0)*经验值(2.0*的意思是+性病*性病))> > >米=RandomRDDs。logNormalVectorRDD(sc,的意思是,性病,One hundred.,One hundred.,种子=1)。收集()> > >垫=np。矩阵(米)> > >垫。形状(100,100)> > >腹肌(垫。的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(垫。性病()- - - - - -expStd)<0.1真正的
-
静态
normalRDD
( sc:pyspark.context.SparkContext,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个i.i.d.组成的抽样样本的标准正态分布。
将从标准正态分布生成的抽样其他正常N(意思是,σ^ 2),使用
RandomRDDs.normal (sc,n,p,种子). map(λv:的意思是+σ*v)
- 参数
-
-
sc
pyspark.SparkContext
-
用于创建抽样。
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的浮子由i.i.d.样品~ N (0.0, 1.0)。
-
例子
> > >x=RandomRDDs。normalRDD(sc,1000年,种子=1)> > >统计数据=x。统计数据()> > >统计数据。数()1000年> > >腹肌(统计数据。的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(统计数据。方差()- - - - - -1.0)<0.1真正的
-
静态
normalVectorRDD
( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本来自正态分布的标准。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- numRows int
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的向量和向量包含i.i.d.样品~N (0.0, 1.0)。
-
例子
> > >进口numpy作为np> > >垫=np。矩阵(RandomRDDs。normalVectorRDD(sc,One hundred.,One hundred.,种子=1)。收集())> > >垫。形状(100,100)> > >腹肌(垫。的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(垫。性病()- - - - - -1.0)<0.1真正的
-
静态
poissonRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个抽样由i.i.d.样本输入的泊松分布的意思。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 的意思是 浮动
-
意思是,或λ,泊松分布。
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的浮子由i.i.d.样品~ Pois(的意思)。
-
例子
> > >的意思是=100.0> > >x=RandomRDDs。poissonRDD(sc,的意思是,1000年,种子=2)> > >统计数据=x。统计数据()> > >统计数据。数()1000年> > >腹肌(统计数据。的意思是()- - - - - -的意思是)<0.5真正的> > >从数学进口√6> > >腹肌(统计数据。方差()- - - - - -√6(的意思是))<0.5真正的
-
静态
poissonVectorRDD
( sc:pyspark.context.SparkContext,的意思是:浮动,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本来自泊松分布与输入的意思。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- 的意思是 浮动
-
意思是,或λ,泊松分布。
- numRows 浮动
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样样本向量和向量包含i.i.d. ~ Pois(的意思)。
-
例子
> > >进口numpy作为np> > >的意思是=100.0> > >抽样=RandomRDDs。poissonVectorRDD(sc,的意思是,One hundred.,One hundred.,种子=1)> > >垫=np。垫(抽样。收集())> > >垫。形状(100,100)> > >腹肌(垫。的意思是()- - - - - -的意思是)<0.5真正的> > >从数学进口√6> > >腹肌(垫。性病()- - - - - -√6(的意思是))<0.5真正的
-
静态
uniformRDD
( sc:pyspark.context.SparkContext,大小:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD(浮动] ¶ -
生成一个抽样由i.i.d.样本均匀分布U (0.0, 1.0)。
将在生成的抽样分布从U (0.0, 1.0) (a、b),使用
RandomRDDs.uniformRDD (sc,n,p,种子). map(λv:一个+(b- - - - - -一)*v)
- 参数
-
-
sc
pyspark.SparkContext
-
用于创建抽样。
- 大小 int
-
抽样的大小。
- numPartitions int,可选
-
抽样数量的分区(默认值:sc.defaultParallelism)。
- 种子 int,可选
-
随机种子(默认值:一个随机整数)。
-
sc
- 返回
-
-
pyspark.RDD
-
抽样的浮动~ i.i.d.组成的样本U (0.0, 1.0)。
-
例子
> > >x=RandomRDDs。uniformRDD(sc,One hundred.)。收集()> > >len(x)One hundred.> > >马克斯(x)< =1.0和最小值(x)> =0.0真正的> > >RandomRDDs。uniformRDD(sc,One hundred.,4)。getNumPartitions()4> > >部分=RandomRDDs。uniformRDD(sc,One hundred.,种子=4)。getNumPartitions()> > >部分= =sc。defaultParallelism真正的
-
静态
uniformVectorRDD
( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可选(int]=没有一个,种子:可选(int]=没有一个 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
生成一个包含i.i.d.向量组成的抽样样本来自均匀分布U (0.0, 1.0)。
- 参数
-
-
sc
pyspark.SparkContext
-
SparkContext用来创建抽样。
- numRows int
-
抽样数量的向量。
- numCols int
-
在每个向量的元素数量。
- numPartitions int,可选
-
抽样数量的分区。
- 种子 int,可选
-
RNG产生种子的种子每个分区的发电机。
-
sc
- 返回
-
-
pyspark.RDD
-
包含我抽样向量和向量。d样品~U (0.0, 1.0)。
-
例子
> > >进口numpy作为np> > >垫=np。矩阵(RandomRDDs。uniformVectorRDD(sc,10,10)。收集())> > >垫。形状(10,10)> > >垫。马克斯()< =1.0和垫。最小值()> =0.0真正的> > >RandomRDDs。uniformVectorRDD(sc,10,10,4)。getNumPartitions()4
-
静态