LinearDataGenerator

pyspark.mllib.util。 LinearDataGenerator

跑龙套生成线性数据。

方法

generateLinearInput(拦截、重量…)

参数

generateLinearRDD(sc、nexamples nfeatures eps)

生成一个LabeledPoints抽样。

方法的文档

静态 generateLinearInput ( 拦截:浮动,权重:VectorLike,xMean:VectorLike,xVariance:VectorLike,nPoints:int,种子:int,每股收益:浮动 )→列表(LabeledPoint]
参数
拦截 浮动

偏差系数,c X 'w + c

权重 pyspark.mllib.linalg.Vector或可转换

特征向量,这个词在X 'w + c w

xMean pyspark.mllib.linalg.Vector或可转换

点在数据X为中心。

xVariance pyspark.mllib.linalg.Vector或可转换

给定数据的方差

nPoints int

点生成的数量

种子 int

随机种子

每股收益 浮动

用于规模噪音。如果设置了每股收益高,添加高斯噪声的数量更多。

返回
列表

pyspark.mllib.regression.LabeledPoints长度nPoints

静态 generateLinearRDD ( sc:pyspark.context.SparkContext,nexamples:int,nfeatures:int,每股收益:浮动,nParts:int=2,拦截:浮动=0.0 )→pyspark.rdd.RDD(LabeledPoint]

生成一个LabeledPoints抽样。