LinearRegressionWithSGD¶
-
类
pyspark.mllib.regression。
LinearRegressionWithSGD
¶ -
火车没有正规化的线性回归模型使用随机梯度下降法。
方法
火车
(数据、迭代步骤,…)使用随机梯度下降训练线性回归模型(SGD)。
方法的文档
-
classmethod
火车
( 数据:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],迭代:int=One hundred.,一步:浮动=1.0,miniBatchFraction:浮动=1.0,initialWeights:可选(VectorLike]=没有一个,regParam:浮动=0.0,regType:可选(str]=没有一个,拦截:bool=假,validateData:bool=真正的,convergenceTol:浮动=0.001 )→pyspark.mllib.regression.LinearRegressionModel ¶ -
使用随机梯度下降训练线性回归模型(SGD)。这解决了最小二乘回归公式
f(权重)= 1 / (2 n) | |一个权重- y | | ^ 2
均方误差。这里的数据矩阵n行,输入抽样的行集,每个都有其相应的右手边标签y。参见文档的精确公式。
- 参数
-
-
数据
pyspark.RDD
-
训练数据,LabeledPoint的抽样。
- 迭代 int,可选
-
迭代的数量。(默认:100)
- 一步 浮动,可选
-
步骤参数用于SGD。(默认值:1.0)
- miniBatchFraction 浮动,可选
-
部分数据被用于每个SGD迭代。(默认值:1.0)
-
initialWeights
pyspark.mllib.linalg.Vector
或可兑换,可选 -
最初的重量。(默认值:无)
- regParam 浮动,可选
-
调整参数。(默认值:0.0)
- regType str,可选
-
规范用于训练模型的类型。支持的价值观:
“l1”使用l1正规化
“l2”使用l2正规化
没有没有正规化(默认)
- 拦截 bool,可选
-
布尔参数表示的使用与否为训练数据(即增强表示。是否偏置功能被激活)。(默认值:False)
- validateData bool,可选
-
布尔参数,表明该算法是否应该训练之前验证数据。(默认值是真实的)
- convergenceTol 浮动,可选
-
一个决定迭代终止条件。(默认值:0.001)
-
数据
-
classmethod