StreamingLogisticRegressionWithSGD

pyspark.mllib.classification。 StreamingLogisticRegressionWithSGD ( stepSize:浮动=0.1,numIterations:int=50,miniBatchFraction:浮动=1.0,regParam:浮动=0.0,convergenceTol:浮动=0.001 )

火车或预测流数据的逻辑回归模型。培训使用随机梯度下降法来更新模型基于每个新批DStream传入的数据。

每一批的数据被认为是一个LabeledPoints抽样。数据点的数量每批可以不同,但功能的数量必须是常数。必须提供一个初始权向量。

参数
stepSize 浮动,可选

为每个迭代步长梯度下降法。(默认值:0.1)

numIterations int,可选

运行的迭代次数为每一批数据。(默认值:50)

miniBatchFraction 浮动,可选

分数每一批的数据用于更新。(默认值:1.0)

regParam 浮动,可选

L2正则化参数。(默认值:0.0)

convergenceTol 浮动,可选

值用来确定何时终止迭代。(默认值:0.001)

方法

latestModel()

返回最新的模型。

predictOn(dstream)

使用该模型来预测从DStream批次的数据。

predictOnValues(dstream)

利用该模型预测的值DStream和携带的钥匙。

setInitialWeights(initialWeights)

设置权重的初始值。

trainOn(dstream)

在传入dstream火车模型。

方法的文档

latestModel ( )→可选( pyspark.mllib.regression.LinearModel ]

返回最新的模型。

predictOn ( dstream:DStream(VectorLike] )→DStream(浮动]

使用该模型来预测从DStream批次的数据。

返回
pyspark.streaming.DStream

DStream包含预测。

predictOnValues ( dstream:DStream(元组(K,VectorLike]] )→DStream(元组(K,浮动] ]

利用该模型预测的值DStream和携带的钥匙。

返回
pyspark.streaming.DStream

DStream包含预测。

setInitialWeights ( initialWeights:VectorLike )→StreamingLogisticRegressionWithSGD

设置权重的初始值。

这个运行trainOn和predictOn之前必须设置。

trainOn ( dstream:pyspark.streaming.dstream.DStream(pyspark.mllib.regression.LabeledPoint] )→没有

在传入dstream火车模型。