LogisticRegressionModel

pyspark.mllib.classification。 LogisticRegressionModel ( 权重:pyspark.mllib.linalg.Vector,拦截:浮动,numFeatures:int,numClasses:int )

分类模型的训练使用多项/二元逻辑回归。

参数
权重 pyspark.mllib.linalg.Vector

权重计算为每个特性。

拦截 浮动

截距计算模型。(仅用于二进制逻辑回归。在多项逻辑回归,拦截不会单个值,因此拦截将权重的一部分。)

numFeatures int

的维数特征。

numClasses int

可能的结果的数量在多项逻辑回归k类的分类问题。默认情况下,它是二进制逻辑回归所以numClasses将被设置为2。

例子

> > >pyspark.mllib.linalg进口SparseVector> > >数据=(LabeledPoint(0.0,(0.0,1.0]),LabeledPoint(1.0,(1.0,0.0]),]> > >lrm=LogisticRegressionWithSGD火车(sc并行化(数据),迭代=10)> > >lrm预测([1.0,0.0])1> > >lrm预测([0.0,1.0])0> > >lrm预测(sc并行化([[1.0,0.0),(0.0,1.0]]))收集()(1,0)> > >lrmclearThreshold()> > >lrm预测([0.0,1.0])0.279……
> > >sparse_data=(LabeledPoint(0.0,SparseVector(2,{0:0.0})),LabeledPoint(1.0,SparseVector(2,{1:1.0})),LabeledPoint(0.0,SparseVector(2,{0:1.0})),LabeledPoint(1.0,SparseVector(2,{1:2.0}))]> > >lrm=LogisticRegressionWithSGD火车(sc并行化(sparse_data),迭代=10)> > >lrm预测(numpy数组([0.0,1.0)))1> > >lrm预测(numpy数组([1.0,0.0)))0> > >lrm预测(SparseVector(2,{1:1.0}))1> > >lrm预测(SparseVector(2,{0:1.0}))0> > >进口操作系统,tempfile> > >路径=tempfilemkdtemp()> > >lrm保存(sc,路径)> > >sameModel=LogisticRegressionModel负载(sc,路径)> > >sameModel预测(numpy数组([0.0,1.0)))1> > >sameModel预测(SparseVector(2,{0:1.0}))0> > >shutil进口rmtree> > >试一试:rmtree(路径)除了BaseException:通过> > >multi_class_data=(LabeledPoint(0.0,(0.0,1.0,0.0]),LabeledPoint(1.0,(1.0,0.0,0.0]),LabeledPoint(2.0,(0.0,0.0,1.0])]> > >数据=sc并行化(multi_class_data)> > >罗马数字=LogisticRegressionWithLBFGS火车(数据,迭代=10,numClasses=3)> > >罗马数字预测([0.0,0.5,0.0])0> > >罗马数字预测([0.8,0.0,0.0])1> > >罗马数字预测([0.0,0.0,0.3])2

方法

clearThreshold()

扫清了阈值,这样预测将输出的原始预测分数。

负载(sc路径)

从给定的路径加载模型。

预测(x)

预测单个数据点的值或一个抽样点的使用模型训练。

保存(sc路径)

这个模型保存到给定的路径。

setThreshold(值)

设置阈值之间积极的预测从消极的预测。

属性

拦截

截距计算模型。

numClasses

一些可能的结果在多项逻辑回归k类的分类问题。

numFeatures

维度的特性。

阈值

返回阈值(如果有的话)用于预测预测分数转化为0/1。

权重

权重计算为每个特性。

方法的文档

clearThreshold ( )→没有

扫清了阈值,这样预测将输出的原始预测分数。这是仅用于二进制分类。

classmethod 负载 ( sc:pyspark.context.SparkContext,路径:str )pyspark.mllib.classification.LogisticRegressionModel

从给定的路径加载模型。

预测 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(pyspark.rdd.RDD(联盟(int,浮动] ] ,int,浮动]

预测单个数据点的值或一个抽样点的使用模型训练。

保存 ( sc:pyspark.context.SparkContext,路径:str )→没有

这个模型保存到给定的路径。

setThreshold ( 价值:浮动 )→没有

设置阈值之间积极的预测从消极的预测。一个例子与预测得分大于或等于阈值被认为是积极和消极的。这是仅用于二进制分类。

属性的文档

拦截

截距计算模型。

numClasses

一些可能的结果在多项逻辑回归k类的分类问题。

numFeatures

维度的特性。

阈值

返回阈值(如果有的话)用于预测预测分数转化为0/1。这是仅用于二进制分类。

权重

权重计算为每个特性。