LogisticRegressionModel¶

类 pyspark.mllib.classification。 LogisticRegressionModel ( 权重:pyspark.mllib.linalg.Vector,拦截:浮动,numFeatures:int,numClasses:int ) ¶

分类模型的训练使用多项/二元逻辑回归。

参数

权重 pyspark.mllib.linalg.Vector: 权重计算为每个特性。
拦截浮动: 截距计算模型。(仅用于二进制逻辑回归。在多项逻辑回归,拦截不会单个值,因此拦截将权重的一部分。)
numFeatures int: 的维数特征。
numClasses int: 可能的结果的数量在多项逻辑回归k类的分类问题。默认情况下,它是二进制逻辑回归所以numClasses将被设置为2。

例子

           > > >从pyspark.mllib.linalg进口SparseVector> > >数据=(…LabeledPoint(0.0,(0.0,1.0]),…LabeledPoint(1.0,(1.0,0.0]),…]> > >lrm=LogisticRegressionWithSGD。火车(sc。并行化(数据),迭代=10)> > >lrm。预测([1.0,0.0])1> > >lrm。预测([0.0,1.0])0> > >lrm。预测(sc。并行化([[1.0,0.0),(0.0,1.0]]))。收集()(1,0)> > >lrm。clearThreshold()> > >lrm。预测([0.0,1.0])0.279……
          

           > > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:0.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >lrm=LogisticRegressionWithSGD。火车(sc。并行化(sparse_data),迭代=10)> > >lrm。预测(numpy。数组([0.0,1.0)))1> > >lrm。预测(numpy。数组([1.0,0.0)))0> > >lrm。预测(SparseVector(2,{1:1.0}))1> > >lrm。预测(SparseVector(2,{0:1.0}))0> > >进口操作系统,tempfile> > >路径=tempfile。mkdtemp()> > >lrm。保存(sc,路径)> > >sameModel=LogisticRegressionModel。负载(sc,路径)> > >sameModel。预测(numpy。数组([0.0,1.0)))1> > >sameModel。预测(SparseVector(2,{0:1.0}))0> > >从shutil进口rmtree> > >试一试:…rmtree(路径)…除了BaseException:…通过> > >multi_class_data=(…LabeledPoint(0.0,(0.0,1.0,0.0]),…LabeledPoint(1.0,(1.0,0.0,0.0]),…LabeledPoint(2.0,(0.0,0.0,1.0])…]> > >数据=sc。并行化(multi_class_data)> > >罗马数字=LogisticRegressionWithLBFGS。火车(数据,迭代=10,numClasses=3)> > >罗马数字。预测([0.0,0.5,0.0])0> > >罗马数字。预测([0.8,0.0,0.0])1> > >罗马数字。预测([0.0,0.0,0.3])2
          

方法

`clearThreshold`()	扫清了阈值,这样预测将输出的原始预测分数。
`负载`(sc路径)	从给定的路径加载模型。
`预测`(x)	预测单个数据点的值或一个抽样点的使用模型训练。
`保存`(sc路径)	这个模型保存到给定的路径。
`setThreshold`(值)	设置阈值之间积极的预测从消极的预测。

属性

`拦截`	截距计算模型。
`numClasses`	一些可能的结果在多项逻辑回归k类的分类问题。
`numFeatures`	维度的特性。
`阈值`	返回阈值(如果有的话)用于预测预测分数转化为0/1。
`权重`	权重计算为每个特性。

方法的文档

clearThreshold ( )→没有¶: 扫清了阈值,这样预测将输出的原始预测分数。这是仅用于二进制分类。

classmethod 负载 ( sc:pyspark.context.SparkContext,路径:str )→pyspark.mllib.classification.LogisticRegressionModel ¶: 从给定的路径加载模型。

预测 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(pyspark.rdd.RDD(联盟(int,浮动] ] ,int,浮动] ¶: 预测单个数据点的值或一个抽样点的使用模型训练。

保存 ( sc:pyspark.context.SparkContext,路径:str )→没有¶: 这个模型保存到给定的路径。

setThreshold ( 价值:浮动 )→没有¶: 设置阈值之间积极的预测从消极的预测。一个例子与预测得分大于或等于阈值被认为是积极和消极的。这是仅用于二进制分类。

属性的文档

拦截 ¶: 截距计算模型。

numClasses ¶: 一些可能的结果在多项逻辑回归k类的分类问题。

numFeatures ¶: 维度的特性。

阈值 ¶: 返回阈值(如果有的话)用于预测预测分数转化为0/1。这是仅用于二进制分类。

权重 ¶: 权重计算为每个特性。

以前的

MLlib (RDD-based)

下一个

LogisticRegressionWithSGD