LogisticRegressionModel¶
-
类
pyspark.mllib.classification。
LogisticRegressionModel
( 权重:pyspark.mllib.linalg.Vector,拦截:浮动,numFeatures:int,numClasses:int ) ¶ -
分类模型的训练使用多项/二元逻辑回归。
- 参数
-
-
权重
pyspark.mllib.linalg.Vector
-
权重计算为每个特性。
- 拦截 浮动
-
截距计算模型。(仅用于二进制逻辑回归。在多项逻辑回归,拦截不会单个值,因此拦截将权重的一部分。)
- numFeatures int
-
的维数特征。
- numClasses int
-
可能的结果的数量在多项逻辑回归k类的分类问题。默认情况下,它是二进制逻辑回归所以numClasses将被设置为2。
-
权重
例子
> > >从pyspark.mllib.linalg进口SparseVector> > >数据=(…LabeledPoint(0.0,(0.0,1.0]),…LabeledPoint(1.0,(1.0,0.0]),…]> > >lrm=LogisticRegressionWithSGD。火车(sc。并行化(数据),迭代=10)> > >lrm。预测([1.0,0.0])1> > >lrm。预测([0.0,1.0])0> > >lrm。预测(sc。并行化([[1.0,0.0),(0.0,1.0]]))。收集()(1,0)> > >lrm。clearThreshold()> > >lrm。预测([0.0,1.0])0.279……
> > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:0.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >lrm=LogisticRegressionWithSGD。火车(sc。并行化(sparse_data),迭代=10)> > >lrm。预测(numpy。数组([0.0,1.0)))1> > >lrm。预测(numpy。数组([1.0,0.0)))0> > >lrm。预测(SparseVector(2,{1:1.0}))1> > >lrm。预测(SparseVector(2,{0:1.0}))0> > >进口操作系统,tempfile> > >路径=tempfile。mkdtemp()> > >lrm。保存(sc,路径)> > >sameModel=LogisticRegressionModel。负载(sc,路径)> > >sameModel。预测(numpy。数组([0.0,1.0)))1> > >sameModel。预测(SparseVector(2,{0:1.0}))0> > >从shutil进口rmtree> > >试一试:…rmtree(路径)…除了BaseException:…通过> > >multi_class_data=(…LabeledPoint(0.0,(0.0,1.0,0.0]),…LabeledPoint(1.0,(1.0,0.0,0.0]),…LabeledPoint(2.0,(0.0,0.0,1.0])…]> > >数据=sc。并行化(multi_class_data)> > >罗马数字=LogisticRegressionWithLBFGS。火车(数据,迭代=10,numClasses=3)> > >罗马数字。预测([0.0,0.5,0.0])0> > >罗马数字。预测([0.8,0.0,0.0])1> > >罗马数字。预测([0.0,0.0,0.3])2
方法
扫清了阈值,这样预测将输出的原始预测分数。
负载
(sc路径)从给定的路径加载模型。
预测
(x)预测单个数据点的值或一个抽样点的使用模型训练。
保存
(sc路径)这个模型保存到给定的路径。
setThreshold
(值)设置阈值之间积极的预测从消极的预测。
属性
截距计算模型。
一些可能的结果在多项逻辑回归k类的分类问题。
维度的特性。
返回阈值(如果有的话)用于预测预测分数转化为0/1。
权重计算为每个特性。
方法的文档
-
clearThreshold
( )→没有¶ -
扫清了阈值,这样预测将输出的原始预测分数。这是仅用于二进制分类。
-
classmethod
负载
( sc:pyspark.context.SparkContext,路径:str )→pyspark.mllib.classification.LogisticRegressionModel ¶ -
从给定的路径加载模型。
-
预测
( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(pyspark.rdd.RDD(联盟(int,浮动] ] ,int,浮动] ¶ -
预测单个数据点的值或一个抽样点的使用模型训练。
-
保存
( sc:pyspark.context.SparkContext,路径:str )→没有¶ -
这个模型保存到给定的路径。
-
setThreshold
( 价值:浮动 )→没有¶ -
设置阈值之间积极的预测从消极的预测。一个例子与预测得分大于或等于阈值被认为是积极和消极的。这是仅用于二进制分类。
属性的文档
-
拦截
¶ -
截距计算模型。
-
numClasses
¶ -
一些可能的结果在多项逻辑回归k类的分类问题。
-
numFeatures
¶ -
维度的特性。
-
阈值
¶ -
返回阈值(如果有的话)用于预测预测分数转化为0/1。这是仅用于二进制分类。
-
权重
¶ -
权重计算为每个特性。