OneVsRest

pyspark.ml.classification。 OneVsRest ( *,featuresCol:str=“特性”,labelCol:str=“标签”,predictionCol:str=“预测”,rawPredictionCol:str=“rawPrediction”,分类器:可选(pyspark.ml.classification.Classifier(厘米]]=没有一个,weightCol:可选(str]=没有一个,并行性:int=1 )

减少多级分类二进制分类。减少执行使用一个对所有策略。多级分类与k类,火车k模型(每个类一个)。每个例子是得分对所有k模型和模型与得分最高的是标签的例子了。

例子

> > >pyspark.sql进口> > >pyspark.ml.linalg进口向量> > >data_path=“数据/ mllib / sample_multiclass_classification_data.txt”> > >df=火花格式(“libsvm”)负载(data_path)> > >lr=LogisticRegression(regParam=0.01)> > >表达=OneVsRest(分类器=lr)> > >表达getRawPredictionCol()“rawPrediction”> > >表达setPredictionCol(“newPrediction”)OneVsRest……> > >模型=表达适合(df)> > >模型模型(0]系数DenseVector ([0.5…,-1.0……,3.4……,4。2。。。])> > >模型模型(1]系数DenseVector ([-2.1…,3.1……,- - - - - -2。6..., -2.3...])> > >模型模型(2]系数DenseVector ([0.3…,-3.4……,1.0……,- - - - - -1。1。。。])> > >(x拦截x模型模型][-2.7……,- - - - - -2。5..., -1.3...]> > >电平=sc并行化([(特性=向量密集的(- - - - - -1.0,0.0,1.0,1.0))))toDF()> > >模型变换(电平)()newPrediction0.0> > >test1=sc并行化([(特性=向量稀疏的(4,(0),(1.0)))))toDF()> > >模型变换(test1)()newPrediction2.0> > >test2=sc并行化([(特性=向量密集的(0.5,0.4,0.3,0.2))))toDF()> > >模型变换(test2)()newPrediction0.0> > >model_path=temp_path+“/ ovr_model”> > >模型保存(model_path)> > >model2=OneVsRestModel负载(model_path)> > >model2变换(电平)()newPrediction0.0> > >模型变换(电平)(1)= =model2变换(电平)(1)真正的> > >模型变换(test2)[‘功能’,‘rawPrediction’,‘newPrediction’)

方法

清晰的(参数)

清除参数映射的参数是否被显式地设置。

复制((额外的))

创建这个实例的副本和一个随机生成的uid和一些额外的参数。

explainParam(参数)

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams()

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap((额外的))

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

适合(数据集[params))

适合一个模型与可选参数的输入数据集。

fitMultiple(paramMaps数据集)

适合一个模型为每个参数映射的输入数据集paramMaps

getClassifier()

得到的值分类器或其默认值。

getFeaturesCol()

得到的价值featuresCol或其默认值。

getLabelCol()

得到的价值labelCol或其默认值。

getOrDefault(参数)

得到参数的值在用户提供的参数映射或其默认值。

getParallelism()

并行性的价值或其默认值。

getParam(paramName)

通过它的名称参数。

getPredictionCol()

得到的价值predictionCol或其默认值。

getRawPredictionCol()

得到的价值rawPredictionCol或其默认值。

getWeightCol()

得到的价值weightCol或其默认值。

hasDefault(参数)

检查是否一个参数有默认值。

hasParam(paramName)

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined(参数)

检查参数是否由用户或显式地设置一个默认值。

收取(参数)

检查参数是否由用户显式地设置。

负载(路径)

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

()

返回一个MLReader这个类的实例。

保存(路径)

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

(参数值)

设置一个参数嵌入参数映射。

setClassifier(值)

设置的值分类器

setFeaturesCol(值)

设置的值featuresCol

setLabelCol(值)

设置的值labelCol

setParallelism(值)

设置的值并行性

setparam(* [,labelCol featuresCol…))

setparam(自我,*,featuresCol =“特性”,labelCol =“标签”,predictionCol =“预测”,rawPredictionCol =“rawPrediction”,分类器= None, weightCol =没有并行性= 1):集OneVsRest参数。

setPredictionCol(值)

设置的值predictionCol

setRawPredictionCol(值)

设置的值rawPredictionCol

setWeightCol(值)

设置的值weightCol

()

返回一个MLWriter实例毫升实例。

属性

分类器

featuresCol

labelCol

并行性

参数个数

返回所有参数命令的名字。

predictionCol

rawPredictionCol

weightCol

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有

清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→OneVsRest

创建这个实例的副本和一个随机生成的uid和一些额外的参数。这将创建一个深嵌入式paramMap副本,副本嵌入式和额外的参数。

返回
OneVsRest

这个实例的副本

例子

额外的东西,可选

额外参数复制到新实例

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数
额外的 东西,可选

额外的参数值

返回
dict

合并后的参数映射

适合 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:联盟[ParamMap、列表(ParamMap)元组(ParamMap),没有一个)=没有一个 )→联盟(,列表(] ]

适合一个模型与可选参数的输入数据集。

参数
数据集 pyspark.sql.DataFrame

输入数据集。

参数个数 dict或列表或元组,可选的

一个可选的参数覆盖嵌入参数的地图。如果列表/元组的参数映射,这适用于每一个参数并返回一个列表的模型映射。

返回
变压器或者一个列表变压器

拟合模型(年代)

fitMultiple ( 数据集:pyspark.sql.dataframe.DataFrame,paramMaps:序列(ParamMap] )→迭代器(元组(int,] ]

适合一个模型为每个参数映射的输入数据集paramMaps

参数
数据集 pyspark.sql.DataFrame

输入数据集。

paramMaps collections.abc.Sequence

一系列的参数映射。

返回
_FitMultipleIterator

一个线程安全的iterable包含为每个参数映射模型。每次调用下一个(modelIterator)将返回(指数模型)模型是适合使用在哪里paramMaps(指数)指数值可能不是连续的。

getClassifier ( )→pyspark.ml.classification.Classifier

得到的值分类器或其默认值。

getFeaturesCol ( )→str

得到的价值featuresCol或其默认值。

getLabelCol ( )→str

得到的价值labelCol或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T]

得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getParallelism ( )→int

并行性的价值或其默认值。

getParam ( paramName:str )pyspark.ml.param.Param

通过它的名称参数。

getPredictionCol ( )→str

得到的价值predictionCol或其默认值。

getRawPredictionCol ( )→str

得到的价值rawPredictionCol或其默认值。

getWeightCol ( )→str

得到的价值weightCol或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查是否一个参数有默认值。

hasParam ( paramName:str )→bool

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户或显式地设置一个默认值。

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

classmethod ( )→pyspark.ml.classification.OneVsRestReader

返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

( 参数:pyspark.ml.param.Param,价值:任何 )→没有

设置一个参数嵌入参数映射。

setClassifier ( 价值:pyspark.ml.classification.Classifier(厘米] )pyspark.ml.classification.OneVsRest

设置的值分类器

setFeaturesCol ( 价值:str )pyspark.ml.classification.OneVsRest

设置的值featuresCol

setLabelCol ( 价值:str )pyspark.ml.classification.OneVsRest

设置的值labelCol

setParallelism ( 价值:int )pyspark.ml.classification.OneVsRest

设置的值并行性

setparam ( *,featuresCol:str=“特性”,labelCol:str=“标签”,predictionCol:str=“预测”,rawPredictionCol:str=“rawPrediction”,分类器:可选(pyspark.ml.classification.Classifier(厘米]]=没有一个,weightCol:可选(str]=没有一个,并行性:int=1 )pyspark.ml.classification.OneVsRest

setparam(自我,*,featuresCol =“特性”,labelCol =“标签”,predictionCol =“预测”,rawPredictionCol =“rawPrediction”,分类器= None, weightCol =没有并行性= 1):集OneVsRest参数。

setPredictionCol ( 价值:str )pyspark.ml.classification.OneVsRest

设置的值predictionCol

setRawPredictionCol ( 价值:str )pyspark.ml.classification.OneVsRest

设置的值rawPredictionCol

setWeightCol ( 价值:str )pyspark.ml.classification.OneVsRest

设置的值weightCol

( )pyspark.ml.util.MLWriter

返回一个MLWriter实例毫升实例。

属性的文档

分类器 =参数(父母=‘定义’,name =“分类”,医生=“基二元分类器”)
featuresCol =参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。)
labelCol =参数(父母=‘定义’,name = ' labelCol ', doc =“标签列名。”)
并行性 =参数(父母=‘定义’,name =“并行性”,医生=数量的线程使用的并行算法运行时(> = 1)。)
参数个数

返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数

predictionCol =参数(父母=‘定义’,name = ' predictionCol ', doc =预测列名称。)
rawPredictionCol =参数(父母=‘定义’,name = ' rawPredictionCol ', doc =“原始预测(又名信心)列名”。)
weightCol =参数(父母=‘定义’,name = ' weightCol ', doc = '体重列名。如果这不是设置或空,我们对所有实例权重为1.0。”)