GBTRegressionModel¶

类 pyspark.ml.regression。 GBTRegressionModel ( java_model:可选(JavaObject]=没有一个 ) ¶

模型拟合的GBTRegressor。

方法

`清晰的`(参数)	清除参数映射的参数是否被显式地设置。
`复制`((额外的))	创建这个实例的副本具有相同uid和一些额外的参数。
`evaluateEachIteration`(损失数据集)	为每个迭代方法计算错误或丢失的梯度增加。
`explainParam`(参数)	解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
`explainParams`()	返回文档的所有参数选择默认值和用户提供的值。
`extractParamMap`((额外的))	提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
`getCacheNodeIds`()	得到的价值cacheNodeIds或其默认值。
`getCheckpointInterval`()	得到的价值checkpointInterval或其默认值。
`getFeatureSubsetStrategy`()	得到的价值featureSubsetStrategy或其默认值。
`getFeaturesCol`()	得到的价值featuresCol或其默认值。
`getImpurity`()	杂质的价值或其默认值。
`getLabelCol`()	得到的价值labelCol或其默认值。
`getLeafCol`()	得到的价值leafCol或其默认值。
`getLossType`()	得到的价值lossType或其默认值。
`getMaxBins`()	得到的价值maxBins或其默认值。
`getMaxDepth`()	maxDepth的价值或其默认值。
`getMaxIter`()	麦克斯特的价值或其默认值。
`getMaxMemoryInMB`()	得到的价值maxMemoryInMB或其默认值。
`getMinInfoGain`()	得到的价值minInfoGain或其默认值。
`getMinInstancesPerNode`()	得到的价值minInstancesPerNode或其默认值。
`getMinWeightFractionPerNode`()	得到的价值minWeightFractionPerNode或其默认值。
`getOrDefault`(参数)	得到参数的值在用户提供的参数映射或其默认值。
`getParam`(paramName)	通过它的名称参数。
`getPredictionCol`()	得到的价值predictionCol或其默认值。
`getSeed`()	种子的价值或其默认值。
`getStepSize`()	得到的价值stepSize或其默认值。
`getSubsamplingRate`()	得到的价值subsamplingRate或其默认值。
`getValidationIndicatorCol`()	得到的价值validationIndicatorCol或其默认值。
`getValidationTol`()	得到的价值validationTol或其默认值。
`getWeightCol`()	得到的价值weightCol或其默认值。
`hasDefault`(参数)	检查是否一个参数有默认值。
`hasParam`(paramName)	测试这个实例包含一个参数是否与给定名称(字符串)。
`isDefined`(参数)	检查参数是否由用户或显式地设置一个默认值。
`收取`(参数)	检查参数是否由用户显式地设置。
`负载`(路径)	从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
`预测`(值)	预测给定特性的标签。
`predictLeaf`(值)	预测树叶的指标对应的特征向量。
`读`()	返回一个MLReader这个类的实例。
`保存`(路径)	这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
`集`(参数值)	设置一个参数嵌入参数映射。
`setFeaturesCol`(值)	设置的值`featuresCol`。
`setLeafCol`(值)	设置的值`leafCol`。
`setPredictionCol`(值)	设置的值`predictionCol`。
`变换`(数据集[params))	与可选参数转换的输入数据集。
`写`()	返回一个MLWriter实例毫升实例。

属性

`cacheNodeIds`
`checkpointInterval`
`featureImportances`	估计每个特性的重要性。
`featureSubsetStrategy`
`featuresCol`
`getNumTrees`	树木的数量。
`杂质`
`labelCol`
`leafCol`
`lossType`
`maxBins`
`maxDepth`
`麦克斯特`
`maxMemoryInMB`
`minInfoGain`
`minInstancesPerNode`
`minWeightFractionPerNode`
`numFeatures`	返回的数量特征模型训练。
`参数个数`	返回所有参数命令的名字。
`predictionCol`
`种子`
`stepSize`
`subsamplingRate`
`supportedFeatureSubsetStrategies`
`supportedImpurities`
`supportedLossTypes`
`toDebugString`	完整的描述模型。
`totalNumNodes`	的节点总数,求和所有树木。
`treeWeights`	返回每棵树的权重
`树`	树木在这个乐团。
`validationIndicatorCol`
`validationTol`
`weightCol`

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有¶: 清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→摩根大通¶

创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.

参数

额外的 东西,可选: 额外参数复制到新实例

返回

JavaParams: 这个实例的副本

evaluateEachIteration ( 数据集:pyspark.sql.dataframe.DataFrame,损失:str )→列表(浮动] ¶

为每个迭代方法计算错误或丢失的梯度增加。

参数

数据集 pyspark.sql.DataFrame: 测试数据集评估模型,数据集的一个实例pyspark.sql.DataFrame
损失 str: 损失函数用于计算错误。支持选择:平方,绝对的

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str¶: 解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str¶: 返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap¶

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数

额外的 东西,可选: 额外的参数值

返回

dict: 合并后的参数映射

getCacheNodeIds ( )→bool¶: 得到的价值cacheNodeIds或其默认值。

getCheckpointInterval ( )→int¶: 得到的价值checkpointInterval或其默认值。

getFeatureSubsetStrategy ( )→str¶: 得到的价值featureSubsetStrategy或其默认值。

getFeaturesCol ( )→str¶: 得到的价值featuresCol或其默认值。

getImpurity ( )→str¶: 杂质的价值或其默认值。

getLabelCol ( )→str¶: 得到的价值labelCol或其默认值。

getLeafCol ( )→str¶: 得到的价值leafCol或其默认值。

getLossType ( )→str¶: 得到的价值lossType或其默认值。

getMaxBins ( )→int¶: 得到的价值maxBins或其默认值。

getMaxDepth ( )→int¶: maxDepth的价值或其默认值。

getMaxIter ( )→int¶: 麦克斯特的价值或其默认值。

getMaxMemoryInMB ( )→int¶: 得到的价值maxMemoryInMB或其默认值。

getMinInfoGain ( )→浮动¶: 得到的价值minInfoGain或其默认值。

getMinInstancesPerNode ( )→int¶: 得到的价值minInstancesPerNode或其默认值。

getMinWeightFractionPerNode ( )→浮动¶: 得到的价值minWeightFractionPerNode或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T] ¶: 得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getParam ( paramName:str )→pyspark.ml.param.Param ¶: 通过它的名称参数。

getPredictionCol ( )→str¶: 得到的价值predictionCol或其默认值。

getSeed ( )→int¶: 种子的价值或其默认值。

getStepSize ( )→浮动¶: 得到的价值stepSize或其默认值。

getSubsamplingRate ( )→浮动¶: 得到的价值subsamplingRate或其默认值。

getValidationIndicatorCol ( )→str¶: 得到的价值validationIndicatorCol或其默认值。

getValidationTol ( )→浮动¶: 得到的价值validationTol或其默认值。

getWeightCol ( )→str¶: 得到的价值weightCol或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查是否一个参数有默认值。

hasParam ( paramName:str )→bool¶: 测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查参数是否由用户或显式地设置一个默认值。

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL¶: 从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。

预测 ( 价值:T )→浮动¶: 预测给定特性的标签。

predictLeaf ( 价值:pyspark.ml.linalg.Vector )→浮动¶: 预测树叶的指标对应的特征向量。

classmethod 读 ( )→pyspark.ml.util.JavaMLReader(RL] ¶: 返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有¶: 这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

集 ( 参数:pyspark.ml.param.Param,价值:任何 )→没有¶: 设置一个参数嵌入参数映射。

setFeaturesCol ( 价值:str )→P¶: 设置的值featuresCol。

setLeafCol ( 价值:str )→P¶: 设置的值leafCol。

setPredictionCol ( 价值:str )→P¶: 设置的值predictionCol。

变换 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame¶

与可选参数转换的输入数据集。

参数

数据集 pyspark.sql.DataFrame: 输入数据集
参数个数 东西,可选: 一个可选的参数覆盖嵌入参数的地图。

返回

pyspark.sql.DataFrame: 改变了数据集

写 ( )→pyspark.ml.util.JavaMLWriter¶: 返回一个MLWriter实例毫升实例。

属性的文档

cacheNodeIds =参数(父母=‘定义’,name = ' cacheNodeIds ', doc = '如果错误,算法将树木与节点执行人匹配实例。如果这是真的,该算法将缓存节点为每个实例id。缓存可以加快训练更深层次的树。用户可以设置缓存应该多久通过设置checkpointInterval检查点或禁用它。”) ¶

checkpointInterval =参数(父母=‘定义’,name = ' checkpointInterval ', doc = '设置检查点间隔(> = 1)或禁用检查点(1)。例如10意味着缓存将检查点每10迭代。注意:此设置将被忽略,如果目录没有设置检查站SparkContext。”) ¶

featureImportances ¶

估计每个特性的重要性。

每个特性的重要性是它的重要性在所有树的平均向量规范化的重要性的合奏总和为1。提出的这种方法是Hastie et al。(Hastie Tibshirani,弗里德曼。“统计学习的要素,第二版。2001。从scikit-learn)开始的,并遵照执行。

例子

DecisionTreeRegressionModel.featureImportances

featureSubsetStrategy =参数(父母=‘定义’,name = ' featureSubsetStrategy ', doc = "的特性考虑数量在每个树节点分裂。支持选择:“汽车”(自动选择任务:如果numTrees = = 1,设置为“所有”。如果numTrees > 1(森林),设置为“√”为分类和回归“onethird”),“所有”(使用所有功能),“onethird”(使用1/3的特性),“√”(调用sqrt(特性)的数量),“log2”(用log2(特性)的数量),“n”(当n的范围(0,1.0],使用n *数量的特性。当n的范围(1,数量的功能),使用n特性)。默认=汽车”) ¶

featuresCol =参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。) ¶

getNumTrees ¶: 树木的数量。

杂质 =参数(父母=‘定义’,name =“杂质”,医生= '标准用于信息增益计算(不区分大小写)。支持选择:方差”) ¶

labelCol :Param (str) =参数(父母=‘定义’,name = ' labelCol ', doc =“标签列名。”) ¶

leafCol =参数(父母=‘定义’,name = ' leafCol ', doc = '叶指数列名。预测叶指数每棵树的每个实例预订。) ¶

lossType =参数(父母=‘定义’,name = ' lossType ', doc = '损失函数GBT试图最小化(不区分大小写)。支持选择:平方,绝对的) ¶

maxBins =参数(父母=‘定义’,name = ' maxBins ', doc = '最大数量的垃圾箱离散化连续特性。必须> = 2,> =数量的类别分类特性。”) ¶

maxDepth =参数(父母=‘定义’,name = ' maxDepth ',医生= '树的最大深度。(> = 0)例如,深度0意味着1叶节点;深度1意味着1 + 2叶节点内部节点。必须在区间[0,30]。”) ¶

麦克斯特 =参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。) ¶

maxMemoryInMB =参数(父母=‘定义’,name = ' maxMemoryInMB ',医生在MB = '最大内存分配给直方图聚合。如果太小,那么1个节点将被分配每个迭代,和它的总量可能超过这个大小。”) ¶

minInfoGain =参数(父母=‘定义’,name = ' minInfoGain ', doc =分割的最小信息增益被认为是在一个树节点。) ¶

minInstancesPerNode =参数(父母=‘定义’,name = ' minInstancesPerNode ', doc = '每个孩子都必须有最小数量的实例后分裂。如果分裂导致左边或者右边的孩子不到minInstancesPerNode,分割将作为无效的被丢弃。应该是> = 1”。) ¶

minWeightFractionPerNode =参数(父母=‘定义’,name = ' minWeightFractionPerNode ', doc = '的最低分数加权样本计数后,每个孩子都必须有分裂。如果一个分裂导致分数总重量的向左或向右孩子小于minWeightFractionPerNode,分割将作为无效的被丢弃。应该在区间[0.0,0.5)。”) ¶

numFeatures ¶: 返回的数量特征模型训练。如果未知,返回1

参数个数 ¶: 返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数。

predictionCol =参数(父母=‘定义’,name = ' predictionCol ', doc =预测列名称。) ¶

种子 =参数(父母=‘定义’,name =“种子”,医生=“随机种子。”) ¶

stepSize =参数(父母=‘定义’,name = ' stepSize ', doc = '步长(又名学习速率)在区间(0,1)缩小每个估计量的贡献。”) ¶

subsamplingRate =参数(父母=‘定义’,name = ' subsamplingRate ', doc = '训练数据的一部分用于学习每一个决策树,在范围(0,1]。) ¶

supportedFeatureSubsetStrategies =[‘汽车’,‘所有’,‘onethird’,‘√’,‘log2’) ¶

supportedImpurities =(“方差”) ¶

supportedLossTypes =(“平方”,“绝对”) ¶

toDebugString ¶: 完整的描述模型。

totalNumNodes ¶: 的节点总数,求和所有树木。

treeWeights ¶: 返回每棵树的权重

树 ¶: 树木在这个乐团。警告:这些零父母估计。

validationIndicatorCol =参数(父母=‘定义’,name = ' validationIndicatorCol ', doc = '的名字列表明每一行是否为培训或验证。错误显示培训;真正显示验证。) ¶

validationTol =参数(父母=‘定义’,name = ' validationTol ', doc = '阈值时停止早符合使用验证。如果错误率小于validationTol验证输入的变化,然后将停止学习早期(“麦克斯特”之前)。使用时,将忽略此参数适合没有验证。) ¶

weightCol =参数(父母=‘定义’,name = ' weightCol ', doc = '体重列名。如果这不是设置或空,我们对所有实例权重为1.0。”) ¶

以前的

GBTRegressor

下一个

GeneralizedLinearRegression