GradientBoostedTrees¶
-
类
pyspark.mllib.tree。
GradientBoostedTrees
¶ -
为一个梯度学习算法提高了分类和回归树模型。
方法
trainClassifier
(数据、categoricalFeaturesInfo)火车gradient-boosted树木模型的分类。
trainRegressor
(数据、categoricalFeaturesInfo)训练gradient-boosted回归树模型。
方法的文档
-
classmethod
trainClassifier
( 数据:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],损失:str=“logLoss”,numIterations:int=One hundred.,learningRate:浮动=0.1,maxDepth:int=3,maxBins:int=32 )→pyspark.mllib.tree.GradientBoostedTreesModel ¶ -
火车gradient-boosted树木模型的分类。
- 参数
-
-
数据
pyspark.RDD
-
训练数据集:LabeledPoint抽样。标签应该值{0,1}。
- categoricalFeaturesInfo dict
-
地图存储参数数量分类的功能。一个条目(n - > k)表明功能n k类别索引从0直言:{0,1,…,k - 1}。
- 损失 str,可选
-
损失函数在梯度增加用于最小化。支持的价值观:“logLoss”、“leastSquaresError”,“leastAbsoluteError”。(默认:“logLoss”)
- numIterations int,可选
-
迭代次数增加。(默认:100)
- learningRate 浮动,可选
-
学习速率的减少每个估计的贡献。学习速率应该之间的间隔(0,1)。(默认值:0.1)
- maxDepth int,可选
-
树的最大深度(例如深度0意味着1叶节点,深度1意味着1 + 2叶节点内部节点)。(默认值是3)
- maxBins int,可选
-
最大数量的垃圾箱用于分裂功能。DecisionTree需要maxBins > = max类别。(默认值:32)
-
数据
- 返回
-
-
GradientBoostedTreesModel
-
可用于预测。
-
例子
> > >从pyspark.mllib.regression进口LabeledPoint> > >从pyspark.mllib.tree进口GradientBoostedTrees> > >> > >数据=(…LabeledPoint(0.0,(0.0]),…LabeledPoint(0.0,(1.0]),…LabeledPoint(1.0,(2.0]),…LabeledPoint(1.0,(3.0])…]> > >> > >模型=GradientBoostedTrees。trainClassifier(sc。并行化(数据),{},numIterations=10)> > >模型。numTrees()10> > >模型。totalNumNodes()30.> > >打印(模型)#它已经有换行符TreeEnsembleModel与10棵树分类器> > >模型。预测([2.0])1.0> > >模型。预测([0.0])0.0> > >抽样=sc。并行化([[2.0),(0.0]])> > >模型。预测(抽样)。收集()[1.0,0.0]
-
classmethod
trainRegressor
( 数据:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],损失:str=“leastSquaresError”,numIterations:int=One hundred.,learningRate:浮动=0.1,maxDepth:int=3,maxBins:int=32 )→pyspark.mllib.tree.GradientBoostedTreesModel ¶ -
训练gradient-boosted回归树模型。
- 参数
-
- 数据:
-
训练数据集:LabeledPoint抽样。标签是实数。
- categoricalFeaturesInfo dict
-
地图存储参数数量分类的功能。一个条目(n - > k)表明功能n k类别索引从0直言:{0,1,…,k - 1}。
- 损失 str,可选
-
损失函数在梯度增加用于最小化。支持的价值观:“logLoss”、“leastSquaresError”,“leastAbsoluteError”。(默认:“leastSquaresError”)
- numIterations int,可选
-
迭代次数增加。(默认:100)
- learningRate 浮动,可选
-
学习速率的减少每个估计的贡献。学习速率应该之间的间隔(0,1)。(默认值:0.1)
- maxDepth int,可选
-
树的最大深度(例如深度0意味着1叶节点,深度1意味着1 + 2叶节点内部节点)。(默认值是3)
- maxBins int,可选
-
最大数量的垃圾箱用于分裂功能。DecisionTree需要maxBins > = max类别。(默认值:32)
- 返回
-
-
GradientBoostedTreesModel
-
可用于预测。
-
例子
> > >从pyspark.mllib.regression进口LabeledPoint> > >从pyspark.mllib.tree进口GradientBoostedTrees> > >从pyspark.mllib.linalg进口SparseVector> > >> > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >> > >数据=sc。并行化(sparse_data)> > >模型=GradientBoostedTrees。trainRegressor(数据,{},numIterations=10)> > >模型。numTrees()10> > >模型。totalNumNodes()12> > >模型。预测(SparseVector(2,{1:1.0}))1.0> > >模型。预测(SparseVector(2,{0:1.0}))0.0> > >抽样=sc。并行化([[0.0,1.0),(1.0,0.0]])> > >模型。预测(抽样)。收集()[1.0,0.0]
-
classmethod