GaussianMixtureModel

pyspark.ml.clustering。 GaussianMixtureModel ( java_model:可选(JavaObject]=没有一个 )

由GaussianMixture模型拟合。

方法

清晰的(参数)

清除参数映射的参数是否被显式地设置。

复制((额外的))

创建这个实例的副本具有相同uid和一些额外的参数。

explainParam(参数)

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams()

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap((额外的))

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

getAggregationDepth()

得到的价值aggregationDepth或其默认值。

getFeaturesCol()

得到的价值featuresCol或其默认值。

getK()

获得的价值k

getMaxIter()

麦克斯特的价值或其默认值。

getOrDefault(参数)

得到参数的值在用户提供的参数映射或其默认值。

getParam(paramName)

通过它的名称参数。

getPredictionCol()

得到的价值predictionCol或其默认值。

getProbabilityCol()

得到的价值probabilityCol或其默认值。

getSeed()

种子的价值或其默认值。

getTol()

被托尔的价值或其默认值。

getWeightCol()

得到的价值weightCol或其默认值。

hasDefault(参数)

检查是否一个参数有默认值。

hasParam(paramName)

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined(参数)

检查参数是否由用户或显式地设置一个默认值。

收取(参数)

检查参数是否由用户显式地设置。

负载(路径)

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

预测(值)

预测给定特性的标签。

predictProbability(值)

预测概率给定特性。

()

返回一个MLReader这个类的实例。

保存(路径)

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

(参数值)

设置一个参数嵌入参数映射。

setFeaturesCol(值)

设置的值featuresCol

setPredictionCol(值)

设置的值predictionCol

setProbabilityCol(值)

设置的值probabilityCol

变换(数据集[params))

与可选参数转换的输入数据集。

()

返回一个MLWriter实例毫升实例。

属性

aggregationDepth

featuresCol

高斯函数

的数组MultivariateGaussian在高斯函数[我]代表多元高斯(正常)分布为高斯我

gaussiansDF

检索DataFrame高斯分布。

hasSummary

表明这个模型实例是否存在一个培训总结。

k

麦克斯特

参数个数

返回所有参数命令的名字。

predictionCol

probabilityCol

种子

总结

总结(集群,集群大小)模型的训练训练集。

托尔

weightCol

权重

重量为每个高斯分布的混合物。

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有

清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→摩根大通

创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.

参数
额外的 东西,可选

额外参数复制到新实例

返回
JavaParams

这个实例的副本

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数
额外的 东西,可选

额外的参数值

返回
dict

合并后的参数映射

getAggregationDepth ( )→int

得到的价值aggregationDepth或其默认值。

getFeaturesCol ( )→str

得到的价值featuresCol或其默认值。

getK ( )→int

获得的价值k

getMaxIter ( )→int

麦克斯特的价值或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T]

得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getParam ( paramName:str )pyspark.ml.param.Param

通过它的名称参数。

getPredictionCol ( )→str

得到的价值predictionCol或其默认值。

getProbabilityCol ( )→str

得到的价值probabilityCol或其默认值。

getSeed ( )→int

种子的价值或其默认值。

getTol ( )→浮动

被托尔的价值或其默认值。

getWeightCol ( )→str

得到的价值weightCol或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查是否一个参数有默认值。

hasParam ( paramName:str )→bool

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户或显式地设置一个默认值。

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

预测 ( 价值:pyspark.ml.linalg.Vector )→int

预测给定特性的标签。

predictProbability ( 价值:pyspark.ml.linalg.Vector )pyspark.ml.linalg.Vector

预测概率给定特性。

classmethod ( )→pyspark.ml.util.JavaMLReader(RL]

返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

( 参数:pyspark.ml.param.Param,价值:任何 )→没有

设置一个参数嵌入参数映射。

setFeaturesCol ( 价值:str )pyspark.ml.clustering.GaussianMixtureModel

设置的值featuresCol

setPredictionCol ( 价值:str )pyspark.ml.clustering.GaussianMixtureModel

设置的值predictionCol

setProbabilityCol ( 价值:str )pyspark.ml.clustering.GaussianMixtureModel

设置的值probabilityCol

变换 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame

与可选参数转换的输入数据集。

参数
数据集 pyspark.sql.DataFrame

输入数据集

参数个数 东西,可选

一个可选的参数覆盖嵌入参数的地图。

返回
pyspark.sql.DataFrame

改变了数据集

( )→pyspark.ml.util.JavaMLWriter

返回一个MLWriter实例毫升实例。

属性的文档

aggregationDepth =参数(父母=‘定义’,name = ' aggregationDepth ', doc =的建议深度treeAggregate (> = 2)。)
featuresCol =参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。)
高斯函数

的数组MultivariateGaussian在高斯函数[我]代表多元高斯(正常)分布为高斯我

gaussiansDF

检索DataFrame高斯分布。每一行代表一个高斯分布。DataFrame有两列:意思是(向量)和x(矩阵)。

hasSummary

表明这个模型实例是否存在一个培训总结。

k :pyspark.ml.param.Param (int) =参数(父母=‘定义’,名字=“k”,医生= '的独立的高斯函数混合模型。必须> 1。)
麦克斯特 =参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。)
参数个数

返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数

predictionCol =参数(父母=‘定义’,name = ' predictionCol ', doc =预测列名称。)
probabilityCol =参数(父母=‘定义’,name = ' probabilityCol ', doc = '列名为预测类条件概率。注意:并不是所有的模型输出精确校准的概率估计!这些概率应该被视为机密,而不是精确的概率。”)
种子 =参数(父母=‘定义’,name =“种子”,医生=“随机种子。”)
总结

总结(集群,集群大小)模型的训练集训练。如果没有总结抛出异常。

托尔 =参数(父母=‘定义’,name =“托尔”,医生=迭代算法的收敛公差(> = 0)”。)
weightCol =参数(父母=‘定义’,name = ' weightCol ', doc = '体重列名。如果这不是设置或空,我们对所有实例权重为1.0。”)
权重

重量为每个高斯分布的混合物。这是一个多项式概率分布在k高斯函数,在权重[我]是高斯的重量,我和权重之和为1。