KMeans¶
-
类
pyspark.ml.clustering。
KMeans
( *,featuresCol:str=“特性”,predictionCol:str=“预测”,k:int=2,initMode:str=“k - means | |”,initSteps:int=2,托尔:浮动=0.0001,麦克斯特:int=20.,种子:可选(int]=没有一个,distanceMeasure:str=“欧几里得”,weightCol:可选(str]=没有一个,解算器:str=“汽车”,maxBlockSizeInMB:浮动=0.0 ) ¶ -
与这样的k - means + + k - means聚类初始化模式(k - means | | Bahmani等算法)。
例子
> > >从pyspark.ml.linalg进口向量> > >数据=((向量。密集的([0.0,0.0]),2.0),(向量。密集的([1.0,1.0]),2.0),…(向量。密集的([9.0,8.0]),2.0),(向量。密集的([8.0,9.0]),2.0)]> > >df=火花。createDataFrame(数据,(“特征”,“weighCol”])> > >kmeans=KMeans(k=2)> > >kmeans。setSeed(1)KMeans……> > >kmeans。setWeightCol(“weighCol”)KMeans……> > >kmeans。setMaxIter(10)KMeans……> > >kmeans。getMaxIter()10> > >kmeans。清晰的(kmeans。麦克斯特)> > >kmeans。getSolver()“汽车”> > >模型=kmeans。适合(df)> > >模型。getMaxBlockSizeInMB()0.0> > >模型。getDistanceMeasure()“欧几里得”> > >模型。setPredictionCol(“newPrediction”)KMeansModel……> > >模型。预测(df。头()。特性)0> > >中心=模型。clusterCenters()> > >len(中心)2> > >改变了=模型。变换(df)。选择(“特征”,“newPrediction”)> > >行=改变了。收集()> > >行(0]。newPrediction= =行(1]。newPrediction真正的> > >行(2]。newPrediction= =行(3]。newPrediction真正的> > >模型。hasSummary真正的> > >总结=模型。总结> > >总结。k2> > >总结。clusterSizes(2,2)> > >总结。trainingCost4.0> > >kmeans_path=temp_path+“/ kmeans”> > >kmeans。保存(kmeans_path)> > >kmeans2=KMeans。负载(kmeans_path)> > >kmeans2。getK()2> > >model_path=temp_path+“/ kmeans_model”> > >模型。保存(model_path)> > >model2=KMeansModel。负载(model_path)> > >model2。hasSummary假> > >模型。clusterCenters()(0]= =model2。clusterCenters()(0]阵列(真的,真的,dtype = bool)> > >模型。clusterCenters()(1]= =model2。clusterCenters()(1]阵列(真的,真的,dtype = bool)> > >模型。变换(df)。取(1)= =model2。变换(df)。取(1)真正的
方法
清晰的
(参数)清除参数映射的参数是否被显式地设置。
复制
((额外的))创建这个实例的副本具有相同uid和一些额外的参数。
explainParam
(参数)解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
返回文档的所有参数选择默认值和用户提供的值。
extractParamMap
((额外的))提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
适合
(数据集[params))适合一个模型与可选参数的输入数据集。
fitMultiple
(paramMaps数据集)适合一个模型为每个参数映射的输入数据集paramMaps。
得到的价值distanceMeasure或其默认值。
得到的价值featuresCol或其默认值。
获得的价值initMode
获得的价值initSteps
getK
()获得的价值k
得到的价值maxBlockSizeInMB或其默认值。
麦克斯特的价值或其默认值。
getOrDefault
(参数)得到参数的值在用户提供的参数映射或其默认值。
getParam
(paramName)通过它的名称参数。
得到的价值predictionCol或其默认值。
getSeed
()种子的价值或其默认值。
得到解决的价值或其默认值。
getTol
()被托尔的价值或其默认值。
得到的价值weightCol或其默认值。
hasDefault
(参数)检查是否一个参数有默认值。
hasParam
(paramName)测试这个实例包含一个参数是否与给定名称(字符串)。
isDefined
(参数)检查参数是否由用户或显式地设置一个默认值。
收取
(参数)检查参数是否由用户显式地设置。
负载
(路径)从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
读
()返回一个MLReader这个类的实例。
保存
(路径)这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
集
(参数值)设置一个参数嵌入参数映射。
设置的值
distanceMeasure
。设置的值
featuresCol
。setInitMode
(值)设置的值
initMode
。setInitSteps
(值)设置的值
initSteps
。setK
(值)设置的值
k
。设置的值
maxBlockSizeInMB
。setMaxIter
(值)设置的值
麦克斯特
。setparam
(自我\ * (featuresCol,…))KMeans设置参数。
设置的值
predictionCol
。setSeed
(值)设置的值
种子
。setSolver
(值)设置的值
解算器
。setTol
(值)设置的值
托尔
。setWeightCol
(值)设置的值
weightCol
。写
()返回一个MLWriter实例毫升实例。
属性
返回所有参数命令的名字。
方法的文档
-
清晰的
( 参数:pyspark.ml.param.Param )→没有¶ -
清除参数映射的参数是否被显式地设置。
-
复制
( 额外的:可选(ParamMap]=没有一个 )→摩根大通¶ -
创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.
- 参数
-
- 额外的 东西,可选
-
额外参数复制到新实例
- 返回
-
-
JavaParams
-
这个实例的副本
-
-
explainParam
( 参数:联盟(str,pyspark.ml.param.Param] )→str¶ -
解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
-
explainParams
( )→str¶ -
返回文档的所有参数选择默认值和用户提供的值。
-
extractParamMap
( 额外的:可选(ParamMap]=没有一个 )→ParamMap¶ -
提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
- 参数
-
- 额外的 东西,可选
-
额外的参数值
- 返回
-
- dict
-
合并后的参数映射
-
适合
( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:联盟[ParamMap、列表(ParamMap)元组(ParamMap),没有一个)=没有一个 )→联盟(米,列表(米] ] ¶ -
适合一个模型与可选参数的输入数据集。
- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集。
- 参数个数 dict或列表或元组,可选的
-
一个可选的参数覆盖嵌入参数的地图。如果列表/元组的参数映射,这适用于每一个参数并返回一个列表的模型映射。
-
数据集
- 返回
-
-
变压器
或者一个列表变压器
-
拟合模型(年代)
-
-
fitMultiple
( 数据集:pyspark.sql.dataframe.DataFrame,paramMaps:序列(ParamMap] )→迭代器(元组(int,米] ] ¶ -
适合一个模型为每个参数映射的输入数据集paramMaps。
- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集。
-
paramMaps
collections.abc.Sequence
-
一系列的参数映射。
-
数据集
- 返回
-
-
_FitMultipleIterator
-
一个线程安全的iterable包含为每个参数映射模型。每次调用下一个(modelIterator)将返回(指数模型)模型是适合使用在哪里paramMaps(指数)。指数值可能不是连续的。
-
-
getDistanceMeasure
( )→str¶ -
得到的价值distanceMeasure或其默认值。
-
getFeaturesCol
( )→str¶ -
得到的价值featuresCol或其默认值。
-
getInitMode
( )→str¶ -
获得的价值initMode
-
getInitSteps
( )→int¶ -
获得的价值initSteps
-
getK
( )→int¶ -
获得的价值k
-
getMaxBlockSizeInMB
( )→浮动¶ -
得到的价值maxBlockSizeInMB或其默认值。
-
getMaxIter
( )→int¶ -
麦克斯特的价值或其默认值。
-
getOrDefault
( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T] ¶ -
得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。
-
getParam
( paramName:str )→pyspark.ml.param.Param ¶ -
通过它的名称参数。
-
getPredictionCol
( )→str¶ -
得到的价值predictionCol或其默认值。
-
getSeed
( )→int¶ -
种子的价值或其默认值。
-
getSolver
( )→str¶ -
得到解决的价值或其默认值。
-
getTol
( )→浮动¶ -
被托尔的价值或其默认值。
-
getWeightCol
( )→str¶ -
得到的价值weightCol或其默认值。
-
hasDefault
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查是否一个参数有默认值。
-
hasParam
( paramName:str )→bool¶ -
测试这个实例包含一个参数是否与给定名称(字符串)。
-
isDefined
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户或显式地设置一个默认值。
-
收取
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户显式地设置。
-
classmethod
负载
( 路径:str )→RL¶ -
从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
-
classmethod
读
( )→pyspark.ml.util.JavaMLReader(RL] ¶ -
返回一个MLReader这个类的实例。
-
保存
( 路径:str )→没有¶ -
这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
-
集
( 参数:pyspark.ml.param.Param,价值:任何 )→没有¶ -
设置一个参数嵌入参数映射。
-
setDistanceMeasure
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
distanceMeasure
。
-
setFeaturesCol
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
featuresCol
。
-
setInitMode
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
initMode
。
-
setInitSteps
( 价值:int )→pyspark.ml.clustering.KMeans ¶ -
设置的值
initSteps
。
-
setK
( 价值:int )→pyspark.ml.clustering.KMeans ¶ -
设置的值
k
。
-
setMaxBlockSizeInMB
( 价值:浮动 )→pyspark.ml.clustering.KMeans ¶ -
设置的值
maxBlockSizeInMB
。
-
setMaxIter
( 价值:int )→pyspark.ml.clustering.KMeans ¶ -
设置的值
麦克斯特
。
-
setparam
( 自我,\ *,featuresCol = "特性",predictionCol = "预测",k = 2,initMode = " k - means | |”,initSteps = 2,托尔= 1的军医,麦克斯特= 20,种子=没有,distanceMeasure =“欧几里得”,weightCol =没有,解算器=“自动”,maxBlockSizeInMB = 0.0 ) ¶ -
KMeans设置参数。
-
setPredictionCol
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
predictionCol
。
-
setSeed
( 价值:int )→pyspark.ml.clustering.KMeans ¶ -
设置的值
种子
。
-
setSolver
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
解算器
。
-
setTol
( 价值:浮动 )→pyspark.ml.clustering.KMeans ¶ -
设置的值
托尔
。
-
setWeightCol
( 价值:str )→pyspark.ml.clustering.KMeans ¶ -
设置的值
weightCol
。
-
写
( )→pyspark.ml.util.JavaMLWriter¶ -
返回一个MLWriter实例毫升实例。
属性的文档
-
distanceMeasure
=参数(父母=‘定义’,name = ' distanceMeasure ', doc = "测量的距离。支持选择:“欧几里得”和“余弦”。”) ¶
-
featuresCol
=参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。) ¶
-
initMode
=参数(父母=‘定义’,name = ' initMode ', doc = '初始化算法。这可以是“随机”选择随机点作为初始簇中心,或“k - means | |”使用并行变异的k - means + +) ¶
-
initSteps
=参数(父母=‘定义’,name = ' initSteps ', doc = '的步数为k - means | |初始化模式。必须> 0。”) ¶
-
k
=参数(父母=‘定义’,名字=“k”,医生= '创建集群的数量。必须> 1。) ¶
-
maxBlockSizeInMB
=参数(父母=‘定义’,name = ' maxBlockSizeInMB ',医生在MB = '最大内存叠加输入数据块。数据分区内堆放。如果超过剩余的数据大小的分区是调整大小的数据。默认0.0代表了选择最优值,取决于特定的算法。必须> = 0”。) ¶
-
麦克斯特
=参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。) ¶
-
参数个数
¶ -
返回所有参数命令的名字。默认实现使用
dir ()
所有的属性类型参数
。
-
predictionCol
=参数(父母=‘定义’,name = ' predictionCol ', doc =预测列名称。) ¶
-
种子
=参数(父母=‘定义’,name =“种子”,医生=“随机种子。”) ¶
-
解算器
=参数(父母=‘定义’,name =“规划求解”,医生= '优化的求解算法。支持选择:汽车、行块。”) ¶
-
托尔
=参数(父母=‘定义’,name =“托尔”,医生=迭代算法的收敛公差(> = 0)”。) ¶
-
weightCol
=参数(父母=‘定义’,name = ' weightCol ', doc = '体重列名。如果这不是设置或空,我们对所有实例权重为1.0。”) ¶
-