BisectingKMeansModel

pyspark.mllib.clustering。 BisectingKMeansModel ( java_model:JavaObject )

来源于平分k - means聚类模型方法。

例子

> > >数据=数组([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])重塑(4,2)> > >bskm=BisectingKMeans()> > >模型=bskm火车(sc并行化(数据,2),k=4)> > >p=数组([0.0,0.0])> > >模型预测(p)0> > >模型k4> > >模型computeCost(p)0.0

方法

调用(名字,*一个)

调用的方法java_model

computeCost(x)

返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。

预测(x)

发现集群中的每个点属于这个模型。

属性

clusterCenters

得到聚类中心,表示为一个列表的NumPy数组。

k

集群的数量

方法的文档

调用 ( 的名字:str,*一个:任何 )→任何

调用的方法java_model

computeCost ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→浮动

返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。如果提供一个抽样点的返回和。

参数
pyspark.mllib.linalg.Vectorpyspark.RDD

一个数据点(或抽样点)来计算成本。pyspark.mllib.linalg.Vector可以使用等效替换对象(列表、元组、numpy.ndarray)。

预测 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(int,pyspark.rdd.RDD(int] ]

发现集群中的每个点属于这个模型。

参数
x pyspark.mllib.linalg.Vectorpyspark.RDD

一个数据点(或抽样点)来确定集群指数。pyspark.mllib.linalg.Vector可以使用等效替换对象(列表、元组、numpy.ndarray)。

返回
int或pyspark.RDD的整数

预测集群索引或抽样的预测集群指数如果输入是一个抽样。

属性的文档

clusterCenters

得到聚类中心,表示为一个列表的NumPy数组。

k

集群的数量