BisectingKMeansModel¶
-
类
pyspark.mllib.clustering。
BisectingKMeansModel
( java_model:JavaObject ) ¶ -
来源于平分k - means聚类模型方法。
例子
> > >数据=数组([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])。重塑(4,2)> > >bskm=BisectingKMeans()> > >模型=bskm。火车(sc。并行化(数据,2),k=4)> > >p=数组([0.0,0.0])> > >模型。预测(p)0> > >模型。k4> > >模型。computeCost(p)0.0
方法
调用
(名字,*一个)调用的方法java_model
computeCost
(x)返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。
预测
(x)发现集群中的每个点属于这个模型。
属性
得到聚类中心,表示为一个列表的NumPy数组。
集群的数量
方法的文档
-
调用
( 的名字:str,*一个:任何 )→任何¶ -
调用的方法java_model
-
computeCost
( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→浮动¶ -
返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。如果提供一个抽样点的返回和。
- 参数
-
-
点
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
一个数据点(或抽样点)来计算成本。
pyspark.mllib.linalg.Vector
可以使用等效替换对象(列表、元组、numpy.ndarray)。
-
点
-
预测
( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(int,pyspark.rdd.RDD(int] ] ¶ -
发现集群中的每个点属于这个模型。
- 参数
-
-
x
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
一个数据点(或抽样点)来确定集群指数。
pyspark.mllib.linalg.Vector
可以使用等效替换对象(列表、元组、numpy.ndarray)。
-
x
- 返回
-
-
int或
pyspark.RDD
的整数 -
预测集群索引或抽样的预测集群指数如果输入是一个抽样。
-
int或
属性的文档
-
clusterCenters
¶ -
得到聚类中心,表示为一个列表的NumPy数组。
-
k
¶ -
集群的数量
-