BisectingKMeansModel¶

类 pyspark.mllib.clustering。 BisectingKMeansModel ( java_model:JavaObject ) ¶

来源于平分k - means聚类模型方法。

例子

           > > >数据=数组([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])。重塑(4,2)> > >bskm=BisectingKMeans()> > >模型=bskm。火车(sc。并行化(数据,2),k=4)> > >p=数组([0.0,0.0])> > >模型。预测(p)0> > >模型。k4> > >模型。computeCost(p)0.0
          

方法

`调用`(名字,*一个)	调用的方法java_model
`computeCost`(x)	返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。
`预测`(x)	发现集群中的每个点属于这个模型。

属性

`clusterCenters`	得到聚类中心,表示为一个列表的NumPy数组。
`k`	集群的数量

方法的文档

调用 ( 的名字:str,*一个:任何 )→任何¶: 调用的方法java_model

computeCost ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→浮动¶

返回平分k - means成本(指向最近的中心的距离平方的总和)模型在给定的数据。如果提供一个抽样点的返回和。

参数

点 pyspark.mllib.linalg.Vector或pyspark.RDD: 一个数据点(或抽样点)来计算成本。pyspark.mllib.linalg.Vector可以使用等效替换对象(列表、元组、numpy.ndarray)。

预测 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(int,pyspark.rdd.RDD(int] ] ¶

发现集群中的每个点属于这个模型。

参数

x pyspark.mllib.linalg.Vector或pyspark.RDD: 一个数据点(或抽样点)来确定集群指数。pyspark.mllib.linalg.Vector可以使用等效替换对象(列表、元组、numpy.ndarray)。

返回

int或pyspark.RDD的整数: 预测集群索引或抽样的预测集群指数如果输入是一个抽样。

属性的文档

clusterCenters ¶: 得到聚类中心,表示为一个列表的NumPy数组。

k ¶: 集群的数量

以前的

StreamingLogisticRegressionWithSGD

下一个

BisectingKMeans