PowerIterationClustering¶

类 pyspark.mllib.clustering。 PowerIterationClustering ¶

迭代聚类(图片),一个可伸缩的图聚类算法。

由林和科恩[1]。从抽象:

“图片发现一个非常低维嵌入的数据集使用截断电力迭代规范化成对相似矩阵的数据。”

1: 林,弗兰克&科恩,威廉。(2010)。迭代聚类。http://www.cs.cmu.edu/弗兰克/论文/ icml2010-pic-final.pdf

方法

火车抽样,k [、maxIterations initMode])

火车PowerIterationClusteringModel

方法的文档

classmethod 火车 ( 抽样:pyspark.rdd.RDD(元组(int,int,浮动]],k:int,maxIterations:int=One hundred.,initMode:str=“随机” )→pyspark.mllib.clustering.PowerIterationClusteringModel ¶

火车PowerIterationClusteringModel

参数

抽样 pyspark.RDD: (i, j s的抽样_ij)元组代表关联矩阵,矩阵A的图片。相似的年代_ij必须是负的。这是一个对称矩阵,因此_ij=年代_霁对于任何(i, j)和非零相似,应该是(i, j s_ij)或(j,我,s_霁)的输入。元组和i = j将被忽略,因为它是假定_ij= 0.0。
k int: 数量的集群。
maxIterations int,可选: 图片的最大迭代次数的算法。(默认:100)
initMode str,可选: 初始化模式。这可以是“随机”使用一个随机向量作为顶点属性,或“学位”使用规范化和相似之处。(默认值是“随机”)

以前的

PowerIterationClusteringModel

下一个

StreamingKMeans