PowerIterationClustering

pyspark.mllib.clustering。 PowerIterationClustering

迭代聚类(图片),一个可伸缩的图聚类算法。

由林和科恩[1]。从抽象:

“图片发现一个非常低维嵌入的数据集使用截断电力迭代规范化成对相似矩阵的数据。”

1

林,弗兰克&科恩,威廉。(2010)。迭代聚类。http://www.cs.cmu.edu/弗兰克/论文/ icml2010-pic-final.pdf

方法

火车抽样,k [、maxIterations initMode])

火车PowerIterationClusteringModel

方法的文档

classmethod 火车 ( 抽样:pyspark.rdd.RDD(元组(int,int,浮动]],k:int,maxIterations:int=One hundred.,initMode:str=“随机” )pyspark.mllib.clustering.PowerIterationClusteringModel

火车PowerIterationClusteringModel

参数
抽样 pyspark.RDD

(i, j s的抽样ij)元组代表关联矩阵,矩阵A的图片。相似的年代ij必须是负的。这是一个对称矩阵,因此ij=年代对于任何(i, j)和非零相似,应该是(i, j sij)或(j,我,s)的输入。元组和i = j将被忽略,因为它是假定ij= 0.0。

k int

数量的集群。

maxIterations int,可选

图片的最大迭代次数的算法。(默认:100)

initMode str,可选

初始化模式。这可以是“随机”使用一个随机向量作为顶点属性,或“学位”使用规范化和相似之处。(默认值是“随机”)