乔治。

pyspark.mllib.clustering。 乔治。

培养潜在狄利克雷分配(LDA)模型。

方法

火车抽样[k maxIterations,…)

火车LDA模型。

方法的文档

classmethod 火车 ( 抽样:pyspark.rdd.RDD(元组(int,VectorLike]],k:int=10,maxIterations:int=20.,docConcentration:浮动=- 1.0,topicConcentration:浮动=- 1.0,种子:可选(int]=没有一个,checkpointInterval:int=10,优化器:str=“新兴市场” )pyspark.mllib.clustering.LDAModel

火车LDA模型。

参数
抽样 pyspark.RDD

抽样的文档,文档id和术语(词)的元组数向量。数向量”一词袋“与一个固定大小的词汇(词汇量大小是向量的长度)。文档id必须是唯一的,> = 0。

k int,可选

数量的主题来推断,即。,the number of soft cluster centers. (default: 10)

maxIterations int,可选

允许的最大迭代数。(默认值:20)

docConcentration 浮动,可选

浓度参数(通常叫“阿尔法”)之前放在文件的分布在主题(“θ”)。(默认值:-1.0)

topicConcentration 浮动,可选

浓度参数(通常叫“测试版”或“埃塔”)的前放置在主题的分布。(默认值:-1.0)

种子 int,可选

随机种子集群初始化。基于系统时间设置为不产生种子。(默认值:无)

checkpointInterval int,可选

期检查点之间(迭代)。(默认值:10)

优化器 str,可选

LDAOptimizer用来执行实际的计算。目前“新兴市场”,“在线”支持。(默认:“新兴市场”)