乔治。¶
-
类
pyspark.mllib.clustering。
乔治。
¶ -
培养潜在狄利克雷分配(LDA)模型。
方法
火车
抽样[k maxIterations,…)火车LDA模型。
方法的文档
-
classmethod
火车
( 抽样:pyspark.rdd.RDD(元组(int,VectorLike]],k:int=10,maxIterations:int=20.,docConcentration:浮动=- 1.0,topicConcentration:浮动=- 1.0,种子:可选(int]=没有一个,checkpointInterval:int=10,优化器:str=“新兴市场” )→pyspark.mllib.clustering.LDAModel ¶ -
火车LDA模型。
- 参数
-
-
抽样
pyspark.RDD
-
抽样的文档,文档id和术语(词)的元组数向量。数向量”一词袋“与一个固定大小的词汇(词汇量大小是向量的长度)。文档id必须是唯一的,> = 0。
- k int,可选
-
数量的主题来推断,即。,the number of soft cluster centers. (default: 10)
- maxIterations int,可选
-
允许的最大迭代数。(默认值:20)
- docConcentration 浮动,可选
-
浓度参数(通常叫“阿尔法”)之前放在文件的分布在主题(“θ”)。(默认值:-1.0)
- topicConcentration 浮动,可选
-
浓度参数(通常叫“测试版”或“埃塔”)的前放置在主题的分布。(默认值:-1.0)
- 种子 int,可选
-
随机种子集群初始化。基于系统时间设置为不产生种子。(默认值:无)
- checkpointInterval int,可选
-
期检查点之间(迭代)。(默认值:10)
- 优化器 str,可选
-
LDAOptimizer用来执行实际的计算。目前“新兴市场”,“在线”支持。(默认:“新兴市场”)
-
抽样
-
classmethod