乔治。¶

类 pyspark.mllib.clustering。 乔治。 ¶

培养潜在狄利克雷分配(LDA)模型。

方法

火车抽样[k maxIterations,…)

火车LDA模型。

方法的文档

classmethod 火车 ( 抽样:pyspark.rdd.RDD(元组(int,VectorLike]],k:int=10,maxIterations:int=20.,docConcentration:浮动=- 1.0,topicConcentration:浮动=- 1.0,种子:可选(int]=没有一个,checkpointInterval:int=10,优化器:str=“新兴市场” )→pyspark.mllib.clustering.LDAModel ¶

火车LDA模型。

参数

抽样 pyspark.RDD: 抽样的文档,文档id和术语(词)的元组数向量。数向量”一词袋“与一个固定大小的词汇(词汇量大小是向量的长度)。文档id必须是唯一的,> = 0。
k int,可选: 数量的主题来推断,即。,the number of soft cluster centers. (default: 10)
maxIterations int,可选: 允许的最大迭代数。(默认值:20)
docConcentration 浮动,可选: 浓度参数(通常叫“阿尔法”)之前放在文件的分布在主题(“θ”)。(默认值:-1.0)
topicConcentration 浮动,可选: 浓度参数(通常叫“测试版”或“埃塔”)的前放置在主题的分布。(默认值:-1.0)
种子 int,可选: 随机种子集群初始化。基于系统时间设置为不产生种子。(默认值:无)
checkpointInterval int,可选: 期检查点之间(迭代)。(默认值:10)
优化器 str,可选: LDAOptimizer用来执行实际的计算。目前“新兴市场”,“在线”支持。(默认:“新兴市场”)

以前的

StreamingKMeansModel

下一个

LDAModel