DistributedLDAModel¶
-
类
pyspark.ml.clustering。
DistributedLDAModel
( java_model:可选(JavaObject]=没有一个 ) ¶ -
分布式模型拟合的
乔治。
。这种类型的模型是目前仅由采用(EM)。这个模型存储推断出话题,完整的训练数据集,每个培训文档的主题分布。
方法
清晰的
(参数)清除参数映射的参数是否被显式地设置。
复制
((额外的))创建这个实例的副本具有相同uid和一些额外的参数。
describeTopics
([maxTermsPerTopic])返回top-weighted条款描述的主题。
值
LDA.docConcentration
估计的数据。explainParam
(参数)解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
返回文档的所有参数选择默认值和用户提供的值。
extractParamMap
((额外的))提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
如果使用检查点和
LDA.keepLastCheckpoint
被设置为true,那么有可能得救检查点文件。得到的价值checkpointInterval或其默认值。
获得的价值
docConcentration
或其默认值。得到的价值featuresCol或其默认值。
getK
()获得的价值
k
或其默认值。获得的价值
keepLastCheckpoint
或其默认值。获得的价值
learningDecay
或其默认值。获得的价值
learningOffset
或其默认值。麦克斯特的价值或其默认值。
获得的价值
optimizeDocConcentration
或其默认值。获得的价值
优化器
或其默认值。getOrDefault
(参数)得到参数的值在用户提供的参数映射或其默认值。
getParam
(paramName)通过它的名称参数。
getSeed
()种子的价值或其默认值。
获得的价值
subsamplingRate
或其默认值。获得的价值
topicConcentration
或其默认值。获得的价值
topicDistributionCol
或其默认值。hasDefault
(参数)检查是否一个参数有默认值。
hasParam
(paramName)测试这个实例包含一个参数是否与给定名称(字符串)。
isDefined
(参数)检查参数是否由用户或显式地设置一个默认值。
表明这是否DistributedLDAModel类型的实例
收取
(参数)检查参数是否由用户显式地设置。
负载
(路径)从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
logLikelihood
(数据集)计算一个下界的日志整个语料库的可能性。
logPerplexity
(数据集)计算一个上限困惑。
logPrior
()对数概率当前的参数估计:P(主题、主题分布为文档|α,埃塔)
读
()返回一个MLReader这个类的实例。
保存
(路径)这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
集
(参数值)设置一个参数嵌入参数映射。
设置的值
featuresCol
。setSeed
(值)设置的值
种子
。设置的值
topicDistributionCol
。toLocal
()这种分布式模型转换为一个当地的代表。
推断出主题,每个主题由分布的条件。
记录观察到的令牌在训练集的可能性,考虑到当前的参数估计:日志P(文档,文档|主题,主题分布狄利克雷hyperparameters)
变换
(数据集[params))与可选参数转换的输入数据集。
词汇量的大小(词汇的词汇数量)
写
()返回一个MLWriter实例毫升实例。
属性
返回所有参数命令的名字。
方法的文档
-
清晰的
( 参数:pyspark.ml.param.Param )→没有¶ -
清除参数映射的参数是否被显式地设置。
-
复制
( 额外的:可选(ParamMap]=没有一个 )→摩根大通¶ -
创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.
- 参数
-
- 额外的 东西,可选
-
额外参数复制到新实例
- 返回
-
-
JavaParams
-
这个实例的副本
-
-
describeTopics
( maxTermsPerTopic:int=10 )→pyspark.sql.dataframe.DataFrame¶ -
返回top-weighted条款描述的主题。
-
estimatedDocConcentration
( )→pyspark.ml.linalg.Vector ¶ -
值
LDA.docConcentration
估计的数据。如果在线LDA和使用LDA.optimizeDocConcentration
被设为false,那么这个返回固定(给)的值LDA.docConcentration
参数。
-
explainParam
( 参数:联盟(str,pyspark.ml.param.Param] )→str¶ -
解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
-
explainParams
( )→str¶ -
返回文档的所有参数选择默认值和用户提供的值。
-
extractParamMap
( 额外的:可选(ParamMap]=没有一个 )→ParamMap¶ -
提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
- 参数
-
- 额外的 东西,可选
-
额外的参数值
- 返回
-
- dict
-
合并后的参数映射
-
getCheckpointFiles
( )→列表(str] ¶ -
如果使用检查点和
LDA.keepLastCheckpoint
被设置为true,那么有可能得救检查点文件。这种方法,这样用户可以管理这些文件提供。- 返回
-
- 列表
-
从培训的检查点文件的列表
笔记
删除检查点会导致失败如果一个分区丢失和需要确定
DistributedLDAModel
方法。引用计数将清理检查站时这个模型和衍生数据的范围。
-
getCheckpointInterval
( )→int¶ -
得到的价值checkpointInterval或其默认值。
-
getDocConcentration
( )→列表(浮动] ¶ -
获得的价值
docConcentration
或其默认值。
-
getFeaturesCol
( )→str¶ -
得到的价值featuresCol或其默认值。
-
getKeepLastCheckpoint
( )→bool¶ -
获得的价值
keepLastCheckpoint
或其默认值。
-
getLearningDecay
( )→浮动¶ -
获得的价值
learningDecay
或其默认值。
-
getLearningOffset
( )→浮动¶ -
获得的价值
learningOffset
或其默认值。
-
getMaxIter
( )→int¶ -
麦克斯特的价值或其默认值。
-
getOptimizeDocConcentration
( )→bool¶ -
获得的价值
optimizeDocConcentration
或其默认值。
-
getOrDefault
( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T] ¶ -
得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。
-
getParam
( paramName:str )→pyspark.ml.param.Param ¶ -
通过它的名称参数。
-
getSeed
( )→int¶ -
种子的价值或其默认值。
-
getSubsamplingRate
( )→浮动¶ -
获得的价值
subsamplingRate
或其默认值。
-
getTopicConcentration
( )→浮动¶ -
获得的价值
topicConcentration
或其默认值。
-
getTopicDistributionCol
( )→str¶ -
获得的价值
topicDistributionCol
或其默认值。
-
hasDefault
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查是否一个参数有默认值。
-
hasParam
( paramName:str )→bool¶ -
测试这个实例包含一个参数是否与给定名称(字符串)。
-
isDefined
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户或显式地设置一个默认值。
-
isDistributed
( )→bool¶ -
表明这是否DistributedLDAModel类型的实例
-
收取
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户显式地设置。
-
classmethod
负载
( 路径:str )→RL¶ -
从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
-
logLikelihood
( 数据集:pyspark.sql.dataframe.DataFrame )→浮动¶ -
计算一个下界的日志整个语料库的可能性。看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。
警告
如果这种模式的一个实例
DistributedLDAModel
(生产时优化器
设置为“新兴市场”),这需要收集大量topicsMatrix ()
的司机。这个实现在未来可能会改变。
-
logPerplexity
( 数据集:pyspark.sql.dataframe.DataFrame )→浮动¶ -
计算一个上限困惑。(低更好。)看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。
警告
如果这种模式的一个实例
DistributedLDAModel
(生产时优化器
设置为“新兴市场”),这需要收集大量topicsMatrix ()
的司机。这个实现在未来可能会改变。
-
logPrior
( )→浮动¶ -
对数概率当前的参数估计:P(主题、主题分布为文档|α,埃塔)
-
classmethod
读
( )→pyspark.ml.util.JavaMLReader(RL] ¶ -
返回一个MLReader这个类的实例。
-
保存
( 路径:str )→没有¶ -
这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
-
集
( 参数:pyspark.ml.param.Param,价值:任何 )→没有¶ -
设置一个参数嵌入参数映射。
-
setFeaturesCol
( 价值:str )→米¶ -
设置的值
featuresCol
。
-
setTopicDistributionCol
( 价值:str )→米¶ -
设置的值
topicDistributionCol
。
-
toLocal
( )→pyspark.ml.clustering.LocalLDAModel ¶ -
这种分布式模型转换为一个当地的代表。这丢弃信息的训练数据集。
警告
这涉及到收集大量
topicsMatrix ()
的司机。
-
topicsMatrix
( )→pyspark.ml.linalg.Matrix ¶ -
推断出主题,每个主题由分布的条件。这是一个矩阵的大小vocabSize x k,其中每一列是一个主题。不能保证对主题的顺序给出。
警告
如果这种模式实际上是一个
DistributedLDAModel
产生的实例采用(em)优化器,那么这个方法可能涉及收集大量数据司机(vocabSize的x k)。
-
trainingLogLikelihood
( )→浮动¶ -
记录观察到的令牌在训练集的可能性,考虑到当前的参数估计:日志P(文档,文档|主题,主题分布狄利克雷hyperparameters)
笔记
这排除了之前;为此,使用
logPrior ()
。-
-
即使有
logPrior ()
数据日志,这是不一样的可能性 -
hyperparameters。
-
即使有
-
- 这是计算的主题分布计算在训练。如果你叫
-
logLikelihood ()
在相同的训练数据集,主题分布将再次计算,可能给不同的结果。
-
变换
( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame¶ -
与可选参数转换的输入数据集。
- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- 参数个数 东西,可选
-
一个可选的参数覆盖嵌入参数的地图。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
改变了数据集
-
-
vocabSize
( )→int¶ -
词汇量的大小(词汇的词汇数量)
-
写
( )→pyspark.ml.util.JavaMLWriter¶ -
返回一个MLWriter实例毫升实例。
属性的文档
-
checkpointInterval
=参数(父母=‘定义’,name = ' checkpointInterval ', doc = '设置检查点间隔(> = 1)或禁用检查点(1)。例如10意味着缓存将检查点每10迭代。注意:此设置将被忽略,如果目录没有设置检查站SparkContext。”) ¶
-
docConcentration
:pyspark.ml.param.Param列表(浮动) =参数(父母=‘定义’,name = ' docConcentration ', doc =“浓度参数(通常叫“阿尔法”)之前放在文档\ '分布在主题(“θ”)。”) ¶
-
featuresCol
=参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。) ¶
-
k
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,名字=“k”,医生= '的主题(集群)来推断。必须> 1。) ¶
-
keepLastCheckpoint
:pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' keepLastCheckpoint ', doc = ' (EM优化器)如果使用检查点,这表明是否继续最后一个检查点。如果错误,那么检查站将被删除。删除检查点会导致失败如果一个数据分区丢失,所以设置这个小心。”) ¶
-
learningDecay
:pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningDecay ', doc = '学习速率,设置为anexponential衰减率。这应该是在(0.5,1.0)保证渐近收敛。”) ¶
-
learningOffset
:pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningOffset ', doc = '(积极)的学习参数,downweights早期的迭代。更大的值使早期的迭代数少的) ¶
-
麦克斯特
=参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。) ¶
-
optimizeDocConcentration
:pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' optimizeDocConcentration ', doc =”表示是否docConcentration (document-topic狄利克雷参数分布)将优化在训练。) ¶
-
优化器
:pyspark.ml.param.Param (str) =参数(父母=‘定义’,name =“优化”,医生= '优化器或推理算法用于估计LDA模型。在线支持:em”) ¶
-
参数个数
¶ -
返回所有参数命令的名字。默认实现使用
dir ()
所有的属性类型参数
。
-
种子
=参数(父母=‘定义’,name =“种子”,医生=“随机种子。”) ¶
-
subsamplingRate
:pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' subsamplingRate ', doc = '的一部分使用的语料库采样和每次迭代mini-batch梯度下降的范围内(0,1]。) ¶
-
topicConcentration
:pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' topicConcentration ', doc =“浓度参数(通常叫“测试版”或“埃塔”)的事先放在主题\ '分布在条款。”) ¶
-
topicDistributionCol
:pyspark.ml.param.Param (str) =参数(父母=‘定义’,name = ' topicDistributionCol ', doc = '输出列主题混合分布的估计为每个文档(通常称为“θ”文学)。返回一个零的向量空文档。”) ¶
-