DistributedLDAModel¶

类 pyspark.ml.clustering。 DistributedLDAModel ( java_model:可选(JavaObject]=没有一个 ) ¶

分布式模型拟合的乔治。。这种类型的模型是目前仅由采用(EM)。

这个模型存储推断出话题,完整的训练数据集,每个培训文档的主题分布。

方法

`清晰的`(参数)	清除参数映射的参数是否被显式地设置。
`复制`((额外的))	创建这个实例的副本具有相同uid和一些额外的参数。
`describeTopics`([maxTermsPerTopic])	返回top-weighted条款描述的主题。
`estimatedDocConcentration`()	值`LDA.docConcentration`估计的数据。
`explainParam`(参数)	解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
`explainParams`()	返回文档的所有参数选择默认值和用户提供的值。
`extractParamMap`((额外的))	提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
`getCheckpointFiles`()	如果使用检查点和`LDA.keepLastCheckpoint`被设置为true,那么有可能得救检查点文件。
`getCheckpointInterval`()	得到的价值checkpointInterval或其默认值。
`getDocConcentration`()	获得的价值`docConcentration`或其默认值。
`getFeaturesCol`()	得到的价值featuresCol或其默认值。
`getK`()	获得的价值`k`或其默认值。
`getKeepLastCheckpoint`()	获得的价值`keepLastCheckpoint`或其默认值。
`getLearningDecay`()	获得的价值`learningDecay`或其默认值。
`getLearningOffset`()	获得的价值`learningOffset`或其默认值。
`getMaxIter`()	麦克斯特的价值或其默认值。
`getOptimizeDocConcentration`()	获得的价值`optimizeDocConcentration`或其默认值。
`getOptimizer`()	获得的价值`优化器`或其默认值。
`getOrDefault`(参数)	得到参数的值在用户提供的参数映射或其默认值。
`getParam`(paramName)	通过它的名称参数。
`getSeed`()	种子的价值或其默认值。
`getSubsamplingRate`()	获得的价值`subsamplingRate`或其默认值。
`getTopicConcentration`()	获得的价值`topicConcentration`或其默认值。
`getTopicDistributionCol`()	获得的价值`topicDistributionCol`或其默认值。
`hasDefault`(参数)	检查是否一个参数有默认值。
`hasParam`(paramName)	测试这个实例包含一个参数是否与给定名称(字符串)。
`isDefined`(参数)	检查参数是否由用户或显式地设置一个默认值。
`isDistributed`()	表明这是否DistributedLDAModel类型的实例
`收取`(参数)	检查参数是否由用户显式地设置。
`负载`(路径)	从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
`logLikelihood`(数据集)	计算一个下界的日志整个语料库的可能性。
`logPerplexity`(数据集)	计算一个上限困惑。
`logPrior`()	对数概率当前的参数估计:P(主题、主题分布为文档\|α,埃塔)
`读`()	返回一个MLReader这个类的实例。
`保存`(路径)	这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
`集`(参数值)	设置一个参数嵌入参数映射。
`setFeaturesCol`(值)	设置的值`featuresCol`。
`setSeed`(值)	设置的值`种子`。
`setTopicDistributionCol`(值)	设置的值`topicDistributionCol`。
`toLocal`()	这种分布式模型转换为一个当地的代表。
`topicsMatrix`()	推断出主题,每个主题由分布的条件。
`trainingLogLikelihood`()	记录观察到的令牌在训练集的可能性,考虑到当前的参数估计:日志P(文档,文档\|主题,主题分布狄利克雷hyperparameters)
`变换`(数据集[params))	与可选参数转换的输入数据集。
`vocabSize`()	词汇量的大小(词汇的词汇数量)
`写`()	返回一个MLWriter实例毫升实例。

属性

`checkpointInterval`
`docConcentration`
`featuresCol`
`k`
`keepLastCheckpoint`
`learningDecay`
`learningOffset`
`麦克斯特`
`optimizeDocConcentration`
`优化器`
`参数个数`	返回所有参数命令的名字。
`种子`
`subsamplingRate`
`topicConcentration`
`topicDistributionCol`

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有¶: 清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→摩根大通¶

创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.

参数

额外的 东西,可选: 额外参数复制到新实例

返回

JavaParams: 这个实例的副本

describeTopics ( maxTermsPerTopic:int=10 )→pyspark.sql.dataframe.DataFrame¶: 返回top-weighted条款描述的主题。

estimatedDocConcentration ( )→pyspark.ml.linalg.Vector ¶: 值LDA.docConcentration估计的数据。如果在线LDA和使用LDA.optimizeDocConcentration被设为false,那么这个返回固定(给)的值LDA.docConcentration参数。

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str¶: 解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str¶: 返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap¶

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数

额外的 东西,可选: 额外的参数值

返回

dict: 合并后的参数映射

getCheckpointFiles ( )→列表(str] ¶

如果使用检查点和LDA.keepLastCheckpoint被设置为true,那么有可能得救检查点文件。这种方法,这样用户可以管理这些文件提供。

返回

列表: 从培训的检查点文件的列表

笔记

删除检查点会导致失败如果一个分区丢失和需要确定DistributedLDAModel方法。引用计数将清理检查站时这个模型和衍生数据的范围。

getCheckpointInterval ( )→int¶: 得到的价值checkpointInterval或其默认值。

getDocConcentration ( )→列表(浮动] ¶: 获得的价值docConcentration或其默认值。

getFeaturesCol ( )→str¶: 得到的价值featuresCol或其默认值。

getK ( )→int¶: 获得的价值k或其默认值。

getKeepLastCheckpoint ( )→bool¶: 获得的价值keepLastCheckpoint或其默认值。

getLearningDecay ( )→浮动¶: 获得的价值learningDecay或其默认值。

getLearningOffset ( )→浮动¶: 获得的价值learningOffset或其默认值。

getMaxIter ( )→int¶: 麦克斯特的价值或其默认值。

getOptimizeDocConcentration ( )→bool¶: 获得的价值optimizeDocConcentration或其默认值。

getOptimizer ( )→str¶: 获得的价值优化器或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T] ¶: 得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getParam ( paramName:str )→pyspark.ml.param.Param ¶: 通过它的名称参数。

getSeed ( )→int¶: 种子的价值或其默认值。

getSubsamplingRate ( )→浮动¶: 获得的价值subsamplingRate或其默认值。

getTopicConcentration ( )→浮动¶: 获得的价值topicConcentration或其默认值。

getTopicDistributionCol ( )→str¶: 获得的价值topicDistributionCol或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查是否一个参数有默认值。

hasParam ( paramName:str )→bool¶: 测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查参数是否由用户或显式地设置一个默认值。

isDistributed ( )→bool¶: 表明这是否DistributedLDAModel类型的实例

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶: 检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL¶: 从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。

logLikelihood ( 数据集:pyspark.sql.dataframe.DataFrame )→浮动¶: 计算一个下界的日志整个语料库的可能性。看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。

警告

如果这种模式的一个实例DistributedLDAModel(生产时优化器设置为“新兴市场”),这需要收集大量topicsMatrix ()的司机。这个实现在未来可能会改变。

logPerplexity ( 数据集:pyspark.sql.dataframe.DataFrame )→浮动¶: 计算一个上限困惑。(低更好。)看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。

警告

如果这种模式的一个实例DistributedLDAModel(生产时优化器设置为“新兴市场”),这需要收集大量topicsMatrix ()的司机。这个实现在未来可能会改变。

logPrior ( )→浮动¶: 对数概率当前的参数估计:P(主题、主题分布为文档|α,埃塔)

classmethod 读 ( )→pyspark.ml.util.JavaMLReader(RL] ¶: 返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有¶: 这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

集 ( 参数:pyspark.ml.param.Param,价值:任何 )→没有¶: 设置一个参数嵌入参数映射。

setFeaturesCol ( 价值:str )→米¶: 设置的值featuresCol。

setSeed ( 价值:int )→米¶: 设置的值种子。

setTopicDistributionCol ( 价值:str )→米¶: 设置的值topicDistributionCol。

toLocal ( )→pyspark.ml.clustering.LocalLDAModel ¶: 这种分布式模型转换为一个当地的代表。这丢弃信息的训练数据集。

警告

这涉及到收集大量topicsMatrix ()的司机。

topicsMatrix ( )→pyspark.ml.linalg.Matrix ¶: 推断出主题,每个主题由分布的条件。这是一个矩阵的大小vocabSize x k,其中每一列是一个主题。不能保证对主题的顺序给出。

警告

如果这种模式实际上是一个DistributedLDAModel产生的实例采用(em)优化器,那么这个方法可能涉及收集大量数据司机(vocabSize的x k)。

trainingLogLikelihood ( )→浮动¶

记录观察到的令牌在训练集的可能性,考虑到当前的参数估计:日志P(文档,文档|主题,主题分布狄利克雷hyperparameters)

笔记

这排除了之前;为此,使用logPrior ()。
即使有logPrior ()数据日志,这是不一样的可能性

hyperparameters。
这是计算的主题分布计算在训练。如果你叫

logLikelihood ()在相同的训练数据集,主题分布将再次计算,可能给不同的结果。

变换 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame¶

与可选参数转换的输入数据集。

参数

数据集 pyspark.sql.DataFrame: 输入数据集
参数个数 东西,可选: 一个可选的参数覆盖嵌入参数的地图。

返回

pyspark.sql.DataFrame: 改变了数据集

vocabSize ( )→int¶: 词汇量的大小(词汇的词汇数量)

写 ( )→pyspark.ml.util.JavaMLWriter¶: 返回一个MLWriter实例毫升实例。

属性的文档

checkpointInterval =参数(父母=‘定义’,name = ' checkpointInterval ', doc = '设置检查点间隔(> = 1)或禁用检查点(1)。例如10意味着缓存将检查点每10迭代。注意:此设置将被忽略,如果目录没有设置检查站SparkContext。”) ¶

docConcentration :pyspark.ml.param.Param列表(浮动) =参数(父母=‘定义’,name = ' docConcentration ', doc =“浓度参数(通常叫“阿尔法”)之前放在文档\ '分布在主题(“θ”)。”) ¶

featuresCol =参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。) ¶

k :pyspark.ml.param.Param (int) =参数(父母=‘定义’,名字=“k”,医生= '的主题(集群)来推断。必须> 1。) ¶

keepLastCheckpoint :pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' keepLastCheckpoint ', doc = ' (EM优化器)如果使用检查点,这表明是否继续最后一个检查点。如果错误,那么检查站将被删除。删除检查点会导致失败如果一个数据分区丢失,所以设置这个小心。”) ¶

learningDecay :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningDecay ', doc = '学习速率,设置为anexponential衰减率。这应该是在(0.5,1.0)保证渐近收敛。”) ¶

learningOffset :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningOffset ', doc = '(积极)的学习参数,downweights早期的迭代。更大的值使早期的迭代数少的) ¶

麦克斯特 =参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。) ¶

optimizeDocConcentration :pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' optimizeDocConcentration ', doc =”表示是否docConcentration (document-topic狄利克雷参数分布)将优化在训练。) ¶

优化器 :pyspark.ml.param.Param (str) =参数(父母=‘定义’,name =“优化”,医生= '优化器或推理算法用于估计LDA模型。在线支持:em”) ¶

参数个数 ¶: 返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数。

种子 =参数(父母=‘定义’,name =“种子”,医生=“随机种子。”) ¶

subsamplingRate :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' subsamplingRate ', doc = '的一部分使用的语料库采样和每次迭代mini-batch梯度下降的范围内(0,1]。) ¶

topicConcentration :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' topicConcentration ', doc =“浓度参数(通常叫“测试版”或“埃塔”)的事先放在主题\ '分布在条款。”) ¶

topicDistributionCol :pyspark.ml.param.Param (str) =参数(父母=‘定义’,name = ' topicDistributionCol ', doc = '输出列主题混合分布的估计为每个文档(通常称为“θ”文学)。返回一个零的向量空文档。”) ¶

以前的

LocalLDAModel

下一个

PowerIterationClustering