LocalLDAModel

pyspark.ml.clustering。 LocalLDAModel ( java_model:可选(JavaObject]=没有一个 )

本地(运作)模型拟合乔治。。这个模型只存储推断主题;它不存储训练数据集信息。

方法

清晰的(参数)

清除参数映射的参数是否被显式地设置。

复制((额外的))

创建这个实例的副本具有相同uid和一些额外的参数。

describeTopics([maxTermsPerTopic])

返回top-weighted条款描述的主题。

estimatedDocConcentration()

LDA.docConcentration估计的数据。

explainParam(参数)

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams()

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap((额外的))

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

getCheckpointInterval()

得到的价值checkpointInterval或其默认值。

getDocConcentration()

获得的价值docConcentration或其默认值。

getFeaturesCol()

得到的价值featuresCol或其默认值。

getK()

获得的价值k或其默认值。

getKeepLastCheckpoint()

获得的价值keepLastCheckpoint或其默认值。

getLearningDecay()

获得的价值learningDecay或其默认值。

getLearningOffset()

获得的价值learningOffset或其默认值。

getMaxIter()

麦克斯特的价值或其默认值。

getOptimizeDocConcentration()

获得的价值optimizeDocConcentration或其默认值。

getOptimizer()

获得的价值优化器或其默认值。

getOrDefault(参数)

得到参数的值在用户提供的参数映射或其默认值。

getParam(paramName)

通过它的名称参数。

getSeed()

种子的价值或其默认值。

getSubsamplingRate()

获得的价值subsamplingRate或其默认值。

getTopicConcentration()

获得的价值topicConcentration或其默认值。

getTopicDistributionCol()

获得的价值topicDistributionCol或其默认值。

hasDefault(参数)

检查是否一个参数有默认值。

hasParam(paramName)

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined(参数)

检查参数是否由用户或显式地设置一个默认值。

isDistributed()

表明这是否DistributedLDAModel类型的实例

收取(参数)

检查参数是否由用户显式地设置。

负载(路径)

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

logLikelihood(数据集)

计算一个下界的日志整个语料库的可能性。

logPerplexity(数据集)

计算一个上限困惑。

()

返回一个MLReader这个类的实例。

保存(路径)

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

(参数值)

设置一个参数嵌入参数映射。

setFeaturesCol(值)

设置的值featuresCol

setSeed(值)

设置的值种子

setTopicDistributionCol(值)

设置的值topicDistributionCol

topicsMatrix()

推断出主题,每个主题由分布的条件。

变换(数据集[params))

与可选参数转换的输入数据集。

vocabSize()

词汇量的大小(词汇的词汇数量)

()

返回一个MLWriter实例毫升实例。

属性

checkpointInterval

docConcentration

featuresCol

k

keepLastCheckpoint

learningDecay

learningOffset

麦克斯特

optimizeDocConcentration

优化器

参数个数

返回所有参数命令的名字。

种子

subsamplingRate

topicConcentration

topicDistributionCol

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有

清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→摩根大通

创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.

参数
额外的 东西,可选

额外参数复制到新实例

返回
JavaParams

这个实例的副本

describeTopics ( maxTermsPerTopic:int=10 )→pyspark.sql.dataframe.DataFrame

返回top-weighted条款描述的主题。

estimatedDocConcentration ( )pyspark.ml.linalg.Vector

LDA.docConcentration估计的数据。如果在线LDA和使用LDA.optimizeDocConcentration被设为false,那么这个返回固定(给)的值LDA.docConcentration参数。

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数
额外的 东西,可选

额外的参数值

返回
dict

合并后的参数映射

getCheckpointInterval ( )→int

得到的价值checkpointInterval或其默认值。

getDocConcentration ( )→列表(浮动]

获得的价值docConcentration或其默认值。

getFeaturesCol ( )→str

得到的价值featuresCol或其默认值。

getK ( )→int

获得的价值k或其默认值。

getKeepLastCheckpoint ( )→bool

获得的价值keepLastCheckpoint或其默认值。

getLearningDecay ( )→浮动

获得的价值learningDecay或其默认值。

getLearningOffset ( )→浮动

获得的价值learningOffset或其默认值。

getMaxIter ( )→int

麦克斯特的价值或其默认值。

getOptimizeDocConcentration ( )→bool

获得的价值optimizeDocConcentration或其默认值。

getOptimizer ( )→str

获得的价值优化器或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T]

得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getParam ( paramName:str )pyspark.ml.param.Param

通过它的名称参数。

getSeed ( )→int

种子的价值或其默认值。

getSubsamplingRate ( )→浮动

获得的价值subsamplingRate或其默认值。

getTopicConcentration ( )→浮动

获得的价值topicConcentration或其默认值。

getTopicDistributionCol ( )→str

获得的价值topicDistributionCol或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查是否一个参数有默认值。

hasParam ( paramName:str )→bool

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户或显式地设置一个默认值。

isDistributed ( )→bool

表明这是否DistributedLDAModel类型的实例

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

logLikelihood ( 数据集:pyspark.sql.dataframe.DataFrame )→浮动

计算一个下界的日志整个语料库的可能性。看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。

警告

如果这种模式的一个实例DistributedLDAModel(生产时优化器设置为“新兴市场”),这需要收集大量topicsMatrix ()的司机。这个实现在未来可能会改变。

logPerplexity ( 数据集:pyspark.sql.dataframe.DataFrame )→浮动

计算一个上限困惑。(低更好。)看到方程(16)在网上LDA纸(霍夫曼et al ., 2010)。

警告

如果这种模式的一个实例DistributedLDAModel(生产时优化器设置为“新兴市场”),这需要收集大量topicsMatrix ()的司机。这个实现在未来可能会改变。

classmethod ( )→pyspark.ml.util.JavaMLReader(RL]

返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

( 参数:pyspark.ml.param.Param,价值:任何 )→没有

设置一个参数嵌入参数映射。

setFeaturesCol ( 价值:str )→米

设置的值featuresCol

setSeed ( 价值:int )→米

设置的值种子

setTopicDistributionCol ( 价值:str )→米

设置的值topicDistributionCol

topicsMatrix ( )pyspark.ml.linalg.Matrix

推断出主题,每个主题由分布的条件。这是一个矩阵的大小vocabSize x k,其中每一列是一个主题。不能保证对主题的顺序给出。

警告

如果这种模式实际上是一个DistributedLDAModel产生的实例采用(em)优化器,那么这个方法可能涉及收集大量数据司机(vocabSize的x k)。

变换 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame

与可选参数转换的输入数据集。

参数
数据集 pyspark.sql.DataFrame

输入数据集

参数个数 东西,可选

一个可选的参数覆盖嵌入参数的地图。

返回
pyspark.sql.DataFrame

改变了数据集

vocabSize ( )→int

词汇量的大小(词汇的词汇数量)

( )→pyspark.ml.util.JavaMLWriter

返回一个MLWriter实例毫升实例。

属性的文档

checkpointInterval =参数(父母=‘定义’,name = ' checkpointInterval ', doc = '设置检查点间隔(> = 1)或禁用检查点(1)。例如10意味着缓存将检查点每10迭代。注意:此设置将被忽略,如果目录没有设置检查站SparkContext。”)
docConcentration :pyspark.ml.param.Param列表(浮动) =参数(父母=‘定义’,name = ' docConcentration ', doc =“浓度参数(通常叫“阿尔法”)之前放在文档\ '分布在主题(“θ”)。”)
featuresCol =参数(父母=‘定义’,name = ' featuresCol ', doc =功能列名称。)
k :pyspark.ml.param.Param (int) =参数(父母=‘定义’,名字=“k”,医生= '的主题(集群)来推断。必须> 1。)
keepLastCheckpoint :pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' keepLastCheckpoint ', doc = ' (EM优化器)如果使用检查点,这表明是否继续最后一个检查点。如果错误,那么检查站将被删除。删除检查点会导致失败如果一个数据分区丢失,所以设置这个小心。”)
learningDecay :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningDecay ', doc = '学习速率,设置为anexponential衰减率。这应该是在(0.5,1.0)保证渐近收敛。”)
learningOffset :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' learningOffset ', doc = '(积极)的学习参数,downweights早期的迭代。更大的值使早期的迭代数少的)
麦克斯特 =参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。)
optimizeDocConcentration :pyspark.ml.param.Param(保龄球) =参数(父母=‘定义’,name = ' optimizeDocConcentration ', doc =”表示是否docConcentration (document-topic狄利克雷参数分布)将优化在训练。)
优化器 :pyspark.ml.param.Param (str) =参数(父母=‘定义’,name =“优化”,医生= '优化器或推理算法用于估计LDA模型。在线支持:em”)
参数个数

返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数

种子 =参数(父母=‘定义’,name =“种子”,医生=“随机种子。”)
subsamplingRate :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' subsamplingRate ', doc = '的一部分使用的语料库采样和每次迭代mini-batch梯度下降的范围内(0,1]。)
topicConcentration :pyspark.ml.param.Param(浮动) =参数(父母=‘定义’,name = ' topicConcentration ', doc =“浓度参数(通常叫“测试版”或“埃塔”)的事先放在主题\ '分布在条款。”)
topicDistributionCol :pyspark.ml.param.Param (str) =参数(父母=‘定义’,name = ' topicDistributionCol ', doc = '输出列主题混合分布的估计为每个文档(通常称为“θ”文学)。返回一个零的向量空文档。”)