Word2VecModel¶
-
类
pyspark.ml.feature。
Word2VecModel
( java_model:可选(JavaObject]=没有一个 ) ¶ -
模型拟合的
Word2Vec
。方法
清晰的
(参数)清除参数映射的参数是否被显式地设置。
复制
((额外的))创建这个实例的副本具有相同uid和一些额外的参数。
explainParam
(参数)解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
返回文档的所有参数选择默认值和用户提供的值。
extractParamMap
((额外的))提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
findSynonyms
(num词)找到“num”相似的单词最亲密的“词”。
findSynonymsArray
(num词)找到“num”相似的单词最亲密的“词”。
得到的价值inputCol或其默认值。
麦克斯特的价值或其默认值。
得到的价值maxSentenceLength或其默认值。
得到的价值minCount或其默认值。
得到的价值numPartitions或其默认值。
getOrDefault
(参数)得到参数的值在用户提供的参数映射或其默认值。
得到的价值outputCol或其默认值。
getParam
(paramName)通过它的名称参数。
getSeed
()种子的价值或其默认值。
得到的价值stepSize或其默认值。
得到的价值vectorSize或其默认值。
返回向量表示的单词作为dataframe有两个字段,word和向量。
得到的价值windowSize或其默认值。
hasDefault
(参数)检查是否一个参数有默认值。
hasParam
(paramName)测试这个实例包含一个参数是否与给定名称(字符串)。
isDefined
(参数)检查参数是否由用户或显式地设置一个默认值。
收取
(参数)检查参数是否由用户显式地设置。
负载
(路径)从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
读
()返回一个MLReader这个类的实例。
保存
(路径)这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
集
(参数值)设置一个参数嵌入参数映射。
setInputCol
(值)设置的值
inputCol
。setOutputCol
(值)设置的值
outputCol
。变换
(数据集[params))与可选参数转换的输入数据集。
写
()返回一个MLWriter实例毫升实例。
属性
返回所有参数命令的名字。
方法的文档
-
清晰的
( 参数:pyspark.ml.param.Param )→没有¶ -
清除参数映射的参数是否被显式地设置。
-
复制
( 额外的:可选(ParamMap]=没有一个 )→摩根大通¶ -
创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.
- 参数
-
- 额外的 东西,可选
-
额外参数复制到新实例
- 返回
-
-
JavaParams
-
这个实例的副本
-
-
explainParam
( 参数:联盟(str,pyspark.ml.param.Param] )→str¶ -
解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
-
explainParams
( )→str¶ -
返回文档的所有参数选择默认值和用户提供的值。
-
extractParamMap
( 额外的:可选(ParamMap]=没有一个 )→ParamMap¶ -
提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
- 参数
-
- 额外的 东西,可选
-
额外的参数值
- 返回
-
- dict
-
合并后的参数映射
-
findSynonyms
( 词:联盟(str,pyspark.ml.linalg.Vector],全国矿工工会:int )→pyspark.sql.dataframe.DataFrame¶ -
找到“num”相似的单词最亲密的“词”。词可以是一个字符串或向量表示。返回一个与两个字段dataframe词和相似性(给了余弦相似性)。
-
findSynonymsArray
( 词:联盟(pyspark.ml.linalg.Vector,str],全国矿工工会:int )→列表(元组(str,浮动] ] ¶ -
找到“num”相似的单词最亲密的“词”。词可以是一个字符串或向量表示。返回一个数组与两个字段词和相似性(给了余弦相似性)。
-
getInputCol
( )→str¶ -
得到的价值inputCol或其默认值。
-
getMaxIter
( )→int¶ -
麦克斯特的价值或其默认值。
-
getMaxSentenceLength
( )→int¶ -
得到的价值maxSentenceLength或其默认值。
-
getMinCount
( )→int¶ -
得到的价值minCount或其默认值。
-
getNumPartitions
( )→int¶ -
得到的价值numPartitions或其默认值。
-
getOrDefault
( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T] ¶ -
得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。
-
getOutputCol
( )→str¶ -
得到的价值outputCol或其默认值。
-
getParam
( paramName:str )→pyspark.ml.param.Param ¶ -
通过它的名称参数。
-
getSeed
( )→int¶ -
种子的价值或其默认值。
-
getStepSize
( )→浮动¶ -
得到的价值stepSize或其默认值。
-
getVectorSize
( )→int¶ -
得到的价值vectorSize或其默认值。
-
getVectors
( )→pyspark.sql.dataframe.DataFrame¶ -
返回向量表示的单词作为dataframe有两个字段,word和向量。
-
getWindowSize
( )→int¶ -
得到的价值windowSize或其默认值。
-
hasDefault
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查是否一个参数有默认值。
-
hasParam
( paramName:str )→bool¶ -
测试这个实例包含一个参数是否与给定名称(字符串)。
-
isDefined
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户或显式地设置一个默认值。
-
收取
( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
检查参数是否由用户显式地设置。
-
classmethod
负载
( 路径:str )→RL¶ -
从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
-
classmethod
读
( )→pyspark.ml.util.JavaMLReader(RL] ¶ -
返回一个MLReader这个类的实例。
-
保存
( 路径:str )→没有¶ -
这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
-
集
( 参数:pyspark.ml.param.Param,价值:任何 )→没有¶ -
设置一个参数嵌入参数映射。
-
setInputCol
( 价值:str )→pyspark.ml.feature.Word2VecModel ¶ -
设置的值
inputCol
。
-
setOutputCol
( 价值:str )→pyspark.ml.feature.Word2VecModel ¶ -
设置的值
outputCol
。
-
变换
( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:可选(ParamMap]=没有一个 )→pyspark.sql.dataframe.DataFrame¶ -
与可选参数转换的输入数据集。
- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- 参数个数 东西,可选
-
一个可选的参数覆盖嵌入参数的地图。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
改变了数据集
-
-
写
( )→pyspark.ml.util.JavaMLWriter¶ -
返回一个MLWriter实例毫升实例。
属性的文档
-
inputCol
=参数(父母=‘定义’,name = ' inputCol ', doc =输入列名称。) ¶
-
麦克斯特
=参数(父母=‘定义’,name =“麦克斯特”,医生=“马克斯(> = 0)的迭代次数。) ¶
-
maxSentenceLength
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,name = ' maxSentenceLength ', doc = '最大长度(词)的每个句子输入数据。任何句子超过这个阈值将被分为块大小。”) ¶
-
minCount
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,name = ' minCount ', doc =“最低的次数似乎令牌必须word2vec模型中包括的词汇”) ¶
-
numPartitions
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,name = ' numPartitions ', doc =单词句子的分区数量) ¶
-
outputCol
=参数(父母=‘定义’,name = ' outputCol ', doc =输出列名称。) ¶
-
参数个数
¶ -
返回所有参数命令的名字。默认实现使用
dir ()
所有的属性类型参数
。
-
种子
=参数(父母=‘定义’,name =“种子”,医生=“随机种子。”) ¶
-
stepSize
=参数(父母=‘定义’,name = ' stepSize ', doc =的每个迭代步长用于优化(> = 0)”。) ¶
-
vectorSize
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,name = ' vectorSize ', doc =代码改造后的尺寸从字的) ¶
-
windowSize
:pyspark.ml.param.Param (int) =参数(父母=‘定义’,name = ' windowSize ', doc = '窗口大小(上下文词语从[窗口、窗口])。默认值是5 ') ¶
-