CountVectorizer

pyspark.ml.feature。 CountVectorizer ( *,minTF:浮动=1.0,minDF:浮动=1.0,maxDF:浮动=9223372036854775807,vocabSize:int=262144年,二进制:bool=,inputCol:可选(str]=没有一个,outputCol:可选(str]=没有一个 )

从文档集合中提取一个词汇表,生成一个CountVectorizerModel

例子

> > >df=火花createDataFrame(((0,(“一个”,“b”,“c”]),(1,(“一个”,“b”,“b”,“c”,“一个”])),(“标签”,“原始”])> > >简历=CountVectorizer()> > >简历setInputCol(“原始”)CountVectorizer……> > >简历setOutputCol(“向量”)CountVectorizer……> > >模型=简历适合(df)> > >模型setInputCol(“原始”)CountVectorizerModel……> > >模型变换(df)显示(截断=)+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| |生| |标签向量+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +(a, b, c) | 0 | | (3 (0, 1, 2) [1.0, 1.0, 1.0]) || 1 | [a, b, b, c, a) | (3 (0, 1, 2) [2.0, 2.0, 1.0]) |+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >排序(模型词汇表)= =(“一个”,“b”,“c”]真正的> > >countVectorizerPath=temp_path+“/ count-vectorizer”> > >简历保存(countVectorizerPath)> > >loadedCv=CountVectorizer负载(countVectorizerPath)> > >loadedCvgetMinDF()= =简历getMinDF()真正的> > >loadedCvgetMinTF()= =简历getMinTF()真正的> > >loadedCvgetVocabSize()= =简历getVocabSize()真正的> > >modelPath=temp_path+“/ count-vectorizer-model”> > >模型保存(modelPath)> > >loadedModel=CountVectorizerModel负载(modelPath)> > >loadedModel词汇表= =模型词汇表真正的> > >loadedModel变换(df)(1)= =模型变换(df)(1)真正的> > >fromVocabModel=CountVectorizerModelfrom_vocabulary([“一个”,“b”,“c”),inputCol=“原始”,outputCol=“向量”)> > >fromVocabModel变换(df)显示(截断=)+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| |生| |标签向量+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +(a, b, c) | 0 | | (3 (0, 1, 2) [1.0, 1.0, 1.0]) || 1 | [a, b, b, c, a) | (3 (0, 1, 2) [2.0, 2.0, 1.0]) |+ - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +

方法

清晰的(参数)

清除参数映射的参数是否被显式地设置。

复制((额外的))

创建这个实例的副本具有相同uid和一些额外的参数。

explainParam(参数)

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams()

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap((额外的))

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

适合(数据集[params))

适合一个模型与可选参数的输入数据集。

fitMultiple(paramMaps数据集)

适合一个模型为每个参数映射的输入数据集paramMaps

getBinary()

二进制的值或其默认值。

getInputCol()

得到的价值inputCol或其默认值。

getMaxDF()

得到的价值maxDF或其默认值。

getMinDF()

得到的价值minDF或其默认值。

getMinTF()

得到的价值minTF或其默认值。

getOrDefault(参数)

得到参数的值在用户提供的参数映射或其默认值。

getOutputCol()

得到的价值outputCol或其默认值。

getParam(paramName)

通过它的名称参数。

getVocabSize()

得到的价值vocabSize或其默认值。

hasDefault(参数)

检查是否一个参数有默认值。

hasParam(paramName)

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined(参数)

检查参数是否由用户或显式地设置一个默认值。

收取(参数)

检查参数是否由用户显式地设置。

负载(路径)

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

()

返回一个MLReader这个类的实例。

保存(路径)

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

(参数值)

设置一个参数嵌入参数映射。

setBinary(值)

设置的值二进制

setInputCol(值)

设置的值inputCol

setMaxDF(值)

设置的值maxDF

setMinDF(值)

设置的值minDF

setMinTF(值)

设置的值minTF

setOutputCol(值)

设置的值outputCol

setparam(自我,\ [,minDF minTF maxDF,…))

CountVectorizer设置参数

setVocabSize(值)

设置的值vocabSize

()

返回一个MLWriter实例毫升实例。

属性

二进制

inputCol

maxDF

minDF

minTF

outputCol

参数个数

返回所有参数命令的名字。

vocabSize

方法的文档

清晰的 ( 参数:pyspark.ml.param.Param )→没有

清除参数映射的参数是否被显式地设置。

复制 ( 额外的:可选(ParamMap]=没有一个 )→摩根大通

创建这个实例的副本具有相同uid和一些额外的参数。这个实现第一次调用参数。复制and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.

参数
额外的 东西,可选

额外参数复制到新实例

返回
JavaParams

这个实例的副本

explainParam ( 参数:联盟(str,pyspark.ml.param.Param] )→str

解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。

explainParams ( )→str

返回文档的所有参数选择默认值和用户提供的值。

extractParamMap ( 额外的:可选(ParamMap]=没有一个 )→ParamMap

提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。

参数
额外的 东西,可选

额外的参数值

返回
dict

合并后的参数映射

适合 ( 数据集:pyspark.sql.dataframe.DataFrame,参数个数:联盟[ParamMap、列表(ParamMap)元组(ParamMap),没有一个)=没有一个 )→联盟(,列表(] ]

适合一个模型与可选参数的输入数据集。

参数
数据集 pyspark.sql.DataFrame

输入数据集。

参数个数 dict或列表或元组,可选的

一个可选的参数覆盖嵌入参数的地图。如果列表/元组的参数映射,这适用于每一个参数并返回一个列表的模型映射。

返回
变压器或者一个列表变压器

拟合模型(年代)

fitMultiple ( 数据集:pyspark.sql.dataframe.DataFrame,paramMaps:序列(ParamMap] )→迭代器(元组(int,] ]

适合一个模型为每个参数映射的输入数据集paramMaps

参数
数据集 pyspark.sql.DataFrame

输入数据集。

paramMaps collections.abc.Sequence

一系列的参数映射。

返回
_FitMultipleIterator

一个线程安全的iterable包含为每个参数映射模型。每次调用下一个(modelIterator)将返回(指数模型)模型是适合使用在哪里paramMaps(指数)指数值可能不是连续的。

getBinary ( )→bool

二进制的值或其默认值。

getInputCol ( )→str

得到的价值inputCol或其默认值。

getMaxDF ( )→浮动

得到的价值maxDF或其默认值。

getMinDF ( )→浮动

得到的价值minDF或其默认值。

getMinTF ( )→浮动

得到的价值minTF或其默认值。

getOrDefault ( 参数:联盟(str,pyspark.ml.param.Param(T]] )→联盟(任何,T]

得到参数的值在用户提供的参数映射或其默认值。如果没有设置提出了一个错误。

getOutputCol ( )→str

得到的价值outputCol或其默认值。

getParam ( paramName:str )pyspark.ml.param.Param

通过它的名称参数。

getVocabSize ( )→int

得到的价值vocabSize或其默认值。

hasDefault ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查是否一个参数有默认值。

hasParam ( paramName:str )→bool

测试这个实例包含一个参数是否与给定名称(字符串)。

isDefined ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户或显式地设置一个默认值。

收取 ( 参数:联盟(str,pyspark.ml.param.Param(任何]] )→bool

检查参数是否由用户显式地设置。

classmethod 负载 ( 路径:str )→RL

从输入路径,读取一个毫升实例的快捷方式read () .load(路径)

classmethod ( )→pyspark.ml.util.JavaMLReader(RL]

返回一个MLReader这个类的实例。

保存 ( 路径:str )→没有

这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。

( 参数:pyspark.ml.param.Param,价值:任何 )→没有

设置一个参数嵌入参数映射。

setBinary ( 价值:bool )pyspark.ml.feature.CountVectorizer

设置的值二进制

setInputCol ( 价值:str )pyspark.ml.feature.CountVectorizer

设置的值inputCol

setMaxDF ( 价值:浮动 )pyspark.ml.feature.CountVectorizer

设置的值maxDF

setMinDF ( 价值:浮动 )pyspark.ml.feature.CountVectorizer

设置的值minDF

setMinTF ( 价值:浮动 )pyspark.ml.feature.CountVectorizer

设置的值minTF

setOutputCol ( 价值:str )pyspark.ml.feature.CountVectorizer

设置的值outputCol

setparam ( 自我,\ *,minTF = 1.0,minDF = 1.0,maxDF = 2 * * 63 - 1,vocabSize = 1 < < 18岁,二进制= False,inputCol =没有,outputCol =没有 )

CountVectorizer设置参数

setVocabSize ( 价值:int )pyspark.ml.feature.CountVectorizer

设置的值vocabSize

( )→pyspark.ml.util.JavaMLWriter

返回一个MLWriter实例毫升实例。

属性的文档

二进制 =参数(父母=‘定义’,name =“二进制”,医生= '二进制开关控制输出矢量值。如果这是真的,所有非零项(minTF滤波器应用之后)被设置为1。这是用于离散概率模型,模型的二进制事件而不是整数。默认的错误')
inputCol =参数(父母=‘定义’,name = ' inputCol ', doc =输入列名称。)
maxDF =参数(父母=‘定义’,name = ' maxDF ', doc = '指定的最大数量不同的文档可以出现在被包括在术语词汇。一个术语出现超过阈值将被忽略。如果这是一个整数> = 1,这指定的最大文件数这个词会出现在;如果这是一个双在[0,1),那么这个指定的最大一部分文档可能出现在这个词。默认(2 ^ 63)- 1 ')
minDF =参数(父母=‘定义’,name = ' minDF ', doc = '指定了最小数量的不同文档术语必须出现在被包括在词汇表中。如果这是一个整数> = 1,这指定文档的数量必须出现在这个词;如果这是一个双在[0,1),那么这个指定文档的一部分。默认1.0”)
minTF =参数(父母=‘定义’,name = ' minTF ', doc = "过滤器忽略罕见的单词在一个文档。为每个文档,与频率/计数小于给定的阈值将被忽略。如果这是一个整数> = 1,那么这将指定一个计数(次术语必须出现在文档);如果这是一个双在[0,1),那么这个指定一小部分(文档的令牌数)。注意参数仅用于变换CountVectorizerModel和不影响装配。默认1.0”)
outputCol =参数(父母=‘定义’,name = ' outputCol ', doc =输出列名称。)
参数个数

返回所有参数命令的名字。默认实现使用dir ()所有的属性类型参数

vocabSize =参数(父母=‘定义’,name = ' vocabSize ', doc = '马克斯词汇量的大小。默认1 < < 18岁。”)