IDFModel

pyspark.mllib.feature。 IDFModel ( java_model:py4j.java_gateway.JavaObject )

代表一个IDF模型,可以变换频率向量。

方法

调用(名字,*一个)

调用的方法java_model

docFreq()

返回文档频率。

以色列国防军()

返回当前IDF向量。

numDocs()

返回的文档数计算idf评估

变换(x)

转换词频率(TF)向量TF-IDF向量。

方法的文档

调用 ( 的名字:str,*一个:任何 )→任何

调用的方法java_model

docFreq ( )→列表(int]

返回文档频率。

以色列国防军 ( )pyspark.mllib.linalg.Vector

返回当前IDF向量。

numDocs ( )→int

返回的文档数计算idf评估

变换 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ]

转换词频率(TF)向量TF-IDF向量。

如果minDocFreq定在以色列国防军计算,发生在不到的条款minDocFreq文件都有一个条目为0。

参数
x pyspark.mllib.linalg.Vectorpyspark.RDD

项频率向量或一项的抽样频率向量

返回
pyspark.mllib.linalg.Vectorpyspark.RDD

抽样TF-IDF向量或TF-IDF向量

笔记

在Python中,改变目前不能使用在一个抽样转换或行动。直接调用转换的抽样。