IDFModel¶
-
类
pyspark.mllib.feature。
IDFModel
( java_model:py4j.java_gateway.JavaObject ) ¶ -
代表一个IDF模型,可以变换频率向量。
方法
调用
(名字,*一个)调用的方法java_model
docFreq
()返回文档频率。
以色列国防军
()返回当前IDF向量。
numDocs
()返回的文档数计算idf评估
变换
(x)转换词频率(TF)向量TF-IDF向量。
方法的文档
-
调用
( 的名字:str,*一个:任何 )→任何¶ -
调用的方法java_model
-
docFreq
( )→列表(int] ¶ -
返回文档频率。
-
以色列国防军
( )→pyspark.mllib.linalg.Vector ¶ -
返回当前IDF向量。
-
numDocs
( )→int¶ -
返回的文档数计算idf评估
-
变换
( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ] ¶ -
转换词频率(TF)向量TF-IDF向量。
如果minDocFreq定在以色列国防军计算,发生在不到的条款minDocFreq文件都有一个条目为0。
- 参数
-
-
x
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
项频率向量或一项的抽样频率向量
-
x
- 返回
-
-
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
抽样TF-IDF向量或TF-IDF向量
-
笔记
在Python中,改变目前不能使用在一个抽样转换或行动。直接调用转换的抽样。
-