以色列国防军¶
-
类
pyspark.mllib.feature。
以色列国防军
( minDocFreq:int=0 ) ¶ -
逆文档频率(IDF)。
使用标准的制定:idf =日志((m + 1) / (d (t) + 1)),在那里米文档和总数吗d (t)包含词的文档的数量吗t。
这个实现支持过滤条件不出现在最小数量的文档(控制的变量minDocFreq)。至少不在的条款minDocFreq文件,发现IDF 0,导致TF-IDFs 0。
- 参数
-
- minDocFreq int
-
最小的文件中应该会出现一个词的过滤
例子
> > >n=4> > >频率=(向量。稀疏的(n,(1,3),(1.0,2.0)),…向量。密集的([0.0,1.0,2.0,3.0]),…向量。稀疏的(n,(1),(1.0)))> > >数据=sc。并行化(频率)> > >以色列国防军=以色列国防军()> > >模型=以色列国防军。适合(数据)> > >tfidf=模型。变换(数据)> > >为r在tfidf。收集():rSparseVector (4, {1: 0.0, 3: 0.5754})DenseVector ([0.0, 0.0, 1.3863, 0.863]){1:0.0}SparseVector (4)> > >模型。变换(向量。密集的([0.0,1.0,2.0,3.0)))DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。变换([0.0,1.0,2.0,3.0])DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。变换(向量。稀疏的(n,(1,3),(1.0,2.0)))SparseVector (4, {1: 0.0, 3: 0.5754})
方法
适合
(数据集)计算逆文档频率。
方法的文档
-
适合
( 数据集:pyspark.rdd.RDD(VectorLike] )→pyspark.mllib.feature.IDFModel ¶ -
计算逆文档频率。
- 参数
-
-
数据集
pyspark.RDD
-
术语的抽样频率向量
-
数据集