以色列国防军

pyspark.mllib.feature。 以色列国防军 ( minDocFreq:int=0 )

逆文档频率(IDF)。

使用标准的制定:idf =日志((m + 1) / (d (t) + 1)),在那里文档和总数吗d (t)包含词的文档的数量吗t

这个实现支持过滤条件不出现在最小数量的文档(控制的变量minDocFreq)。至少不在的条款minDocFreq文件,发现IDF 0,导致TF-IDFs 0。

参数
minDocFreq int

最小的文件中应该会出现一个词的过滤

例子

> > >n=4> > >频率=(向量稀疏的(n,(1,3),(1.0,2.0)),向量密集的([0.0,1.0,2.0,3.0]),向量稀疏的(n,(1),(1.0)))> > >数据=sc并行化(频率)> > >以色列国防军=以色列国防军()> > >模型=以色列国防军适合(数据)> > >tfidf=模型变换(数据)> > >rtfidf收集():rSparseVector (4, {1: 0.0, 3: 0.5754})DenseVector ([0.0, 0.0, 1.3863, 0.863]){1:0.0}SparseVector (4)> > >模型变换(向量密集的([0.0,1.0,2.0,3.0)))DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型变换([0.0,1.0,2.0,3.0])DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型变换(向量稀疏的(n,(1,3),(1.0,2.0)))SparseVector (4, {1: 0.0, 3: 0.5754})

方法

适合(数据集)

计算逆文档频率。

方法的文档

适合 ( 数据集:pyspark.rdd.RDD(VectorLike] )pyspark.mllib.feature.IDFModel

计算逆文档频率。

参数
数据集 pyspark.RDD

术语的抽样频率向量