以色列国防军¶

类 pyspark.mllib.feature。 以色列国防军 ( minDocFreq:int=0 ) ¶

逆文档频率(IDF)。

使用标准的制定:idf =日志((m + 1) / (d (t) + 1)),在那里米文档和总数吗d (t)包含词的文档的数量吗t。

这个实现支持过滤条件不出现在最小数量的文档(控制的变量minDocFreq)。至少不在的条款minDocFreq文件,发现IDF 0,导致TF-IDFs 0。

参数

minDocFreq int: 最小的文件中应该会出现一个词的过滤

例子

           > > >n=4> > >频率=(向量。稀疏的(n,(1,3),(1.0,2.0)),…向量。密集的([0.0,1.0,2.0,3.0]),…向量。稀疏的(n,(1),(1.0)))> > >数据=sc。并行化(频率)> > >以色列国防军=以色列国防军()> > >模型=以色列国防军。适合(数据)> > >tfidf=模型。变换(数据)> > >为r在tfidf。收集():rSparseVector (4, {1: 0.0, 3: 0.5754})DenseVector ([0.0, 0.0, 1.3863, 0.863]){1:0.0}SparseVector (4)> > >模型。变换(向量。密集的([0.0,1.0,2.0,3.0)))DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。变换([0.0,1.0,2.0,3.0])DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。变换(向量。稀疏的(n,(1,3),(1.0,2.0)))SparseVector (4, {1: 0.0, 3: 0.5754})
          

方法

适合(数据集)

计算逆文档频率。

方法的文档

适合 ( 数据集:pyspark.rdd.RDD(VectorLike] )→pyspark.mllib.feature.IDFModel ¶

计算逆文档频率。

参数

数据集 pyspark.RDD: 术语的抽样频率向量

以前的

IDFModel

下一个

Word2Vec