NaiveBayesModel

pyspark.mllib.classification。 NaiveBayesModel ( 标签:numpy.ndarray,π:numpy.ndarray,θ:numpy.ndarray )

朴素贝叶斯分类器的模型。

参数
标签 numpy.ndarray

标签的列表。

π numpy.ndarray

日志类的先验的维C,数量的标签。

θ numpy.ndarray

日志的类条件概率,其维度C-by-D, D是数量的特性。

例子

> > >pyspark.mllib.linalg进口SparseVector> > >数据=(LabeledPoint(0.0,(0.0,0.0]),LabeledPoint(0.0,(0.0,1.0]),LabeledPoint(1.0,(1.0,0.0]),]> > >模型=NaiveBayes火车(sc并行化(数据))> > >模型预测(numpy数组([0.0,1.0)))0.0> > >模型预测(numpy数组([1.0,0.0)))1.0> > >模型预测(sc并行化([[1.0,0.0]]))收集()[1.0]> > >sparse_data=(LabeledPoint(0.0,SparseVector(2,{1:0.0})),LabeledPoint(0.0,SparseVector(2,{1:1.0})),LabeledPoint(1.0,SparseVector(2,{0:1.0}))]> > >模型=NaiveBayes火车(sc并行化(sparse_data))> > >模型预测(SparseVector(2,{1:1.0}))0.0> > >模型预测(SparseVector(2,{0:1.0}))1.0> > >进口操作系统,tempfile> > >路径=tempfilemkdtemp()> > >模型保存(sc,路径)> > >sameModel=NaiveBayesModel负载(sc,路径)> > >sameModel预测(SparseVector(2,{0:1.0}))= =模型预测(SparseVector(2,{0:1.0}))真正的> > >shutil进口rmtree> > >试一试:rmtree(路径)除了OSError:通过

方法

负载(sc路径)

从给定的路径加载模型。

预测(x)

返回最可能的类数据向量的向量或一个抽样

保存(sc路径)

这个模型保存到给定的路径。

方法的文档

classmethod 负载 ( sc:pyspark.context.SparkContext,路径:str )pyspark.mllib.classification.NaiveBayesModel

从给定的路径加载模型。

预测 ( x:联盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→联盟(numpy.float64,pyspark.rdd.RDD(numpy.float64] ]

返回最可能的类数据向量的向量或一个抽样

保存 ( sc:pyspark.context.SparkContext,路径:str )→没有

这个模型保存到给定的路径。