StandardScaler¶

类 pyspark.mllib.feature。 StandardScaler ( withMean:bool=假,withStd:bool=真正的 ) ¶

标准化特性通过删除单元方差均值和扩展使用列汇总统计的样本训练集。

参数

withMean bool,可选: 错误的默认。中心的数据意味着之前缩放。它将建立一个密集的输出,所以照顾当应用于稀疏的输入。
withStd bool,可选: 真正的默认。尺度单位标准差的数据。

例子

           > > >vs=(向量。密集的([- - - - - -2.0,2.3,0]),向量。密集的([3.8,0.0,1.9)))> > >数据集=sc。并行化(vs)> > >标准化=StandardScaler(真正的,真正的)> > >模型=标准化。适合(数据集)> > >结果=模型。变换(数据集)> > >为r在结果。收集():rDenseVector ((-0.7071, 0.7071, -0.7071))DenseVector ((0.7071, -0.7071, 0.7071))> > >int(模型。性病(0])4> > >int(模型。的意思是(0]*10)9> > >模型。withStd真正的> > >模型。withMean真正的
          

方法

适合(数据集)

计算均值和方差和商店作为一个模型用于以后的扩展。

方法的文档

适合 ( 数据集:pyspark.rdd.RDD(VectorLike] )→StandardScalerModel¶

计算均值和方差和商店作为一个模型用于以后的扩展。

参数

数据集 pyspark.RDD: 用于计算均值和方差的数据构建转换模型。

返回

StandardScalerModel

以前的

StandardScalerModel

下一个

HashingTF