StandardScaler

pyspark.mllib.feature。 StandardScaler ( withMean:bool=,withStd:bool=真正的 )

标准化特性通过删除单元方差均值和扩展使用列汇总统计的样本训练集。

参数
withMean bool,可选

错误的默认。中心的数据意味着之前缩放。它将建立一个密集的输出,所以照顾当应用于稀疏的输入。

withStd bool,可选

真正的默认。尺度单位标准差的数据。

例子

> > >vs=(向量密集的([- - - - - -2.0,2.3,0]),向量密集的([3.8,0.0,1.9)))> > >数据集=sc并行化(vs)> > >标准化=StandardScaler(真正的,真正的)> > >模型=标准化适合(数据集)> > >结果=模型变换(数据集)> > >r结果收集():rDenseVector ((-0.7071, 0.7071, -0.7071))DenseVector ((0.7071, -0.7071, 0.7071))> > >int(模型性病(0])4> > >int(模型的意思是(0]*10)9> > >模型withStd真正的> > >模型withMean真正的

方法

适合(数据集)

计算均值和方差和商店作为一个模型用于以后的扩展。

方法的文档

适合 ( 数据集:pyspark.rdd.RDD(VectorLike] )→StandardScalerModel

计算均值和方差和商店作为一个模型用于以后的扩展。

参数
数据集 pyspark.RDD

用于计算均值和方差的数据构建转换模型。

返回
StandardScalerModel