史书

pyspark.ml.stat。 史书

矢量化统计工具MLlib向量。这个包中的方法为向量包含在DataFrames提供各种统计数据。这个类允许用户选择他们想统计数据来提取对于一个给定的列。

例子

> > >pyspark.ml.stat进口史书> > >pyspark.sql进口> > >pyspark.ml.linalg进口向量> > >史书=史书指标(“的意思是”,“数”)> > >df=sc并行化([(重量=1.0,特性=向量密集的(1.0,1.0,1.0)),(重量=0.0,特性=向量密集的(1.0,2.0,3.0))))toDF()> > >df选择(史书总结(df特性,df重量))显示(截断=)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(特性、重量)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.0,1.0),1}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df选择(史书总结(df特性))显示(截断=)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(功能,1.0)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.5,2.0),2}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df选择(史书的意思是(df特性,df重量))显示(截断=)+ - - - - - - - - - - - - - - - - +| |意味着(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.0,1.0)+ - - - - - - - - - - - - - - - - +> > >df选择(史书的意思是(df特性))显示(截断=)+ - - - - - - - - - - - - - - - - +| |意味着(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.5,2.0)+ - - - - - - - - - - - - - - - - +

方法

(col [weightCol])

返回一列数总结

马克斯(col [weightCol])

返回一列马克斯总结

的意思是(col [weightCol])

返回一列意味着总结

指标(*指标)

鉴于一系列指标,提供了一个构建器,从一列结果计算指标。

最小值(col [weightCol])

返回一列分钟总结

normL1(col [weightCol])

返回一列normL1总结

normL2(col [weightCol])

返回一列normL2总结

numNonZeros(col [weightCol])

返回一列numNonZero总结

性病(col [weightCol])

返回一列性病总结

总和(col [weightCol])

返回一列和总结

方差(col [weightCol])

返回一列方差总结

方法的文档

静态 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列数总结

静态 马克斯 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列马克斯总结

静态 的意思是 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列意味着总结

静态 指标 ( *指标:str )pyspark.ml.stat.SummaryBuilder

鉴于一系列指标,提供了一个构建器,从一列结果计算指标。

的文档史书了一个例子。

接受以下指标(区分大小写):
  • 意思是:一个向量包含coefficient-wise的意思。

  • 总结:一个向量包含coefficient-wise求和。

  • 方差:一个向量包含coefficient-wise方差。

  • std:一个向量包含coefficient-wise标准差。

  • 数:所有向量的计算。

  • numNonzeros:向量的数量为每个系数非零

  • 马克斯:每个系数的最大值。

  • 分钟:为每个系数最小。

  • 为每个系数normL2:欧几里得范数。

  • normL1:每个系数的L1范数(绝对值之和)。

返回
pyspark.ml.stat.SummaryBuilder

笔记

目前,这个接口的性能是大约2 ~ 3 x低于使用抽样接口。

例子

指标str

可以提供的指标。

静态 最小值 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列分钟总结

静态 normL1 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列normL1总结

静态 normL2 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列normL2总结

静态 numNonZeros ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列numNonZero总结

静态 性病 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列性病总结

静态 总和 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列和总结

静态 方差 ( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column

返回一列方差总结