史书¶
-
类
pyspark.ml.stat。
史书
¶ -
矢量化统计工具MLlib向量。这个包中的方法为向量包含在DataFrames提供各种统计数据。这个类允许用户选择他们想统计数据来提取对于一个给定的列。
例子
> > >从pyspark.ml.stat进口史书> > >从pyspark.sql进口行> > >从pyspark.ml.linalg进口向量> > >史书=史书。指标(“的意思是”,“数”)> > >df=sc。并行化([行(重量=1.0,特性=向量。密集的(1.0,1.0,1.0)),…行(重量=0.0,特性=向量。密集的(1.0,2.0,3.0))))。toDF()> > >df。选择(史书。总结(df。特性,df。重量))。显示(截断=假)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(特性、重量)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.0,1.0),1}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df。选择(史书。总结(df。特性))。显示(截断=假)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(功能,1.0)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.5,2.0),2}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df。选择(史书。的意思是(df。特性,df。重量))。显示(截断=假)+ - - - - - - - - - - - - - - - - +| |意味着(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.0,1.0)+ - - - - - - - - - - - - - - - - +> > >df。选择(史书。的意思是(df。特性))。显示(截断=假)+ - - - - - - - - - - - - - - - - +| |意味着(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.5,2.0)+ - - - - - - - - - - - - - - - - +
方法
数
(col [weightCol])返回一列数总结
马克斯
(col [weightCol])返回一列马克斯总结
的意思是
(col [weightCol])返回一列意味着总结
指标
(*指标)鉴于一系列指标,提供了一个构建器,从一列结果计算指标。
最小值
(col [weightCol])返回一列分钟总结
normL1
(col [weightCol])返回一列normL1总结
normL2
(col [weightCol])返回一列normL2总结
numNonZeros
(col [weightCol])返回一列numNonZero总结
性病
(col [weightCol])返回一列性病总结
总和
(col [weightCol])返回一列和总结
方差
(col [weightCol])返回一列方差总结
方法的文档
-
静态
数
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列数总结
-
静态
马克斯
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列马克斯总结
-
静态
的意思是
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列意味着总结
-
静态
指标
( *指标:str )→pyspark.ml.stat.SummaryBuilder ¶ -
鉴于一系列指标,提供了一个构建器,从一列结果计算指标。
的文档
史书
了一个例子。- 接受以下指标(区分大小写):
-
意思是:一个向量包含coefficient-wise的意思。
总结:一个向量包含coefficient-wise求和。
方差:一个向量包含coefficient-wise方差。
std:一个向量包含coefficient-wise标准差。
数:所有向量的计算。
numNonzeros:向量的数量为每个系数非零
马克斯:每个系数的最大值。
分钟:为每个系数最小。
为每个系数normL2:欧几里得范数。
normL1:每个系数的L1范数(绝对值之和)。
笔记
目前,这个接口的性能是大约2 ~ 3 x低于使用抽样接口。
例子
- 指标str
-
可以提供的指标。
-
静态
最小值
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列分钟总结
-
静态
normL1
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列normL1总结
-
静态
normL2
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列normL2总结
-
静态
numNonZeros
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列numNonZero总结
-
静态
性病
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列性病总结
-
静态
总和
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列和总结
-
静态
方差
( 上校:pyspark.sql.column.Column,weightCol:可选(pyspark.sql.column.Column]=没有一个 )→pyspark.sql.column.Column¶ -
返回一列方差总结
-
静态