KolmogorovSmirnovTest

pyspark.ml.stat。 KolmogorovSmirnovTest

进行双边柯尔莫哥洛夫斯米尔诺夫(KS)测试数据从一个连续分布采样。

通过比较最大的区别样品的经验累积分布数据和理论分布我们可以提供一个测试的零假设的理论分布的样本数据来自。

方法

测试(数据集,sampleCol distName * params)

进行一次采样,两面Kolmogorov-Smirnov检测概率分布的平等。

方法的文档

静态 测试 ( 数据集:pyspark.sql.dataframe.DataFrame,sampleCol:str,distName:str,*参数个数:浮动 )→pyspark.sql.dataframe.DataFrame

进行一次采样,两面Kolmogorov-Smirnov检测概率分布的平等。目前支持的正态分布,作为参数的平均值和标准偏差。

参数
数据集 pyspark.sql.DataFrame

一个数据集或DataFrame包含的样本数据进行测试。

sampleCol str

样本的名字列在数据集,任何数值类型。

distName str

一个字符串名字的理论分布,目前只支持“常态”。

参数个数 浮动

的列表浮动指定参数值用于理论分布。“规范”分布,参数包括均值和方差。

返回
一个包含Kolmogorov-Smirnov DataFrame输入采样数据的测试结果。
这DataFrame将包含一行以下字段:
  • pValue:双
  • 统计数据:双

例子

> > >pyspark.ml.stat进口KolmogorovSmirnovTest> > >数据集=[[- - - - - -1.0),(0.0),(1.0]]> > >数据集=火花createDataFrame(数据集,(“样本”])> > >ksResult=KolmogorovSmirnovTest测试(数据集,“样本”,“规范”,0.0,1.0)第一个()> > >(ksResultpValue,3)1.0> > >(ksResult统计,3)0.175> > >数据集=[[2.0),(3.0),(4.0]]> > >数据集=火花createDataFrame(数据集,(“样本”])> > >ksResult=KolmogorovSmirnovTest测试(数据集,“样本”,“规范”,3.0,1.0)第一个()> > >(ksResultpValue,3)1.0> > >(ksResult统计,3)0.175