保证统计函数一致性Spark3.0和Spark3.1及以上

Databricks运行7.3LTS和下返回NAN时使用零分数函数设置spark配置返回无效

写由chetan.kardekar

2022年10月14日

问题

统计函数covar_samp,库尔托斯,斜率,std系统,stdev,stdev_samp,偏差var_samp返回NaN时间d数据bricks运行时间7.3LTS表达式评价时发生除零同函数返回空号Databricks运行时间9.1LTS及以上数据bricksSQL端点

示例图像显示运行时样本结果分数为零时,结果返回 NaN

示例图像显示运行数据bricksRuntime91.LTS时样本结果分数为零时,结果返回无效

因果

行为变化是由于Apachespark底层变化

spark3.0和下方,默认行为返回NAN时除以0

spark3.1中,当评价统计函数时除以零时修改为无效

欲了解更多更改信息,请审查sparkPR[SPARK-13860.

求解

集成spark.sql.legacy.statisticalAggregate虚伪插进spark配置高山市AWS系统|休眠|GCP集群运行7.3时间LTS

返回nel代替NAN时使用零除法评价统计函数

删除

信息学

也可以使用笔记本级设置此值spark.conf.set("spark.sql.legacy.statisticalAggregate", "false")无法编辑集群spark配置.



文章有帮助吗