王振华,华为技术有限公司研究工程师,致力于构建基于Apache Spark的大数据分析平台。bob体育客户端下载加入华为之前,他获得了浙江大学计算机科学博士学位。主要研究方向为信息检索和网络数据挖掘。
Apache Spark 2.2附带了一个最先进的基于成本的优化框架,该框架收集并利用各种每列数据统计信息(例如基数、不同值的数量、NULL值、最大/分钟、平均/最大长度等)来提高查询执行计划的质量。在许多实际应用程序中,倾斜的数据分布通常是固有的。为了有效地处理倾斜分布,我们在Apache Spark 2.3中添加了等高直方图。利用可靠的统计数据和直方图可以帮助Spark更好地为现实场景选择最优的查询计划。
在这次演讲中,我们将深入探讨Spark的基于成本的优化器如何估计每个数据库操作符的基数和大小。具体来说,对于偏分布工作负载(例如TPC-DS),我们将显示直方图对查询计划更改的影响,从而导致性能提高。
会议标签:#DevSAIS13