可按需
通过Apache Spark 3.0和DBR 7.0了解开源社区的最新发展
Apache Spark™3.0版本为Spark生态系统带来了新的功能和特性。在这个来自Databricks的在线技术演讲中,我们将介绍Apache Spark 3.0版本的更新,这是我们新的Databricks运行时7.0测试版的一部分。主题包括:
- Spark 3.0中新的自适应查询执行(AQE)框架可以提高查询性能。基于3TB TPC-DS基准测试,两个查询的加速速度超过1.5倍,另外37个查询的加速速度超过1.1倍。
- 使用动态分区修剪(Dynamic Partition Pruning, DPP),我们可以根据星型模式设计中常见的事实表和维度表之间的连接来修剪分区,从而显著提高性能。
- 加速器感知调度帮助Spark利用GPU和硬件加速器来处理特定的工作负载(例如深度学习)。此版本增强了调度程序,并使集群管理器支持加速器。
- Spark 3.0还引入了新的Pandas UDF类型和新的Pandas函数api,以提高性能和可用性。
- 增强的监控功能,包括结构化流的新UI,增强的EXPLAIN命令和可观察指标。
演讲者是
小李,开源Spark的工程经理bob下载地址
Denny Lee,开发人员倡导者
现在就注册,以了解Spark社区BOB低频彩关于快速和可扩展数据处理的最新贡献,以及如何在Databricks上免费试用它们。
现在就观看点播!