优化Apache火花™砖
描述
在本课程中,您将探索代表绝大多数的五个关键问题在一个Apache火花应用程序性能问题:斜,泄漏,洗牌,存储和序列化。通过示例基于1 +结核100 GB的数据集,你会调查和诊断瓶颈的来源与火花UI和学习有效的缓解策略。你也将发现新特性介绍了火花3可以自动解决常见性能问题。最后,您将学习如何设计和配置集群基于特定的团队需要为获得最佳性能和关切。
持续时间
2天或4天的一半
目标
- 阐明如何五种最常见的引起应用程序中的性能问题可以减轻实现更好的应用程序性能
- 总结最常见的与数据摄入相关的性能问题和如何减轻它们
- 阐明新特性如何引发3。x可以用来减轻火花应用程序中的性能问题
- 配置一个火花集群的最大性能给出具体的工作要求
先决条件
- 实践经验开发Apache火花应用程序(6 +个月)。我们推荐的Apache火花编程课程开始与火花。
- 中间Python或Scala的经验
大纲
第一天
- UI的火花架构和火花
- 斜
- 泄漏
- 洗牌
- 存储
- 序列化
第二天
- 摄入基本知识
- 谓词推动波动
- 磁盘分区
- z值
- 用桶装
- 优化自适应查询执行(AQE)
- 为高性能设计和配置集群
即将到来的公共类
如果你有任何问题,请参阅我们的常见问题页面。