对于希望利用Apache SparkTM和Delta Lake的巨大增长来构建更快、更可靠的数据管道的数据工程师,Databricks很乐意提供“Apache Spark和Delta Lake的数据工程师指南”。这本电子书摘自更大的“Apache Spark权威指南”和“Delta Lake快速入门”。
下载本电子书至:
- 通过使用DataFrames和SQL来了解集群的核心架构、Spark应用程序和Spark的结构化api
- 了解Spark开发人员用于不同任务的工具集,从图形分析和机器学习到流媒体和集成
- 了解如何处理不同的数据,包括布尔值、数字、字符串、日期和时间戳、处理Null、复杂类型和用户定义函数
- 了解如何使用Delta Lake获得更可靠和更高质量的数据,包括加载、更新和回滚数据湖中的数据