描述
在本课程中,您将探索的基本面Apache火花和三角洲湖砖。您将学习架构组件的火花,DataFrame和结构化流api,以及三角洲湖如何改善你的数据管道。最后,您将执行流查询处理流数据和理解使用三角洲湖的优点。
本课程将帮助你把砖为Apache火花考试认证联系开发人员。
持续时间
2天或4天的一半
目标
- 定义引发的建筑组件
- 描述如何DataFrames转换、执行和优化的火花
- 应用DataFrame API来探索,预处理,加入,在火花和摄取数据
- 应用结构化流API执行流数据分析
- 使用三角洲湖来提高产品质量和性能的数据管道
先决条件
- 完成介绍了Python数据科学与数据工程,或熟悉Python和基本的编程概念,包括数据类型、列表、字典、变量、函数、循环、条件语句、异常处理、访问类,并使用第三方库
- SQL的基本知识,包括编写查询使用
选择,组织,命令,限制,并加入
大纲
第一天
- 火花概述
- 砖平台概述bob体育客户端下载
- 火花SQL
- DataFrame读者、作家、转换和聚合
- 日期时间
- 复杂类型
第二天
- 用户定义的函数(udf)和矢量化udf
- 引发内部
- 查询优化
- 分区
- 流API
- 三角洲湖
即将到来的公共类
如果你有任何问题,请参阅我们的常见问题页面。