先进的数据工程与砖
描述
在本课程中,学生将他们现有的知识基础的Apache火花,结构化流和三角洲湖lakehouse解锁的全部潜力数据利用的工具套件提供的砖。本课程重强调设计支持增量数据处理,使系统优化,不断摄取和分析日益增长的数据。通过设计工作量,利用内置平台优化,数据工程师可以减少代码维护的负担,随叫随到的紧急情况,并迅bob体育客户端下载速适应新要求以最小的生产代码重构或停机时间。
在这门课的主题应该掌握在尝试之前砖注册数据工程师专业考试。
持续时间
2天或4天的一半
目标
- 设计数据库和管道优化砖Lakehouse平台bob体育客户端下载
- 实现高效的增量数据处理验证和丰富数据驱动业务决策和应用程序
- 利用Databricks-native功能用于管理对敏感数据的访问和履行right-to-be-forgotten请求
- 管理错误故障排除、代码推广任务编排监控使用砖工具和生产工作
先决条件
这些是艰难的先决条件为我们的合作伙伴——请不要注册这门课,除非你满足大多数bob体育外网下载需求:
- 体验使用PySpark api执行先进的数据转换
- 熟悉用Python实现类
- 经验在生产中使用SQL数据仓库或数据湖的实现
- 工作经验在砖笔记本和配置集群
- 熟悉用SQL创建和操纵三角洲湖表中的数据
- 能够使用火花结构化流逐步从三角洲表读取
大纲
第一天
- Lakehouse架构
- 优化数据存储
- 理解三角洲湖事务
- 三角洲湖与乐观并发隔离
- 流的设计模式
- 克隆的发展和数据备份
- 自动加载器和铜摄入模式
- 流执行重复数据删除技术和质量
- 缓慢变化维度
- 流连接和有状态性
第二天
- 存储和物化视图
- 存储数据安全
- PII授予访问权限
- Lakehouse删除数据
- 编制和多任务调度工作
- 监视、记录和处理错误
- 促进与砖回购的代码
- 编程平台交互(砖CLI和Rbob体育客户端下载EST API)
- 管理成本和延迟与流媒体工作负载