跳转到主要内容

先进的数据工程与砖

描述

在本课程中,学生将他们现有的知识基础的Apache火花,结构化流和三角洲湖lakehouse解锁的全部潜力数据利用的工具套件提供的砖。本课程重强调设计支持增量数据处理,使系统优化,不断摄取和分析日益增长的数据。通过设计工作量,利用内置平台优化,数据工程师可以减少代码维护的负担,随叫随到的紧急情况,并迅bob体育客户端下载速适应新要求以最小的生产代码重构或停机时间。


在这门课的主题应该掌握在尝试之前砖注册数据工程师专业考试

持续时间

2天或4天的一半

目标

  • 设计数据库和管道优化砖Lakehouse平台bob体育客户端下载
  • 实现高效的增量数据处理验证和丰富数据驱动业务决策和应用程序
  • 利用Databricks-native功能用于管理对敏感数据的访问和履行right-to-be-forgotten请求
  • 管理错误故障排除、代码推广任务编排监控使用砖工具和生产工作

先决条件

这些是艰难的先决条件为我们的合作伙伴——请不要注册这门课,除非你满足大多数bob体育外网下载需求:

  • 体验使用PySpark api执行先进的数据转换
  • 熟悉用Python实现类
  • 经验在生产中使用SQL数据仓库或数据湖的实现
  • 工作经验在砖笔记本和配置集群
  • 熟悉用SQL创建和操纵三角洲湖表中的数据
  • 能够使用火花结构化流逐步从三角洲表读取

大纲

第一天

  • Lakehouse架构
  • 优化数据存储
  • 理解三角洲湖事务
  • 三角洲湖与乐观并发隔离
  • 流的设计模式
  • 克隆的发展和数据备份
  • 自动加载器和铜摄入模式
  • 流执行重复数据删除技术和质量
  • 缓慢变化维度
  • 流连接和有状态性

第二天

  • 存储和物化视图
  • 存储数据安全
  • PII授予访问权限
  • Lakehouse删除数据
  • 编制和多任务调度工作
  • 监视、记录和处理错误
  • 促进与砖回购的代码
  • 编程平台交互(砖CLI和Rbob体育客户端下载EST API)
  • 管理成本和延迟与流媒体工作负载