从三角洲湖开始

科技讲座系列

概述

Lakehouse架构模式的兴起建立在技术创新的基础上，使数据湖能够支持ACID事务和传统数据仓库工作负载的其他特性。加入我们的五部分学习系列开始与三角洲湖。本系列技术讲座将带您了解Delta Lake (Apache Spark)的技术基础，构建高度可伸缩的数据管道，处理合并流+批处理工作负载，使用Delta Lake和MLflow为数据科学提供动力，甚至与Delta Lake工程师一起深入了解其起源。

许多研讨会都有笔记本和幻灯片链接供你下载。

请跟我来注册您的免费社区版帐户或下载Delta Lake图书馆．

注册社区版

Delta Lake让Apache Spark变得更好

Apache Spark是大数据的主要处理框架。Delta Lake为Spark增加了可靠性，因此您的分析和机器学习计划可以随时访问高质量、可靠的数据。本次网络研讨会将介绍如何使用Delta Lake增强Spark环境中的数据可靠性。

简化和扩展数据工程管道

常见的数据工程管道架构使用对应不同质量级别的表，逐步向数据添加结构:数据摄取(“青铜”表)，转换/特征工程(“银”表)，以及机器学习训练或预测(“金”表)。结合起来，我们将这些表称为“多跳”体系结构。它允许数据工程师建立一个管道，从原始数据开始，作为“单一的真相来源”，一切都从中流动。

超越Lambda:介绍Delta体系结构

Lambda架构是一种流行的技术，其中记录由批处理系统和流系统并行处理。然后在查询期间将结果进行组合，以提供完整的答案。随着Delta Lake的出现，我们看到许多客户采用了简单的连续数据流模型来处理到达的数据。我们称这种体系结构为“Delta体系结构”。在本节课中，我们将讨论采用连续数据流模型的主要瓶颈，以及Delta体系结构如何解决这些问题。

利用Delta Lake和MLflow为数据科学做好准备

在规划数据科学计划时，必须对整个数据分析领域有一个整体的看法。数据工程是数据科学的关键推动者，有助于及时提供可靠、高质量的数据。Delta Lake是一种为数据湖带来可靠性的开源存储层，可以帮助您将数据可靠性提升到一个新的水平。

幕后故事:三角洲湖的起源

开发者倡导者Denny Lee采访了Databricks的软件工程师Burak Yavuz，了解Delta Lake团队的决策过程，以及他们为什么设计、构建和实现今天的架构。了解团队面临的技术挑战，如何解决这些挑战，并了解未来的计划。

接下来:潜入三角洲湖

深入了解Delta Lake的内部结构，这是一种流行的开源技术，在您的数据湖之上支持ACID事务、时间旅bob下载地址行、模式强制等。

看现在