Delta-Lake-OS-Webinar-Marketo Header@2x.jpg

Delta Lake:数bob下载地址据湖的开源可靠性

按需网络研讨会

Delta Lake是一个开源存储bob下载地址层,为数据湖带来可靠性。Delta Lake提供ACID事务,可扩展的元数据处理,并统一流和批处理数据。Delta Lake运行在您现有的数据湖之上,并且完全兼容Apache Spark api。

具体来说,Delta Lake提供:
  • Spark上的ACID事务:序列化隔离级别确保读取器永远不会看到不一致的数据。
  • 可扩展元数据处理:利用Spark的分布式处理能力,轻松处理包含数十亿个文件的pb级表的所有元数据。
  • 流和批处理的统一:Delta Lake中的表既是批处理表,也是流的源和汇。流数据摄取,批处理历史回填,交互式查询都是开箱即用的。
  • 模式强制:自动处理模式变化,以防止在摄取期间插入坏记录。
  • 时间旅行:数据版本支持回滚、完整的历史审计跟踪和可重复的机器学习实验。

在本次网络研讨会上,您将有机会直接听取负责Delta Lake项目的首席工程师Michael Armbrust的发言,并向他提问。


演讲者

michael-armbrust.jpg

迈克尔时常要
Databricks首席工程师



按需网络研讨会