数据Lakehouse

回到术语表

什么是数据湖屋?

数据湖屋是一种新的、开放的数据管理体系结构,它结合了数据管理的灵活性、成本效率和规模数据的湖泊通过数据仓库的数据管理和ACID事务,在所有数据上实现商业智能(BI)和机器学习(ML)。

数据湖屋:简单、灵活、低成本

数据湖屋是由一种新的开放系统设计实现的:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。将它们合并到一个系统中意味着数据团队可以更快地移动,因为他们能够使用数据而不需要访问多个系统。数据湖屋还确保团队拥有最完整和最新的数据,可用于数据科学、机器学习和业务分析项目。数据存储的演变,从数据仓库到数据湖再到数据湖屋

关键技术启用数据湖屋

有几个关键的技术进步使数据湖屋得以实现:
  • 用于数据湖的元数据层
  • 新的查询引擎设计,在数据湖上提供高性能SQL执行
  • 优化数据科学和机器学习工具的访问。
元数据层像开源的Delta Lbob下载地址ake一样,它位于开放文件格式(例如。镶花的文件),并跟踪哪些文件是不同表版本的一部分,以提供丰富的管理功能,如兼容acid的事务。元数据层实现了数据湖屋中常见的其他特性,比如支持流I/O(消除了对Kafka等消息总线的需求),时间旅行到旧表版本,模式强制和进化,以及数据验证。性能是数据湖屋成为当今企业使用的主要数据架构的关键,因为这是数据仓库存在于两层架构中的关键原因之一。虽然使用低成本对象存储的数据湖在过去访问速度很慢,但新的查询引擎设计支持高性能SQL分析。这些优化包括在RAM/ ssd中缓存热数据(可能转换为更有效的格式)、对集群共访问数据的数据布局优化、辅助数据结构(如统计数据和索引)以及现代cpu上的向量化执行。基于TPC-DS基准,将这些技术结合在一起,使得数据湖屋能够在大型数据集上实现与流行数据仓库相媲美的性能。的数据湖屋使用的开放数据格式(如拼花),使它非常对于数据科学家和机器学习工程师来说很容易访问湖屋的数据。他们可以使用DS/ML生态系统中流行的工具,比如pandas,TensorFlowPyTorch和其他已经可以访问Parquet和ORC等源代码。火花DataFrames甚至为这些开放格式提供声明性接口,从而实现进一步的I/O优化。数据湖屋的其他功能,如审计历史记录和时间旅行,也有帮助提高机器学习的再现性.要了解BOB低频彩更多支持迁移到数据湖屋的技术进步,请参阅CIDR的论文Lakehouse:统一数据仓库和高级分析的新一代开放平台bob体育客户端下载还有一篇学术论文Delta Lake:云对象存储上的高性能ACID表存储

数据架构的历史

数据仓库的背景

数据仓库在决策支持和商业智能应用程序方面有着悠久的历史,但对于处理非结构化数据、半结构化数据以及种类繁多、速度快和容量大的数据来说,数据仓库不适合或成本昂贵。

数据湖的出现

然后出现了数据湖,用于在数据科学和机器学习的廉价存储上处理各种格式的原始数据,尽管缺乏数据仓库世界的关键特性:它们不支持事务,不强制执行数据质量,并且缺乏一致性/隔离性,这使得混合追加和读取以及批处理和流式作业几乎不可能。

通用两层数据架构

因此,数据团队将这些系统拼接在一起,以便跨这些系统中的数据支持BI和ML,从而导致重复数据、额外的基础设施成本、安全挑战和显著的运营成本。在两层数据架构中,数据从操作数据库ETLd到数据湖。这个湖将来自整个企业的数据存储在低成本的对象存储中,并以与常见机器学习工具兼容的格式存储,但通常没有很好地组织和维护。接下来,一小部分关键业务数据再次被ETLd加载到数据仓库中,用于业务智能和数据分析。由于有多个ETL步骤,这种两层架构需要定期维护,并经常导致数据陈旧,根据Kaggle和Fivetran最近的调查,这是数据分析师和数据科学家所关注的一个重要问题。BOB低频彩了解更多有关两层架构的常见问题

额外的资源


回到术语表