数据Lakehouse
回到术语表什么是数据湖屋?
数据湖屋是一种新的、开放的数据管理体系结构,它结合了数据管理的灵活性、成本效率和规模数据的湖泊通过数据仓库的数据管理和ACID事务,在所有数据上实现商业智能(BI)和机器学习(ML)。数据湖屋:简单、灵活、低成本
数据湖屋是由一种新的开放系统设计实现的:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。将它们合并到一个系统中意味着数据团队可以更快地移动,因为他们能够使用数据而不需要访问多个系统。数据湖屋还确保团队拥有最完整和最新的数据,可用于数据科学、机器学习和业务分析项目。关键技术启用数据湖屋
有几个关键的技术进步使数据湖屋得以实现:- 用于数据湖的元数据层
- 新的查询引擎设计,在数据湖上提供高性能SQL执行
- 优化数据科学和机器学习工具的访问。
数据架构的历史
数据仓库的背景
数据仓库在决策支持和商业智能应用程序方面有着悠久的历史,但对于处理非结构化数据、半结构化数据以及种类繁多、速度快和容量大的数据来说,数据仓库不适合或成本昂贵。数据湖的出现
然后出现了数据湖,用于在数据科学和机器学习的廉价存储上处理各种格式的原始数据,尽管缺乏数据仓库世界的关键特性:它们不支持事务,不强制执行数据质量,并且缺乏一致性/隔离性,这使得混合追加和读取以及批处理和流式作业几乎不可能。通用两层数据架构
因此,数据团队将这些系统拼接在一起,以便跨这些系统中的数据支持BI和ML,从而导致重复数据、额外的基础设施成本、安全挑战和显著的运营成本。在两层数据架构中,数据从操作数据库ETLd到数据湖。这个湖将来自整个企业的数据存储在低成本的对象存储中,并以与常见机器学习工具兼容的格式存储,但通常没有很好地组织和维护。接下来,一小部分关键业务数据再次被ETLd加载到数据仓库中,用于业务智能和数据分析。由于有多个ETL步骤,这种两层架构需要定期维护,并经常导致数据陈旧,根据Kaggle和Fivetran最近的调查,这是数据分析师和数据科学家所关注的一个重要问题。BOB低频彩了解更多有关两层架构的常见问题.额外的资源
回到术语表