奖章lakehouse架构是什么?

图案架构描述了一系列数据层,表示数据存储在lakehouse的质量。砖建议采取多层次的方法构建一个企业数据的事实来源的产品。这种架构保证原子性、一致性、隔离性和持久性数据经过多层次的验证和转换之前存储在一个布局优化的有效分析。条款青铜(生),(验证)黄金(丰富)描述的质量数据在每一个层。

重要的是要注意,这个图案架构不能替代其他维度建模技术。模式和表内每一层都可以采取多种形式和程度的正常化取决于数据更新的频率和性质和下游用例数据。

组织可以利用砖Lakehouse创建和维护整个公司验证数据集访问。采用一个组织的心态关注策划成功的一个关键步骤data-as-products lakehouse构建一个数据。

摄取到青铜层原始数据

铜层包含多组数据。数据摄取青铜层通常:

  • 保持原始状态的数据源。

  • 随着时间的推移逐步追加和生长。

  • 可以任意组合的流和批处理事务。

保留完整的、未经加工的历史中每个数据集的一种有效的存储格式能够重现任何给定的数据系统的状态。

额外的元数据(如源文件名称或记录时间数据处理)可能被添加到数据摄取增强的可发现性,描述状态的源数据集,在下游应用程序和优化性能。

验证和数据在银层删除处理

回想一下,而铜层包含整个历史数据接近原始状态,银层代表一个验证,丰富的数据版本可以为下游分析是可信的。

而砖坚信lakehouse愿景由青铜、白银,银和黄金表,只需实现一个层有效地将立即解锁的许多lakehouse的潜在好处。

对于任何数据管道,银层可能包含多个表。

动力分析与金层

这个黄金数据往往是高度精炼和聚合,包含数据,分析、机器学习、和生产应用。而所有表lakehouse应该成为一个重要的目的,黄金表代表数据转化为知识,而不是信息。

分析师主要依靠黄金为其核心职责表,和数据共享与客户很少会被存储在这个水平。

更新这些表完成作为定期生产工作负载的一部分,这有助于控制成本,并允许服务水平协议(sla)的数据新鲜度。

虽然lakehouse没有同样的死锁问题,您可能会遇到一个企业数据仓库,黄金表通常存储在一个单独的存储容器来帮助避免云数据请求限制。

一般来说,因为聚合、连接和过滤处理数据写入黄金层之前,用户应该看到黄金低延迟数据的查询性能表。