数据仓库

回到术语表

什么是数据仓库?

一个数据仓库是一个数据管理系统,以业务友好的方式存储来自多个来源的当前和历史数据,以便更容易地洞察和报告。数据仓库通常用于商业智能(BI)、报告和数据分析。

数据仓库使得快速、轻松地分析从销售点系统、库存管理系统或营销或销售数据库等操作系统上传的业务数据成为可能。数据可能会通过操作数据存储,并需要数据清理以确保数据质量,然后才能在数据仓库中用于报告。

数据仓库的用途是什么?

数据仓库用于BI、报告和数据分析,从操作数据库中提取和汇总数据。难以直接从事务性数据库获得的信息可以通过数据仓库获得。例如,管理层想知道每个销售人员每月为每个产品类别所产生的总收入。事务性数据库可能不会捕获这些数据,但数据仓库可以。

数据仓库上的ETL和ELT

ETL(提取,转换,加载)而且提取,加载,转换是转换数据的两种不同方式。数据工程师经常使用ETL(即提取-转换-负载)从不同的数据源提取数据,并将其移动到数据仓库中,在那里他们可以轻松地清理和构建数据。另一方面,ELT首先以原始格式将数据加载到仓库中,并在处理数据时对其进行清理和结构化。

ETL通常由企业数据工程团队更集中地完成,以应用公司范围内的数据清理和一致性规则。ELT意味着转换在后面的阶段完成,通常更具体于项目/业务团队—以支持自助服务分析。

事务处理(OLTP) vs.分析处理(OLAP)

一个联机事务处理(OLTP)系统捕获和维护事务数据库中的数据。事务涉及由多个字段或列组成的单个数据库记录。OLTP数据库通常用于在线银行、ERP系统或库存管理等应用程序,可以对几乎立即处理的行级数据进行快速更新。

一个在线分析处理(OLAP)系统对从OLTP数据库和其他来源收集的大量历史数据应用复杂的查询,用于数据挖掘、分析和商业智能项目。数据仓库是OLAP系统。OLAP数据库和数据仓库使分析师和决策者能够使用自定义报告工具将数据转化为信息和行动。OLAP数据库上的查询失败不会中断或延迟客户的事务处理,但会延迟或影响业务智能洞察的准确性。

数据仓库的好处

  • 合并从多个来源获得的数据;充当所有数据的单一访问点,而不是要求用户连接到数十个甚至数百个单独的数据存储。
  • 历史的智慧。数据仓库集成了来自许多来源的数据,以显示历史趋势。
  • 将分析处理与事务性数据库分离,提高两个系统的性能。
  • 数据质量、一致性和准确性。数据仓库使用围绕数据的一组标准语义,包括命名约定的一致性、各种产品类型的代码、语言、货币等等。

数据仓库的挑战

  • 不支持非结构化数据比如图像、文本、物联网数据,或者HL7、JSON和XML等消息框架。传统的数据仓库只能存储干净的、高度结构化的数据,尽管Gartner这样估计高达80%的组织数据是非结构化的.想要使用非结构化数据来释放人工智能力量的组织必须寻找其他地方。
  • 不支持人工智能和机器学习。数据仓库是专门为常见的DWH工作负载(包括历史报告、BI和查询)而构建和优化的——它们从来不是为或旨在支持机器学习工作负载而设计的。
  • SQL-onlyDWHs通常不支持Python或R语言,这是应用程序开发人员、数据科学家和机器学习工程师的首选语言。
  • 重复的数据-许多企业除了数据湖之外,还拥有数据仓库和主题领域或(部门)数据集市,这导致了重复的数据,大量冗余的ETL,并且没有单一的真相来源。
  • 很难保持同步-在数据湖和数据仓库之间保持两份数据同步增加了复杂性和脆弱性,难以管理。数据漂移可能导致报告不一致和分析错误。
  • 封闭的专有格式增加了供应商的锁定-大多数企业数据仓库使用自己的专有数据格式,而不是基于开源和开放标准的格式。bob下载地址这增加了供应商的锁定,使得使用其他工具分析数据变得困难或不可能,并使迁移数据变得更加困难。
  • 昂贵的-商业数据仓库收取存储数据和分析数据的费用。因此,存储和计算成本仍然紧密耦合在一起。湖屋将计算和存储分离,这意味着您可以根据需要独立扩展两者。

湖屋如何解决这些挑战

湖屋如何解决这些挑战

Lakehouse架构具体地解决这些挑战,以便提供最好的数据湖和数据仓库。在Databricks上查看开放湖屋体系结构的价值

Databricks Lakehouse数据仓库

Databricks Lakehouse平bob体育客户端下载台架构

为了建造一个成功的湖屋,组织已经转向三角洲湖是一个开源bob下载地址、开放格式的数据管理和治理层,结合了数据湖和数据仓库的优点。Databricks Lakehouse平台使用Dbob体育客户端下载elta Lake为您提供:

  • 在数据湖经济学中,数据仓库性能刷新了世界纪录。
  • 无服务器SQL计算消除了基础设施管理的需要。
  • 与现代数据堆栈(如dbt、Tableau、PowerBI和Fivetran)无缝集成,可就地摄取、查询和转换数据。
  • 通过ANSI-SQL支持,为您组织中的每个数据从业者提供一流的SQL开发经验。
  • 细粒度治理,包括数据沿袭、表/行级标记、基于角色的访问控制等等。

额外的资源


回到术语表