数据的湖泊
在Azure
完整和权威的数据源,为您的湖屋提供动力
什么是数据湖?
什么是Azure数据湖?
Azure数据湖包括可扩展的云数据存储和分析服务。Azure数据湖存储使组织能够存储任何大小、格式和速度的数据,用于各种各样的处理、分析和数据科学用例。当与其他Azure服务(如Azure Databricks)一起使用时,Azure数据湖存储是一种在整个组织中存储和检索数据的成本效益高得多的方式。
无论您的数据是大是小、是快是慢、是结构化还是非结构化,Azure数据湖都集成了Azure身份、管理和安全性,以简化数据管理和治理。Azure存储自动加密您的数据,Azure Databricks提供了保护数据的工具,以满足您组织的安全性和合规性需求。
为什么需要Azure数据湖?
数据湖是开放格式的,因此用户可以避免被锁定在数据仓库等专有系统中。开放标准和格式在现代数据体系结构中变得越来越重要。数据湖还具有高度持久性和低成本,因为它们能够扩展和利用对象存储。此外,对非结构化数据的高级分析和机器学习是当今企业最重要的战略重点之一。以各种格式(结构化、非结构化和半结构化)吸收原始数据的独特能力,以及前面提到的其他优点,使数据湖成为数据存储的明确选择。
当架构正确时,数据湖提供以下能力:
- 动力数据科学和机器学习
- 集中、合并和分类您的数据
- 快速无缝地集成各种数据源和格式
- 通过为用户提供自助服务工具来实现数据的民主化
Azure数据湖和Azure数据仓库之间的区别是什么?
数据湖是保存大量原生原始格式数据的中心位置,也是组织大量高度多样化数据的一种方式。与层次数据仓库(将数据存储在文件或文件夹中)相比,数据湖使用扁平架构来存储数据。数据湖通常配置在可伸缩的商用硬件集群上。因此,您可以将原始数据存储在湖中,以备将来需要时使用,而不用担心数据格式、大小或存储容量。
此外,数据湖集群可以存在于本地或云中。在历史上,术语“数据湖”通常与面向hadoop的对象存储联系在一起,但今天这个术语通常指的是更广泛的对象存储类别。对象存储(兼容amazon s3接口)通过元数据标签和唯一标识符来存储数据,便于跨区域定位和检索数据,提高性能。Databricks Lakehouse平台使数据bob体育客户端下载湖中的所有数据可用于任意数量的数据驱动用例。
如何使用Azure Databricks和Azure数据湖存储构建数据湖?
Azure Databricks中的Managed Delta Lake提供了一层可靠性,使您能够从云上的数据湖中策划、分析和获取价值。
- Azure Databricks从事件队列(如Azure event Hub、Azure IoT Hub或Kafka)读取流数据,并将原始事件加载到存储在Azure data Lake Storage中的优化压缩Delta Lake表和文件夹(青铜层)中。
- 计划或触发的Azure数据工厂管道将来自不同数据源的数据以原始格式复制到Azure数据湖存储中。Azure Databricks中的Auto Loader在文件登陆时处理它们,并将它们加载到存储在Azure Data Lake Storage中的优化压缩Delta Lake表和文件夹(Bronze层)中。
- 流式或调度/触发Azure Databricks作业从Bronze层读取新事务,然后连接、清理、转换和聚合它们,然后使用ACID事务(INSERT、UPDATE、DELETE、MERGE)将它们加载到存储在Azure data Lake Storage上的Delta Lake中的策划数据集(Silver层和Gold层)。
现代数据湖架构
一个现代湖屋建筑那结合了性能、可靠性和数据完整性具有数据湖中可用的非结构化数据的灵活性、规模和支持的仓库。
现代数据湖利用云弹性来“按原样”存储几乎无限量的数据,而不需要强加模式或结构。结构化查询语言(SQL)是一种强大的查询语言,用于探索数据并发现有价值的见解。Delta Lake是一个开源的存bob下载地址储层,通过ACID事务、可扩展的元数据处理以及统一的流和批量数据处理,为数据湖带来可靠性。Delta Lake完全兼容,并为您现有的数据湖带来可靠性。
您可以使用SQL和Delta lake与Azure Databricks轻松查询您的数据湖。Delta Lake使您能够在流数据和批处理数据上执行SQL查询,而无需移动或复制数据。Azure Databricks在与Delta Lake合作时提供了额外的好处,通过与云服务的本地集成来保护您的数据湖,提供最佳性能,并帮助审计和排除数据管道故障。
- Delta Lake集成了可扩展的云存储或HDFS,以帮助消除数据孤岛
- 直接在数据湖上使用SQL查询和兼容acid的事务层探索数据
- 利用金、银、铜“奖章表”来巩固和简化数据管道和分析工作流程的数据质量
- 使用Delta Lake时间旅行查看您的数据如何随时间变化
- Azure Databricks通过Delta缓存、文件压缩和数据跳过等特性优化了性能
使用Azure Databricks解锁数据的潜力
博客
指南和视频
准备开始了吗?