bob体育客户端下载平台的博客

宣布在AWS和Azure上的Unity目录的封闭公开预览

莱克豪斯的统一治理
分享这篇文章

更新:统一目录现在在AWS和Azure上普遍可用。

在2021年数据和人工智能峰会上,我们公布Unity目录数据和人工智能的统一治理解决方案,内置在Databricks Lakehouse平台中。bob体育客户端下载今天,我们很高兴地宣布针对AWS和Azure的Unity Catalog的封闭公开预览。

在这篇博客中,我们将总结Unity Catalog背后的愿景,这个版本中可用的一些关键数据治理功能,并提供我们即将到来的路线图的概述。

为什么要为数据和人工智能治理提供Unity Catalog ?

数据和人工智能治理的主要挑战

数据和人工智能资产的多样性

数据使用的增加和数据环境复杂性的增加使得组织在管理和治理所有类型的数据相关资产时遇到了困难。不仅仅是文件或表,现代数据资产有多种形式,包括仪表板、机器学习模型和非结构化数据(如视频和图像),而传统数据治理解决方案根本无法治理和管理这些数据。

两个完全不同且不兼容的数据平台bob体育客户端下载

如今的组织使用两种不同的平台进行数据分析和人工智能工作——用于BI的数据仓库bob体育客户端下载和用于大数据和人工智能的数据湖。这导致了跨两个平台的数据复制,这对治理提出了重大挑战,因为很难创建统一的数据视图来查看数bob体育客户端下载据存储在哪里,谁可以访问哪些数据,以及在两个具有不同治理模型的平台上一致地定义和执行数据访问策略。

数据仓库提供对结构化数据的表、行、列和视图的细粒度访问控制;但它们无法提供ML/AI或数据流用例所需的敏捷性和灵活性。相比之下,数据湖以原生格式保存原始数据,为数据团队提供了执行ML/AI的灵活性。但是,现有的数据湖治理解决方案不提供细粒度的访问控制,仅支持文件和目录的权限。数据湖治理还缺乏发现和共享数据的能力,这使得发现用于分析或机器学习的数据变得困难。

两个完全不同且不兼容的数据平台bob体育客户端下载

多云应用的兴起

现在,越来越多的组织利用多云策略来优化成本,避免供应商锁定,并满足合规性和隐私法规。对于非标准的特定于云的治理模型,跨云的数据治理非常复杂,需要熟悉特定于云的安全和治理概念,如身份和访问管理(IAM)。

Lakehouse上数据治理的脱节工具

如今,数据团队必须管理大量碎片化的工具/服务,以满足他们的数据治理需求,如数据发现、编目、审计、共享、访问控制等。由于服务之间存在多个集成点和网络延迟,这不可避免地会导致操作效率低和性能差。

我们对治理湖屋的愿景

我们的愿景统一目录是通过跨云的通用治理模型统一所有数据和人工智能资产的治理,包括仪表板、笔记本电脑和机器学习模型,提供更好的本地性能和安全性。通过自动化的数据沿袭,Unity Catalog提供了端到端可见性,可以了解数据在组织中如何从源流向消费,使数据团队能够快速识别和诊断数据变化对整个数据资产的影响。获取关于数据如何被访问以及由谁访问的详细审计报告,以满足数据遵从性和安全性需求。通过丰富的数据发现,数据团队可以快速发现和引用BI、分析和ML工作负载的数据,加快实现价值的时间。

Unity Catalog也支持本机三角洲分享,全球首个数据共享开放协议,实现跨组织无缝数据共享,同时保护数据安全和隐私。

最后,Unity Catalog还提供了跨现代数据堆栈的丰富集成,提供了灵活性和互操作性,以利用您选择的工具来满足您的数据和AI治理需求。

这个版本提供了Unity目录的主要功能

集中元数据管理和用户管理

在没有Unity Catalog的情况下,每个Databricks工作空间都连接到Hive metastore,并为表访问控制(TACL)维护一个单独的服务。这需要跨工作空间手动同步视图、表定义和acl等元数据,从而导致数据和访问控制的一致性问题。

Unity Catalog为跨工作空间元数据引入了一个公共层,存储在帐户级别,以便通过允许不同的工作空间通过公共接口访问Unity Catalog元数据来简化协作。此外,Unity Catalog中的数据权限应用于帐户级别的身份,而不是工作空间的本地身份,从而实现跨所有工作空间的用户和组的一致视图。

用Unity Catalog为你的数据财产创建一个真实的单一来源

Unity目录还支持对任何语言(Python、SQL、R和Scala)开发的工作负载进行一致的数据访问和策略强制执行。

SQL中的三级命名空间

Unity Catalog还引入了三层命名空间来组织Databricks中的数据。您可以定义一个或多个目录,其中包含模式,而模式又包含表和视图。这给了数据所有者更多的灵活性来组织他们的数据,并让他们看到他们在Hive中注册的现有表作为一个目录(hive_metastore),所以他们可以在现有数据的同时使用Unity Catalog。

例如,您仍然可以直接查询您的遗留Hive metastore:

选择hive_metastore.prod.customer_transactions

您还可以在目录级别区分生产数据并相应地授予权限:

选择production.sales.customer_address

选择staging.sales.customer_address

这使您可以灵活地在整个企业和环境范围内按照所选的分类法组织数据。您可以将Catalog用作环境范围、组织范围或两者兼有。

Databricks JDBC Driver的最新版本现在也支持三层名称空间,它支持在Databricks上运行各种BI和ETL工具。

统一数据访问湖屋

Unity Catalog提供了一个统一的数据访问层,为Databricks用户提供了一个简单而精简的方式来定义和连接到您的数据,通过托管表,外部表或文件,以及管理访问控制。使用外部位置和存储凭证Unity Catalog可以代表用户在云租户中读取和写入数据。

Unity Catalog支持对托管表、外部表和文件进行细粒度访问控制

集中访问控制

Unity Catalog集中了对文件、表和视图的访问控制。它利用动态视图进行细粒度访问控制,以便您可以将对行和列的访问限制为授权查询它们的用户和组。

集中授予访问权限

表和视图的访问控制

Unity Catalog目前对细粒度访问控制的支持包括通过使用动态视图的列、行过滤器和数据屏蔽。

动态视图允许您根据用户或用户的组成员资格创建条件语句以供显示。

例如,下面的视图只允许'(电子邮件保护)用户查看电子邮件列。

创建视图sales_redacted作为选择user_id,情况下current_user()(电子邮件保护)然后电子邮件其他的“修订”结束作为电子邮件,的国家,产品,总计sales_raw

文件访问控制

外部位置控制对文件的访问由外部表管理。例如,在上面的例子中,我们创建了一个外部位置s3: / /部门/融资和一个外部桌子在s3: / /部门/金融/预测

这意味着我们仍然可以提供对文件的访问控制s3: / /部门/融资,不包括预测目录。

例如,考虑以下问题:

格兰特READ_FILE外部地方财政finance_dataengs;

开放、简单、安全的数据共享

在2021年数据+人工智能峰会期间,我们宣布Delta共享这是世界上第一个用于安全数据共享的开放协议。Delta Sharing与Unity Catalog原生集成,使客户能够添加细粒度的治理和数据安全控制,使得在内部或外部、跨平台或跨云共享数据变得简单和安全。bob体育客户端下载

三角洲分享允许客户安全地跨组织共享实时数据,而不依赖于数据驻留或使用的平台。bob体育客户端下载组织可以简单地共享基于Apache Parquet和Delta Lake格式的现有大规模数据集,而无需将数据复制到另一个系统。Delta Sharing还为数据团队提供了使用所选工具查询、可视化和丰富共享数据的灵活性。

三角洲共享生态系统
三角洲共享生态系统

此版本提供的新特性之一是分区过滤,允许数据提供者在向共享中添加表时,通过添加分区规范,将组织数据的一个子集共享给不同的数据接收者。我们还改进了Delta Sharing管理,并引入了接收令牌管理选项对于metastore Admins。今天,metastore Admin可以使用create receiver命令创建接收者,并且将自动生成一个激活链接,用于数据接收者下载一个凭据文件,其中包括访问共享数据的承载令牌。使用令牌管理功能,现在metastore管理员可以在接收方承载令牌上设置过期日期,并在令牌暴露的任何安全风险下旋转令牌。

要了解BOB低频彩更多关于Delta在Databricks上的共享,请访问Delta共享文档[AWS而且Azure]。

数据访问集中审计

Unity Catalog还通过捕获针对数据执行的操作的审计日志来提供集中的细粒度审计。这提供了有关访问给定数据集的人员的细粒度详细信息,并帮助您满足合规性和业务需求。

接下来会发生什么

这只是一个开始,随着我们努力实现湖屋统一治理的愿景,将很快推出一系列令人兴奋的新功能。下面你可以找到我们下一步工作的快速总结:

端到端数据沿袭
Unity Catalog将自动捕获运行时数据沿袭,精确到列和行级别,为数据团队提供一个端到端的视图,了解数据如何在湖屋中流动,以满足数据遵从性需求,并快速分析数据更改的影响。

端到端数据沿袭

与企业数据目录和治理解决方案的更深入集成
我们正在与我们的数据目录和治理合作伙伴合作,使我们的客户能够将Unity catalog与他们现有的目录bob体育外网下载和治理解决方案结合使用。

数据发现和搜索
通过内置的数据搜索和发现,数据团队可以快速搜索和引用相关数据集,提高工作效率,加快洞察时间。

机器学习模型/仪表板的治理和共享
我们还将治理扩展到其他数据资产,如机器学习模型、仪表板,为数据团队提供管理、治理和共享不同数据资产类型的单一窗格。

使用基于属性的访问控制(ABACs)的细粒度治理
我们还添加了强大的标记功能,允许您根据用户和数据属性同时控制对多个数据项的访问,进一步简化了大规模的治理。例如,您将能够将多个列标记为PII,并在单个规则中管理对标记为PII的所有列的访问。

谷歌云平台上的Unity Catalog (GCP)bob体育客户端下载
Unity Catalog对GCP的支持也即将到来。

在AWS和Azure上开始使用Unity目录

访问Unity Catalog文档[AWSAzure]以了解更BOB低频彩多。

免费试用Databricks

相关的帖子

看到所有产品的帖子