统一目录分布式数据治理和孤立的环境
有效数据治理是必不可少的任何组织,依靠数据,分析和人工智能的操作。在许多组织中,有越来越多的人意识到集中式数据治理的价值主张。然而,即使最好的意图,实现集中式控制很有挑战性,没有适当的组织过程和资源。首席数据官的角色(CDO)仍然出现在许多组织中,留下的问题谁来定义和执行跨组织的数据治理策略。
结果,负责定义和执行跨组织的数据治理策略通常是不集中,导致政策变化或跨业务线的管理机构,子单位,组织内的其他部门。为简单起见,我们可以称之为模式分布式控制,有一种普遍的协议区别这些理事单位,但不一定是中央数据治理功能。
在这个博客中,我们将探讨使用砖实现分布式治理模型统一目录,它提供了一个统一的数据管理解决方案,分析和lakehouse AI。
数据治理在砖的进化
统一目录,介绍之前的工作空间的概念是铁板一块,每个工作都有它自己的metastore,用户管理,表ACL存储。这导致固有数据和治理隔离界限工作区和重复的工作地址一致性。
处理这件事,一些客户采取运行管道或代码同步metastores和acl,而其他人建立自己的自我管理metastores使用整个工作区。然而,这些解决方案增加了更多的开销和维护成本迫使前期整个组织体系结构决策如何对数据进行分区,创建数据仓库。
数据治理和统一目录
为了克服这些限制,砖开发统一的目录,旨在使它容易实现数据治理而最大化协作和共享数据的能力。实现这一目标的第一步是实现一个共同的名称空间,允许访问任何数据在一个组织。
这种方法可能看起来像一个挑战前面提到的分布式控制模式,但统一目录提供了新的名称空间内隔离机制,组织传统上使用多个蜂巢metastores解决。这些隔离机制使组织独立运作极少或完全没有互动,也让他们达到隔离在其他情况下,如生产和开发环境。
在砖蜂巢Metastore与统一目录
蜂巢,metastore服务边界,也就是说有不同metastores意味着不同的底层蜂巢托管服务和基础数据库。统一目录是一个平台服务在砖Lakehobob体育客户端下载use平台,所以没有考虑服务边界。
统一目录提供了一个共同的名称空间,允许您管理和审计数据在一个地方。
使用蜂巢时,使用多个metastores很常见,每个都有自己的名称空间,实现开发和生产环境之间的隔离,或允许之间的分离数据的操作单元。
在统一目录,这些需求是通过动态隔离机制解决命名空间不妥协的数据共享和协作的能力,不需要硬单向前期体系结构决策。
在不同的团队一起工作和环境
当使用一个数据平台,通常会有强烈需要bob体育客户端下载隔离界限环境如dev /刺激和商业团体之间,团队,组织或操作的单位。
让我们首先定义隔离边界数据平台,如砖:bob体育客户端下载
- 用户只能访问数据基于同意访问规则
- 数据可以由指定的人或团队
- 数据应该分开存储
- 只能在指定的环境中访问数据
用户只能访问数据基于同意访问规则
组织通常有严格的要求在数据访问基于一些组织/监管要求是保持数据安全的基础。典型的例子包括员工薪资信息或信用卡付款信息。
对这类信息的访问通常是定期严格地控制和审计。统一目录提供了组织更细粒度的控制数据资产目录内满足这些行业标准。与控制,统一编目提供用户只能查看和查询数据他们有权查看和查询。
数据可以由指定的人或团队
统一目录使您能够选择集中式控制或分布式控制模型。
在集中式控制模型中,您的治理管理员metastore所有者,可以拥有任何对象并设置acl和政策。
在一个分布式治理模型,你会考虑一个目录或一组目录数据域。目录的所有者可以创建和自己的所有资产和管理域中治理。因此域名的所有者可以独立运作的其他股东在其他领域。
我们强烈建议设置一组的所有者或服务主体这两个选项如果管理是通过工具来完成的。
数据应该分开存储
默认情况下,当创建一个加州大学metastore,砖账户管理提供了一个云存储位置和凭证作为管理表的默认位置。
组织需要物理隔离的数据,由于监管原因,或例如在SDLC范围、业务单位之间,甚至为成本分配的目的,应该考虑管理数据源编目和模式层面的特性。
统一目录允许你选择默认的数据分开存储。默认情况下,所有数据存储在metastore。与管理功能支持的数据源目录和模式,你可以物理隔离数据存储和访问,帮助组织实现其治理和数据管理的要求。
在创建管理表,数据将被存储使用模式位置(如果存在)其次是目录的位置(如果存在),并将只使用metastore位置如果前两个位置没有设置。
访问数据只能在指定的环境中,基于这些数据的目的
通常,组织和合规要求维护需要保持一定的数据只能在特定的环境和他人。这可能是开发和生产的一个例子,或者HIPAA PII环境包含PII数据进行分析和有特殊的访问规则谁可以访问允许访问的数据和环境数据。有时需求指出,特定的数据集或域不能交叉或组合在一起。
在砖,我们考虑一个工作空间是一个环境。统一目录有一个功能,允许您绑定的工作区目录。这些environment-aware acl使您能够确保只有某些目录可用在一个工作区,无论用户的单个acl。这意味着metastore管理或目录的所有者可以定义的工作区目录可以访问的数据。这可以通过我们的UI控制或通过API /起程拓殖,便于集成。我们甚至最近发表一篇博客如何通过起程拓殖控制统一目录帮助满足您的特定的治理模型。
结论
与统一目录lakehouse架构的中心,您可以实现一个灵活的和可扩展的治理实现在不牺牲你的能力来有效地管理和共享数据。统一目录,你可以克服现有的蜂巢metastore的限制和约束,使您能够更容易地分离和协作数据根据您特定的业务需求。遵循统一目录指南(AWS,Azure)开始。下载这个免费电子书数据,分析和人工智能管理了解更BOB低频彩多关于最佳实践构建一个数据lakehouse有效的治理策略。