宣布可用性的数据沿袭与统一目录
2022年6月8日 在bob体育客户端下载平台的博客
更新:数据沿袭现在一般都有在AWS和Azure上。
我们很高兴地宣布,数据沿袭统一目录lakehouse上所有数据和AI资产的统一治理解决方案现已预览。
本博客将讨论数据沿袭的重要性、一些常见的用例、我们对更好的数据透明度和数据理解的愿景,以及我们正在构建的一些数据溯源和治理特性。
什么是数据沿袭?为什么它很重要?
数据沿袭描述了数据从源到洞察的转换和细化。Lineage包括捕获与其生命周期中数据关联的所有相关元数据和事件,包括数据集的来源、用于创建该数据集的其他数据集、创建该数据集的人员和时间、执行了哪些转换、哪些其他数据集利用了该数据集以及许多其他事件和属性。通过数据沿袭解决方案,数据团队可以获得数据如何转换以及如何在数据资产中流动的端到端视图。
随着越来越多的组织接受数据驱动的文化,并建立流程和工具来实现数据和人工智能的民主化和规模化,数据谱系正在成为务实的数据管理和治理战略的重要支柱。
为了理解数据沿袭的重要性,我们在下面重点介绍了从客户那里听到的一些常见用例。
影响分析
数据在其生命周期中经历多次更新或修订,从风险管理的角度来看,理解任何数据更改对下游消费者的潜在影响变得非常重要。通过数据沿袭,数据团队可以看到所有受数据更改影响的下游消费者(应用程序、仪表板、机器学习模型或数据集等),了解影响的严重程度,并通知相关利益相关者。Lineage还帮助IT团队主动与适当的团队沟通数据迁移,确保业务连续性。
数据理解和透明度
组织要处理来自多个来源的大量数据,并且更好地理解围绕数据的上下文对于确保数据的可信度至关重要。数据沿袭是一个强大的工具,它使数据领导者能够在其组织中提高数据的透明度和理解。数据沿袭还使数据科学家、数据工程师和数据分析师等数据消费者在执行分析时能够感知上下文,从而获得更高质量的结果。最后,数据管理员可以查看哪些数据集不再被访问或已经过时,以退出不必要的数据,并确保最终业务用户的数据质量。
调试和诊断
你可以让所有的制衡都到位,但最终还是会有事情发生。数据沿袭可以帮助数据团队对数据管道、应用程序、仪表板、机器学习模型等中的任何错误执行根本原因分析,通过跟踪错误的根源。这大大减少了调试时间,节省了数天,或者在许多情况下,节省了数月的手工工作。
合规和审计准备
许多合规法规,如通用数据保护条例(GDPR)、加州消费者隐私法案(CCPA)、健康保险可携带性和责任法案(HIPPA)、巴塞尔银行监管委员会(BCBS) 239和萨班斯-奥克斯利法案(SOX),都要求组织对数据流有清晰的理解和可见性。因此,数据可追溯性成为数据架构满足法律法规的关键需求。数据沿袭帮助组织遵从并准备好审计,从而减轻了为审计报告目的手动创建数据流轨迹的操作开销。
毫不费力的透明度和数据沿袭的主动控制
的lakehouse提供实用的数据管理架构,通过在单一平台上统一数据仓库和人工智能用例,极大地简化了企业数据基础设施,并加速了创新。bob体育客户端下载我们相信,数据沿袭是提高数据透明度和数据理解的关键因素,它使数据、作业和消费者之间的关系浮出水面,并帮助组织转向积极的数据管理实践。例如:
- 作为仪表板的所有者,您是否希望在下次仪表板所依赖的表没有正确加载时收到通知?
- 作为开发模型的机器学习从业者,您是否希望得到模型中的关键特性很快将被弃用的警告?
- 作为治理管理员,您是否希望根据数据的来源自动控制对数据的访问?
所有这些功能都依赖于跨所有用例和角色的数据沿袭的自动收集——这就是为什么lakehouse和数据沿袭是一个强大的组合。
以下是我们在预览版中发布的一些功能:
表的数据沿袭
表列的数据沿袭
数据沿袭笔记本,工作流,仪表板
- 内置的安全:Unity Catalog中的谱系图是特权感知的,并与Unity Catalog共享相同的权限模型。如果用户没有访问表的权限,他们将无法探索与表关联的谱系,这为隐私考虑增加了额外的安全层。
- 通过REST API轻松导出:中可以可视化谱系数据浏览并通过REST API进行检索,以支持与我们的目录合作伙伴的集成。bob体育外网下载
开始与数据沿袭在统一目录
数据沿袭可与Databricks高级和企业级,无需额外费用。如果您已经是Databricks的客户,请遵循数据沿袭指南(AWS|Azure)开始。如果您不是Databricks的现有客户,请注册一个免费试用使用高级或企业工作区。