实现更有效的公平与Lakehouse科学数据管理
2021年9月7日 在bob体育客户端下载平台的博客
数据权力的科学发现和创新。但数据只是一样好它的数据管理策略,确保数据质量的关键因素,可访问性和再现性的结果——所有的需求的可靠的科学证据。
大型数据集变得越来越重要和访问科学家跨学科,大数据的问题在过去的十年里,不守规矩的,野性,不受控制,unreproducible数据工作流——变得越来越有关科学组织。
这导致了行业专家开发的框架“数据管理和管理好,”最初在2016年的一篇文章中介绍自然,“有价值的数字资产的长期护理”的核心。这些原则,现在广为人知公平由四个主要原则:可寻性、可访问性、互操作性、和数字资产的重用。通过其框架,公平有助于解决这些问题通过强调machine-actionability和计算系统的能力,访问、互操作和重用数据没有或很少人工干预。
几乎每一个科学工作流——从执行详细的数据质量控制高级分析——依赖于新创统计方法来解决一个特定问题。因此任何数据架构设计来解决好数据治理也应该支持开发和应用先进的数据分析工具。这些特征本质上是有限的遗留两层数据架构和不支持现代数据和先进的分析用例。这就是lakehouse架构能帮上忙。
在过去的几年里,lakehouse范式,结合数据仓库和数据的好处湖泊到一个新的数据平台架构,各个行业变得越来越普遍。bob体育客户端下载作为企业级数据架构的下一代,lakehouse已被证明是一个通用的结构能够支持传统的用例分析和机器学习。这种多功能性是关键三角洲湖湖,一个开源数据管理层对你的数据,提供了仓储式一致性和事务性的规模、灵活性和节约成本的数据。
在这篇文章中,我们将仔细看看如何lakehouse之上的三角洲湖使公平数据系统架构在组织追求科学研究。
虽然他们的价值是明显的,这样的目标有给定数据团队适合多年。例如,数据湖;没有一个系统的一部分比数据更容易湖,但它带来了巨大的希望世界数据的组织,同时也创造了巨大的混乱。云,所有的好处,使得这一挑战更加困难:存储成本暴跌,但它便于随时随地的数据访问等于数据扩散。这种增长的压力,如公平通常剩余崇高的管理原则。
不可避免的是,一个不受控制的缺点云后他们的头——成本发生了爆炸,利用率下降和风险变得站不住脚由于缺乏治理。这个戒指特别是在科学的世界中,不确定性和变化出现在每一个细胞,主题和审判。为什么引入更多未知的新数据平台,当笔记本电脑工作非常好吗?bob体育客户端下载在这种情况下,数据混乱的敌人是创新,和公平的目标是使一个组织一个可再生的过程。所以,真正的问题:“我怎么实施公平吗?”
幸运的是,最近的事态发展在云架构让这个问题比以往任何时候都更容易回答。具体地说,让我们看看lakehouse之上的三角洲湖地址的每一个公平的指导原则。
可寻性:用户如何在自动找到数据,可重复的方式吗?
数据的第一个障碍是“脱颖而出”的任何试验,管道或过程。它也是数据扩散的主要受害者之一。pb的数据跨几十个断开系统一知半解,甚至如何最精明的用户(更不用说可怜的灵魂缺少经验的公司的部落知识)可能导航数据景观呢?将不同的数据从多个系统到一个位置数据的核心原则湖。lakehouse扩大这个概念进一步通过构建公平之上的其他原则,但不变的核心思想:如果做得好,统一的数据在一个层使得其他体系结构决策变得更加容易。
公平的标准可寻性分为几个分项:
- F1(元):数据分配全球独特的和持久的标识符。
- F2:数据与丰富的元数据描述。
- F3:元数据清晰而明确地包括数据的标识符描述。
- F4(元):注册数据或索引搜索资源。
每一个点和一个Delta-based lakehouse。例如,三角洲湖、元数据包括标准的信息,比如模式,以及版本控制模式演化在时间和基于用户的血统。也从未有任何含糊不清的任意元数据描述的数据,由于数据和元数据是共存的,作为一个最佳实践,lakehouse包括一个中央,high-accessible metastore提供简单的功能。所有这些导致highly-findable lakehouse范式中的数据。
作为一个例子如何lakehouse使数据可寻性,考虑以下:
这里,我们从许多系统摄取,成像系统,on-prem和云数据仓库,电子健康记录(EHR)系统,等等。不管来源,它们存入“青铜”层内底层数据,然后自动美联储通过细化过程,可能包括de-identification,标准化和过滤。最后,数据存入一个“黄金”层,该页面只包含高质量的数据;用户(或自动提要)只需要在一个地方找到最新版本的可用数据。甚至数据科学或毫升流程可能需要少精数据可以利用银或铜层;这些过程知道数据所在,每一层都包含什么。我们会看到,这使得其他公平原则更容易实施和跟踪。
可访问性:用户如何访问数据一旦被发现?
根据公平原则,数据访问”可收回…使用一个标准化的通信协议”和“可即使是不再可用的数据湖”。传统上,这就是数据模型将开始分解;几乎可以确定的是,一个数据湖有任意数量的模式,文件数据的类型和格式和版本。虽然这使得“脱颖而出”的简单,这形成了一个可访问性的噩梦;更多,湖里有一天可以改变,移动或完全消失。这是数据的主要缺点之一湖,lakehouse开始有分歧的地方。
经过良好设计lakehouse需要一层促进底层数据之间的可访问性在湖和消费者;今天有几个工具,提供这样一个层,但是使用最广泛三角洲湖。三角洲带来大量的好处(ACID事务,统一批/流,云优化性能,等等),但是两个特别重要的相对公平。首先,由三角洲湖是一个开源格式Linux基金会,这意味着它是一个标准化的、非专有和固有的多重云协议。无论供应商(s),总是会写在三角洲公开的数据访问。第二,三角洲提供了事务日志,从数据本身是不同的;这个日志允许等操作版本控制再现性,这是必不可少的,也意味着即使数据本身被删除,元数据(在许多情况下,适当的版本,甚至数据)可以恢复。这是一种必不可少的可访问性公平的宗旨——如果无法保证稳定性随着时间的推移,数据可能不存在。
为例,说明三角洲湖支持可访问性,考虑以下场景,在该场景中,我们开始与患者信息表,添加一些新的数据,然后不小心让一些无意的变化。
因为δ持续我们的元数据和日志的变化,以前我们能够访问状态甚至数据意外——这适用于即使整个表中删除被删除!这是一个简单的例子,但应该给的味道lakehouse之上三角洲湖可以带来稳定和可访问性的数据。这是特别有价值的再现性是必不可少的任何组织。三角洲湖可以减轻负载数据团队同时允许科学家自由创新和探索。
最后,三角洲湖三角洲分享一个开放的协议,保证数据共享。这使它简单的科研人员分享研究数据直接与其他研究人员和组织,无论他们使用的计算平台,在一个易于管理和开放格式。bob体育客户端下载
互操作性:数据系统集成怎么样?
今天没有短缺的数据格式。一旦熟悉的CSV格式和Excel电子表格提供了我们所需要的所有功能,但是今天有成千上万的特定于域的医疗格式,从BAM和山姆HL7。当然,这是之前等非结构化数据DICOM图像、Apache拼花等大数据标准和真正的无限数量的特定于供应商的专用格式。把所有这一切放在一起在数据的湖,鸡尾酒,您已经创建了一个真正可怕的数据。一个有效的可互操作的系统,符合公平原则,必须在每一个机器可读的格式,这是美联储——一个壮举,充其量是困难的,在最坏的情况下,不可能的,当涉及到巨大的各种各样的HLS中使用的数据格式。
在lakehouse范式中,使用三角洲湖我们解决这个问题。我们第一次土地在其原始格式的数据,保持原样复制的历史和数据挖掘的目的;然后,我们将所有数据增量格式,这意味着下游系统只需要了解一个格式功能。
此外,lakehouse促进一个单一的、集中的元数据目录;这意味着无论在哪儿举行或原始和转换数据存储,如何有一个参考点来访问和使用它。此外,这意味着有一个单点控制敏感φ或与hipaa兼容的数据,提高数据流的治理和控制。
一个常见的问题是如何转换所有这些不同的格式;毕竟,尽管下游系统必须理解三角洲,的东西在上游lakehouse必须了解数据。在砖,我们与业内专家和合作伙伴合作,创建解决方案,处理一些最常见的格式。bob体育外网下载其中的几个例子在卫生保健和生命科学包括:
- 发光联合砖和Regeneron遗传中心之间的合作,使摄入和处理常见的基因组学格式可伸缩的和容易,,旨在使它容易整合基因组学工作流在更广泛的数据和人工生态系统。
- 闷烧是一个可伸缩、Spark-based框架摄入和HL7数据的处理;它提供了一个易于使用的接口,通常是一个困难的和可变的格式。它提供了本地读者和插件,以便使用HL7数据一样容易消耗一个CSV文件。
可重用性:数据如何在多个场景中重用?
可重用性是一个变化无常的话题;甚至公司已经建立在lakehouse架构容易错过这个支柱。这主要是因为可重用性不仅仅是一个技术问题,它的核心业务,并迫使我们问困难的问题。业务都是如此吗?有较强的跨部门协作和团队合作的文化吗?做研发的领导人知道数据被用于生产,反之亦然?强烈lakehouse不能回答这些问题或可能构成他们解决结构性问题,但它能提供一个坚实的基础。
大部分lakehouse派生的价值不是从摄取的能力,存储、版本或干净的数据——相反,它来自能力提供一个集中的平台,所有数据,不管用例,可以处理,访问和理解。bob体育客户端下载底层部分——数据湖,湖,δ引擎和目录,所有服务,使这些用例。没有强大的用例,没有数据平台,无论多么良好,会带来价值。bob体育客户端下载
我们不可能覆盖每一个数据的用例,但是希望这个博客给了简要概述的砖允许更有效的科学数据管理和社区标准。作为底漆lakehouse一些解决方案我们已经看到,这里有一些资源: