bob体育客户端下载平台的博客

介绍Delta共享:用于安全数据共享的开放协议

分享这篇文章

更新:三角洲分享现在在AWS和Azure上普遍可用。

数据共享在现代经济中变得至关重要,因为企业希望与客户、供应商和合作伙伴安全地交换数据。bob体育外网下载例如,零售商可能希望向其供应商实时发布销售数据,或者供应商可能希望共享实时库存。但到目前为止,数据共享受到严重限制,因为共享解决方案与单一供应商捆绑在一起。这给数据提供者和消费者带来了摩擦,他们自然运行不同的平台。bob体育客户端下载

今天,我们推出了一个新的开源项目,简化了跨组织共享:bob下载地址三角洲分享,一个开放大型数据集安全实时交换协议,实现安全数据共享在产品第一次。我们正在与世界顶级软件和数据提供商的合作伙伴开发Delta Sharinbob体育外网下载g。

要了解为什么今天的数据共享解决方案会产生摩擦,请考虑一个零售商,该零售商希望与其中一个供应商的分析师共享数据。如今,零售商可以使用提供数据共享的多个云数据仓库之一,但随后分析师将需要与他们的IT、安全和采购团队合作,在他们的公司部署相同的仓库产品,这个过程可能需要几个月的时间。此外,一旦部署了仓库,分析师要做的第一件事就是将数据从仓库导出到他们最喜欢的数据科学工具中,比如pandas或Tableau。

有了Delta Sharing,数据用户就可以直接通过pandas、Tableau或其他几十个实现开放协议的系统连接到共享数据,而无需首先部署特定的平台。bob体育客户端下载这将访问时间从几个月缩短到几分钟,并大大减少了希望接触尽可能多用户的数据提供商的工作。

我们在Delta Sharing上与一个充满活力的生态系统合作伙伴合作,包括领先的云bob体育外网下载计算、BI和数据供应商的产品团队:

Delta共享生态系统- Apache Spark、Pandas、Presto、Trino、Rust、Hive、Tableau、Power BI、Qlik、Looker、Databricks、Microsoft Azure、谷歌BigQuery、Starburst、Dremio、AtScale、Immuta、Privacera、Alation、Collibra、Nasdaq、S&P、ICE、NYSE、AWS、FactSet、Precisely、Atlassian、Foursquare、Sequence Bio

在这篇文章中,我们将解释Delta Sharing是如何工作的,以及为什么我们对数据共享的开放方法如此兴奋。

共享目标

Delta Sharing的设计使提供者和使用者都能轻松地将其现有数据和工作流使用。我们在设计时考虑了四个目标:

  • 直接共享实时数据,无需复制:我们希望能够方便地实时共享现有数据。如今,大部分企业数据都存储在云数据湖和湖屋系统中。Delta Sharing在这些基础上工作;特别是,它允许您安全地共享Delta Lake或Apache Parquet格式的任何现有数据集。
  • 支持广泛的客户:收件人应该能够直接使用他们选择的工具中的数据,而无需安装新的平台。bob体育客户端下载Delta共享协议被设计为易于工具直接支持。它基于Parquet,大多数工具已经支持它,因此为它实现连接器很容易。
  • 强大的安全性、审计和治理:该协议旨在帮助您满足隐私和合规性要求。Delta Sharing允许您从单个执行点授予、跟踪和审计对共享数据的访问。
  • 大规模数据集:数据共享越来越需要支持tb级的数据集,例如细粒度的工业或金融数据,这对传统解决方案来说是一个挑战。Delta Sharing利用云存储系统的成本和弹性,经济可靠地共享海量数据集。

Delta共享如何工作?

Delta Sharing是一个简单的REST协议,可以安全地共享对部分云数据集的访问。它利用现代云存储系统,如S3、ADLS或GCS,可靠地传输大型数据集。涉及到两方:数据提供者和接收者。

作为数据提供者,Delta Sharing允许您共享存储在云数据湖中的现有表或其部分(例如,分区的特定表版本)三角洲湖格式。Delta Lake表本质上是Parquet文件的集合,很容易包装如有需要,可将现有的拼花桌放入三角洲湖。数据提供者决定要共享哪些数据,并在其前面运行一个共享服务器,该服务器实现Delta共享协议并管理接收方的访问。我们已经开源bob下载地址了参考共享服务器;我们在Databricks上提供托管,就像我们想象的其他供应商一样。

作为数据接收方,您所需要的只是支持该协议的众多Delta Sharing客户端之一。我们已经为pandas、Apabob下载地址che Spark、Rust和Python发布了开源连接器,并且我们正在与合作伙伴一起开发更多的连接器。bob体育外网下载

Delta Sharing是一个简单的REST协议,可以安全地共享对部分云数据集的访问。它利用现代云存储系统,如S3、ADLS或GCS,可靠地传输大型数据集。

实际的交易所经过精心设计,通过利用云存储系统和Delta Lake的功能来提高效率。的协议工作内容如下:

  1. 接收方的客户端向共享服务器进行身份验证(通过承载令牌或其他方法),并请求查询特定的表。客户端还可以在数据上提供过滤器(例如“country=US”),作为只读取数据子集的提示。
  2. 服务器验证是否允许客户端访问数据,记录请求,然后确定发回哪些数据。这将是S3或其他云存储系统中实际组成表的数据对象的子集。
  3. 为了传输数据,服务器生成短时间的预签名url,允许客户端直接从云提供商读取这些Parquet文件,这样传输就可以以大带宽并行进行,而不需要通过共享服务器。这个强大的特性在所有主要的云计算中都可用,这使得共享非常大的数据集变得快速、廉价和可靠。

设计的好处

Delta Sharing设计为提供者和使用者提供了许多好处:

  • 数据提供者可以很容易地共享整个表,或者只是表的一个版本或分区,因为客户端只能访问其中对象的特定子集。
  • 方法可以可靠地实时更新数据ACID事务在三角洲湖上,收件人总是能看到一致的景色。
  • 数据接收者不需要与提供商在同一个平台上,甚至根本不需要在云中——共享可以跨云,甚至从云中到bob体育客户端下载内部部署用户。
  • 如果客户已经理解了Parquet,那么实现Delta共享协议就非常容易。我们大多数使用开源引擎和BI工具的原型实现只花了1-2周的时间来构建。bob下载地址
  • 使用底层云系统传输快速、廉价、可靠且可并行。

开放的生态系统

如前所述,我们对建立一个开放的数据共享方法感到兴奋。像纳斯达克这样的数据提供商一致告诉我们,向不同的消费者提供数据太难了,因为他们都使用不同的分析工具。

“我们支持Delta Sharing及其开放协议的愿景,该协议将简化跨组织的安全数据共享和协作。Delta Sharing将增强我们与合作伙伴的合作方式,降低运营成本,并使更多用户能够访问全面的纳斯达bob体育外网下载克数据套件,以发现见解并制定金融策略,”纳斯达克另类数据主管Bill Dague表示。

有了Delta Sharing,许多流行的系统将能够直接连接到共享数据,这样任何用户都可以使用它,从而减少所有参与者的摩擦。我们正在与数十个合作伙伴共同制定Delta Sharing标bob体育外网下载准,我们邀请您参与进来。
许多公司对今天的发布会表示支持:

BI工具:Qlik, Power BI, Looker
分析:AtScaleDremio的亮光,微软Azure,谷歌BigQuery
治理:CollibraImmutaAlation,Privacera
数据提供商:FactSet纳斯达克精确的Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

数据库上的Delta共享

Databricks的客户将在我们的平台上获得Delta Sharing的本地集成统一目录,为在组织内部和跨组织共享数据提供了简化的体验。管理员将能够使用新的CREATE SHARE SQL语法或REST api管理共享,并集中审计所有访问。接收者将能够使用来自任何平台的数据。bob体育客户端下载报名加入我们的等待列表,以获得预览访问和更新。

路线图

Delta Sharing的第一个版本只是一个开始。随着项目的发展,我们计划将其扩展到共享其他对象,如流、SQL视图或机器学习模型等任意文件。我们相信数据共享的未来是开放的,我们很高兴能将这种方法引入其他共享工作流程。

从Delta Sharing开始

要尝试开源的Deltabob下载地址 Sharing发行版,请遵循delta.io /共享.或者,如果您是Databricks的客户,报名有关我们服务的最新资料。我们非常期待听到您的反馈!

免费试用Databricks

相关的帖子

看到所有公告的帖子