宣布三角洲湖3.0新通用格式和液体聚类
我们兴奋地宣布三角洲湖3.0的下一个主要版本Linux基金会bob下载地址三角洲湖项目,可以在预览现在。我们表示衷心的感谢三角洲湖社区为他们宝贵的贡献。三角洲湖3.0引入了强大的功能如下:
- 三角洲通用格式(统一)三角洲中可读的格式所需的应用程序,提高兼容性和扩大生态系统。三角洲将自动生成元数据需要Apache冰山或Apache Hudi,因此用户不需要选择还是手动格式之间的转换。制服,δ是通用格式,跨越了不同的生态系统。
- 三角洲的内核简化了构建三角洲连接器通过提供简单,狭窄的编程api隐藏所有复杂的细节δ协议规范。
- 液体聚类(很快)简化得到最好的查询性能的集群随着数据的增长。
在这个博客中,我们将深入的细节三角洲湖3.0功能,通过客户的视角解决的挑战。
挑战# 1:我喜欢一个数据lakehouse但存储格式我应该选择哪一个?
公司感兴趣的结合自己的数据仓库和数据lakehouse湖泊变成一个开放的数据。此举避免了数据锁定到专有格式,并使用正确的工具,它使合适的工作对一个副本的数据。然而,他们挣扎的决定是否在一个开放lakehouse格式标准化,使用哪一个。他们可能有一些现有的数据仓库和数据湖泊被不同的团队,每个都有自己的首选数据连接器。客户担心,选择一个单一的存储格式会导致自己的锁定形式,通过单向门,他们担心。迁移是昂贵和困难,所以他们想要预先做正确的决定,只需要做一次。他们最终想要的最佳性能以最便宜的价格他们所有的数据负载包括ETL、BI,人工智能,灵活地使用这些数据。
解决方案:统一的自动和即时翻译δ冰山和Hudi湖。
三角洲通用格式(制服)自动统一表格格式,没有创建额外的副本数据或更多的数据仓库。团队使用查询引擎设计与冰山或Hudi数据能够无缝地读三角洲表,无需复制数据或将其转换。客户不需要选择一个格式,因为表由三角洲将被冰山和Hudi读者普遍访问。
统一利用所有三个开放lakehouse格式是薄层之上的元数据拼花数据文件。写道,制服将逐步为Hudi生成这一层的元数据规范,冰山和δ。
在基准测试中,我们已经看到,统一介绍性能和资源开销可以忽略不计。UniForm-enabled表上我们也看到提高读取性能相对于本地冰山表,由于三角洲的改进的z值等数据布局功能。
与制服,客户可以选择δ满怀信心,知道通过选择三角洲,他们会从任何工具,支持lakehouse格式广泛支持。
“协作和创新金融服务行业都是由开源社区和项目推动的传说一样,高盛的开源数据平台,我们保持与非诺合作,”首席数据官和尼曼拉斐尔说高盛(Goldman Sachs)数据工bob下载地址程的负责人。bob体育客户端下载bob体育外网下载“我们一直相信开源技术的未来的重要性,是高兴看到砖继续投资于三角洲湖。bob下载地址组织不应该限制他们的选择的一个开放的表格格式和通用格式支持在三角洲湖将继续推动整个社区。”
挑战# 2:找出正确的分区键为获得最佳性能是一个金发女孩的问题
在构建数据lakehouse,很难想出一个放之四海而皆准的分区策略,不仅符合当前数据查询模式,也适应新的工作负载。由于固定数据布局,选择正确的划分策略意味着团队必须将前期仔细的思考和计划,划分策略。尽管尽了最大努力,随着时间的推移,查询模式变化,初始划分策略变得低效和昂贵的。演化特性,比如分区有些有用的在Hive-style分区表所有者更灵活,但需要不断监控表和分区列“进化”。所有这些步骤添加工程工作,不容易做一个巨大的用户群体,只是想从他们的数据获得的见解。尽管尽了最大努力,跨分区的分布数据随着时间的推移会变得不平衡直接影响读/写性能。
解决方案:液体的灵活的数据布局技术可以self-tune现在适合你的数据,因为它生长。
液体聚类是一个智能的数据管理技术,三角洲表。它是灵活和自动调整基于聚类的数据布局的钥匙。液体聚类动态集群数据基于数据模式,这有助于避免可能发生的,或under-partitioning问题蜂巢分区。
- 液体很简单:你在列液体聚簇键集最常被查询——不再担心等传统因素列基数,分区排序,或创建人工作为完美的分区键列。
- 液体是有效的:它逐步集群新数据,所以你不需要提高性能和降低成本之间的权衡/写放大。
- 液体是灵活:可以迅速改变哪些列集群由液体没有重写现有数据。
测试液体的性能,我们做了一个基准的一个典型的1 TB的数据仓库的工作量。液体聚类了集群快2.5倍相对于z值。在同一试验中,传统Hive-style分区是慢一个数量级由于所需的昂贵的洗牌写出许多分区。液体也逐步集群新数据摄取,铺平了道路一直快速的读取性能。
挑战# 3:决定优先考虑哪种连接器是集成商的棘手。
连接器为三角洲生态系统是巨大的,而且在不断发展壮大,以满足快速应用的格式。作为开源引擎集成商和开发人员构建连接器存储格式,他们决定哪些格式先优先考虑。bob下载地址他们必须平衡维护时间和成本和工程资源,因为每一个新协议规范需要新的代码。
解决方案:内核结合连接器的生态系统。
三角洲的内核是一个新计划,将提供简化、狭窄和稳定的编程api隐藏所有复杂的δ协议细节。与内核,三角洲连接器开发人员可以访问所有新特性通过更新内核版本本身不是一行代码。对于终端用户来说,这意味着更快的访问到最新的三角洲整个生态系统创新。
一起制服,内核进一步结合连接器的生态系统,因为三角洲会写出冰山和Hudi自动的元数据。集成商为引擎,这意味着当您构建一次三角洲,构建适合每个人。
的预览今天三角洲湖3.0候选版本是可用的。砖的顾客还可以预览这些特性在三角洲湖DBR版本13.2或下一个预览通道DBSQL快到了。
有兴趣参与开源三角洲湖社区?bob下载地址
访问三角洲湖了解更BOB低频彩多;你可以参加这个三角洲湖社区通过松弛和谷歌集团。导致该项目如果你感兴趣,看到开放的问题的列表在这里。
大感谢以下贡献者社区提供这个版本:
阿拉巴马州的阿希尔族人Reddy Luszczak,亚历克斯,艾伦·里斯Allison波蒂斯所写,安东尼修改,巴特Samwel鄱阳湖杰瑞•彭CabbageCollector,卡门Kwan Christos Stavrakakis,丹尼李,德斯蒙德昌,埃里克·Ogren Felipe Pessoto弗雷德·刘Gerhard Brueckl,弗雷德里克•克劳斯Gopi Krishna Madabhushi Grzegorz Kołakowski, Herivelton Andreassa,杰基,Jiaheng Tang Johan Lasperas, Junyong Lee K.I.(丹尼斯)荣格,金张Ting, Krzysztof Chmielewski, Lars Kroll,林妈妈,卢卡Menichetti,卢卡斯Rupprecht,明戴,Mohamed Zait Ole水闸,奥利维尔·Nouguier巴勃罗·弗洛雷斯,稻田,帕特里克·Pichler PawełKubit, Prakhar Jain,瑞安·约翰逊,萨比尔Akhadov,萨提亚Valluri,斯科特•Sandre Shixiong竺Siying咚,儿子,如来佛Das,特里金,汤姆·范Bussel Venki Korukanti, Wenchen粉丝,Yann拜伦,耀华赵,散热,媒体Wang Yuya Ebihara, aokolnychyi, gurunath,国家主席胡锦涛沈,maryannxue, noelo, panbingkun, windpiger wwang-talend