最佳实践的互操作性和易用性

本文介绍的最佳实践互操作性和可用性,组织架构原则在下面几节中列出。

1。定义标准的集成

使用外部集成的砖REST API

砖Lakehouse附带了一个全面的REST API,让您轻松管理平台编程的几乎所有方面。bob体育客户端下载REST API服务器运行在控制平面和提供了一个统一的端点管理砖平台。bob体育客户端下载这是首选方法集成数据砖,举个例子,为CI / CD或MLOps现有工具。shell-based集成的设备,砖CLI封装了许多REST api的一个命令行界面。

使用优化的连接器从lakehouse访问数据源

砖提供了多种方式来帮助你摄取数据到三角洲湖。因此,lakehouse提供优化的许多数据格式和云服务的连接器。看到与JDBC数据源连接什么砖?。他们中的许多人已经包含在砖运行时。这些连接器通常为特定的数据源建立和优化。

合作伙伴bob体育外网下载在合作伙伴连接使用

企业有不同的需求,没有一个工具可以满足他们所有人。合作伙伴联系使您能够很容易地探索和整合与我们的合作伙伴,涵盖所有方面的lakehouse:数据摄入,准备和转换,BIbob体育外网下载和可视化,机器学习,数据质量,等等。合作伙伴连接允许您创建试用账户选择砖技术合作伙伴和砖工作区连接到合作伙伴解决方案从砖UI。bob体育外网下载试着合作伙伴解决方案使用砖Lakehouse数据,然后采用最好的解决方案,满足您的业务需求。

使用达美住表和自动加载程序

三角洲生活表是一个框架为构建可靠、可维护、可测试的数据处理管道。你定义转换执行数据,和δ生活表管理任务编排,集群管理、监控、数据质量和错误处理。看到δ生活是什么表?

自动加载程序增量地和有效地流程到达云存储新的数据文件。它能可靠地从云存储读取数据文件。两个三角洲生活的一个重要方面表和自动加载器是他们声明性质:没有它们,必须构建复杂的管道,集成不同的云服务,如通知服务和排队服务——基于事件和可靠读取云文件允许结合批处理和流的可靠来源。

自动加载器和δ生活表减少系统依赖关系和复杂性和显著提高不同范式之间的互操作性与云存储和批处理和流。作为一个副作用,简单的管道增加平台的可用性。bob体育客户端下载

使用基础设施代码部署和维护

HashiCorp起程拓殖是一个流行的开源工具用于创建安全、可预测bob下载地址的跨多个云提供商的云基础设施。看到卓越运营>使用基础设施代码部署和维护

2。喜欢开放的接口和开放的数据格式

使用增量数据格式

三角洲湖框架有很多优势,从可靠性特性的高性能增强,也是一个完全开放的数据格式。看到的:

此外,三角洲湖有一个三角洲独立库,它打开了三角洲格式开发项目。这是一个单节点的Java库,可以读取和写入三角洲表。许多第三方工具和应用程序支持三角洲湖。具体地说,这个库提供了api与表元数据在事务日志,实现三角洲事务日志协议实现的事务保证三角洲格式。看到三角洲湖是什么?

使用增量与合作伙伴共享交换数据bob体育外网下载

三角洲分享是一个开放的协议由砖与其他组织进行安全数据共享无论他们所使用的计算平台。bob体育客户端下载砖的用户,称为“数据提供商”,可以使用三角洲与一个人或一组共享共享数据外组织,命名为“数据接收者”。数据接收者可以立即开始使用最新版本的共享数据。三角洲共享可用的数据统一目录metastore。

使用MLflow来管理机器学习工作流

MLflow是一个开源平bob下载地址台,毫升的bob体育客户端下载生命周期管理,包括实验,再现性,部署和中央注册中心模型。使用MLflow砖既提供的优势:你可以写毫升工作流使用开放和便携式工具和使用可靠的服务由砖(跟踪服务器模型注册表)。看到MLflow指南。它还增加了企业级,可伸缩模式服务,允许您主机MLflow模型作为REST端点。

3所示。降低贸易壁垒实现的用例

提供自助服务体验的平台bob体育客户端下载

砖Lakehouse平台的所有功能要求提供自助服务bob体育客户端下载体验。可能有一个强制性的审批步骤时,最佳实践是完全自动化的设置当业务单位请求访问lakehouse。自动供应他们的新环境,同步用户和使用SSO身份验证,提供通用数据访问控制和单独的对象存储自己的数据,等等。中央数据目录包含语义一致的和便利的数据集,这个快速、安全地提供新业务单位lakehouse能力和他们所需要的数据。

使用serverless服务的平台bob体育客户端下载

serverless计算在砖平台上,计算层运行在客户的砖帐户bob体育客户端下载。云管理员不再需要管理复杂的云环境,涉及调整配额,创建和维护网络资产,并加入计费来源。用户受益于接近零等待时间集群启动和改善并发查询。

提供预先定义的集群和SQL仓库为每个用例

如果使用serverless服务是不可能的,删除的负担定义集群(VM类型、节点大小和集群大小)从最终用户。这可以在以下方面:

  • 为用户提供立即共享集群环境。在这些集群,使用自动定量一个最小的节点,以避免高闲置成本。

  • 使用集群政策定义t-shirt-sized集群(S, M, L)项目作为一个标准化的工作环境。

4所示。确保数据一致性和可用性

提供可重用data-as-products业务可以信任

生产高品质data-as-product是任何数据平台的主要目的。bob体育客户端下载的想法是,数据工程团队应用产品想策划数据:数据资产是他们的产品,和数据科学家,毫升和BI工程师,或任何其他客户消费数据的业务团队。这些客户应该能够发现,地址,从这些data-as-products创造价值通过自助服务体验没有专门的数据团队的干预。

发布数据产品语义一致的整个企业

湖数据通常包含来自不同源的数据系统。这些系统(如有时名字相同的概念不同客户vs。账户由相同的标识符)或者是不同的概念。,可让业务用户方便地以一种有意义的方式将这些数据集,数据必须均匀所有来源的语义一致性。此外,对于一些有价值的数据分析、内部业务规则必须应用正确,如收入确认。确保所有用户都使用正确解读数据,数据集与这些规则必须提供和发布到统一目录。访问源数据必须限于团队理解正确的用法。

使用联合编目数据发现和血统的探索

在统一目录,管理员和数据管理员管理用户和他们的数据访问集中在所有工作区在一个砖帐户。不同工作空间的用户可以共享相同的数据,根据用户权限授予集中统一目录,联合数据访问是可能的。看到发现使用数据浏览和管理数据

从可用性的角度来看,统一编目提供以下两个功能:

  • 数据资源管理器的主UI统一目录功能。您可以使用数据浏览视图模式的细节,预览样本数据,见表详细信息和属性。管理员可以查看和更改用户,管理员和数据对象所有者可以授予和撤销权限。您还可以使用砖搜索,让用户找到数据资产(如表、列、视图、指示板模型,等等)容易和无缝。用户将显示结果相关的搜索请求,他们可以访问。看到捕获和视图数据沿袭统一目录

  • 数据沿袭在所有运行在集群砖或SQL查询仓库。血统是支持所有语言和捕获到列的水平。谱系数据包括笔记本、工作流和仪表板相关查询。血统可以以接近实时的可视化在数据浏览和检索数据砖REST API。

允许企业用户提供一个全面的视图的所有数据在所有数据平台,统一编目为集成提供了企业数据目录(有时称为“目录的目录”)。bob体育客户端下载