现在普遍可用:使用作业编排简化数据和机器学习管道
2021年11月1日 在bob体育客户端下载平台的博客
我们很高兴地宣布乔布斯的全面发布编制这个新功能可以让Databricks的客户轻松构建由多个相互依赖的任务组成的数据和机器学习管道。
如今,数据管道经常被定义为一系列相互依赖的任务,以简化它们的复杂性。但是,他们仍然需要数据团队和专门的工具来开发、管理、监控和可靠地运行这些管道。这些工具通常与实际数据或机器学习任务分开。缺乏集成会导致整个企业的工作分散,用户不得不频繁地切换上下文。
随着今天的发布,编排管道变得更加容易。编排多步作业使得使用由笔记本、Python脚本和jar组成的相互依赖的模块化任务来定义数据和ML管道变得简单。数据工程师可以轻松地创建和管理转换和优化数据的多步骤管道,并训练机器学习算法,所有这些都在Databricks熟悉的工作空间内,为团队节省了大量的时间和精力。
在上面的例子中,由多个任务组成的Job使用两个任务来摄取数据:Clicks_Ingest和Orders_Ingest。然后,这些输入的数据被聚合在一起,并在“匹配”任务中过滤,从中生成新的机器学习特征(Build_Features),持久化(Persist_Features),并用于训练新模型(train)。
我们非常感谢数百名客户在乔布斯成功完成多项任务的公开预览期间提供的反馈。基于他们的输入,我们增加了进一步的改进:精简的调试工作流,随时提供作业概述的信息面板,以及新版的Jobs API (AWS|Azure|GCP),并支持新的编排功能。
“乔布斯的编曲很棒,比编曲笔记本好多了。现在我们的每个工作都有多个任务,而且执行起来比我想象的要容易。如果没有Databricks,我无法想象实现这样的数据管道。”- Omar Doma, BatchService的数据工程经理
现在就开始使用新的Jobs编排,为您的工作空间启用它(AWS|Azure|GCP).否则,自动启用将在接下来的几个月发生。
在接下来的几个月里,我们将能够在一个作业中的多个任务中重用同一个集群,并在不需要完全重新运行的情况下修复失败的作业运行。我们还期待推出一些功能,使其能够与您现有的编排工具集成