在Databricks上编排数据处理工作流
Databricks提供了一套全面的工具和集成来支持您的数据处理工作流程。
使用Databricks job进行数据处理或分析工作流程
可以使用Databricks作业在具有可伸缩资源的Databricks集群中运行数据处理或数据分析任务。您的工作可以由单个任务组成,也可以是具有复杂依赖关系的大型多任务工作流。Databricks管理所有作业的任务编排、集群管理、监控和错误报告。您可以通过易于使用的调度系统立即或定期运行作业。您可以使用笔记本、jar、Delta Live Tables管道或Python、Scala、Spark提交和Java应用程序来实现作业任务。
您可以通过jobs UI、jobs API或Databricks CLI创建作业。Jobs UI允许您监视、测试正在运行和已完成的作业并排除故障。
开始:
创建第一个Databricks作业工作流快速入门.
了解如何使用Databricks作业创建、查看和运行工作流用户界面.
了解如何在Databricks作业中的任务之间通信信息任务值.
了解job API更新支持使用Databricks作业创建和管理工作流。
学习如何使用印度生物技术部的转换在工作流中。
学习如何使用Apache气流管理和调度Databricks作业。
学习如何使用数据库SQL任务在工作流中。
学习如何使用Python的轮子在工作流任务中。
学习如何使用Java或Scala jar在工作流任务中。
学习如何排除故障并修复失败就业机会。
使用Delta Live Tables转换数据
Delta Live Tables是一个用于构建可靠、可维护和可测试的数据处理管道的框架。您可以定义要对数据执行的转换,Delta Live Tables管理任务编排、集群管理、监控、数据质量和错误处理。您可以使用Delta Live Tables管道构建整个数据处理工作流,也可以将管道集成到Databricks作业工作流中,以编排复杂的数据处理工作流。
要开始,请参阅Delta Live Tables简介.