跳转到主要内容
bob体育客户端下载平台的博客

编排砖工作负载在AWS管理工作流为Apache气流

分享这篇文章

在这个博客中,我们探索如何利用砖的强大工作API与亚马逊Apache气流(MWAA)和集成管理与监测监控有向无环图(DAG) Databricks-based任务。此外,我们将展示如何创建警报基于DAG性能指标。

在我们进入入门的指导,让我们快速了解砖工作编制和亚马逊成功的气流(MWAA) ?

砖编排和警报

工作编排砖是一个完全集成的功能。客户可以使用API的工作或UI创建和管理工作和功能,如电子邮件警报监测。与这个强大的由API驱动方法,砖的工作可以安排任何一个API(例如,把数据从一个CRM)。砖编排可以支持工作与单个或多个任务的选择以及新添加的工作三角洲生活表

亚马逊成功的气流

亚马逊管理工作流为Apache气流(MWAA)是一个为Apache气流编排管理服务。MWAA管理开源Apache气流平台客户代表与安全、可用性和可伸缩性的AWS。bob体育客户端下载MWAA给客户额外的好处与AWS服务轻松集成,通过预先存在的各种各样的第三方服务插件,允许客户创建复杂的数据处理管道。

高层架构图

我们将创建一个简单的DAG启动一个砖集群并执行一个笔记本。MWAA监控执行。注意:我们有一个简单的工作定义,但MWAA可以编排各种复杂的工作负载。

高层架构图来创建一个简单的DAG,启动一个砖集群并执行一个笔记本。

设置环境

博客假设您可以访问数据砖工作区。注册一个免费的在这里,配置一个砖集群。此外,创建一个API牌MWAA用于配置连接。

砖为Apache用户可以创建一个Amazon管理工作流的气流(MWAA)直接从他们的仪表板。

创建一个遵循这些MWAA环境指令

如何创建一个砖连接

第一步是配置在MWAA砖连接。

在创建一个MWAA砖的第一步是建立连接MWAA和砖之间的工作区。

例子DAG

下上传DAG到S3 bucket文件夹指定在创建MWAA环境。你DAG会自动出现在MWAA UI。

气流DAG例子

气流DAG的下面是一个例子,这创造了新的砖工作的集群配置,砖笔记本的任务,并提交砖的笔记本为执行任务。

气流进口DAGairflow.providers.databricks.operators.databricks进口DatabricksSubmitRunOperator, DatabricksRunNowOperatordatetime进口datetime, timedelta#为提交运行操作符定义参数new_cluster = {“spark_version”:“7.3.x-scala2.12”,“num_workers”:2,“node_type_id”:“i3.xlarge”,“aws_attributes”:{“instance_profile_arn”:“攻击:aws:我::XXXXXXX: instance-profile / databricks-data-role”}}
              notebook_task = {“notebook_path”:' /用户/(电子邮件保护)/测试”,}#定义参数运行现在运营商notebook_params = {“变量”:5}
              default_args = {“主人”:“气流”,“depends_on_past”:,“email_on_failure”:,“email_on_retry”:,“重试”:1,“retry_delay”:timedelta(分钟=2)}DAG (“databricks_dag”,start_date = datetime (2021年,1,1),schedule_interval =“@daily”,酱=,default_args = default_args)作为dag:
              opr_submit_run = DatabricksSubmitRunOperator (task_id =“submit_run”,databricks_conn_id =“databricks_default”,new_cluster = new_cluster,notebook_task = notebook_task)opr_submit_run

从GitHub获取文件的最新版本链接

触发MWAA DAG。

引发的气流通过MWAA DAG UI。

一旦触发你可以看到工作集群在砖集群UI页面。

一旦触发一个气流DAG,各自工作集群砖集群的UI上显示的页面。

故障排除

亚马逊MWAA使用亚马逊CloudWatch气流日志。这些都是有用的故障排除DAG失败。

亚马逊MWAA使用亚马逊CloudWatch气流日志。

监测指标和警报

接下来,我们创建一个指标来监测DAG的成功完成。亚马逊MWAA支持许多指标

砖创建一个指标监控气流DAG的成功完成。

我们使用TaskInstanceFailures创建警报。

砖使用TaskInstanceFailures创建警报一旦气流DAG运行,例如,通知如果有任何故障被记录在一个特定的时间。

对于阈值我们选择零(即。,we want to be notified when there are any failures over a period of one hour).

最后,我们选择一个电子邮件通知。

砖的UI很容易配置通知行动,例如,电子邮件、气流DAG运行发现的问题。

这里有一个例子在DAG失败时生成的监测电子邮件通知。

你收到这封邮件,因为亚马逊监测报警“DatabricksDAGFailure”在美国东弗吉尼亚(n)地区已进入报警状态,因为“阈值了

监测预警DAG失败时生成的例子。

结论

在这个博客中,我们展示了如何创建一个气流DAG创建,配置,并提交一个新的砖工作的集群,砖笔记本的任务,在砖和笔记本的任务执行。我们利用MWAA的开箱即用的集成监测监控我们的示例工作流和有故障时接收通知。

接下来是什么

代码回购
MWAA-DATABRICKS DAG示例代码

免费试着砖

相关的帖子

看到所有bob体育外网下载 的帖子