编排砖工作负载在AWS管理工作流为Apache气流
2022年1月27日 在bob体育外网下载
在这个博客中,我们探索如何利用砖的强大工作API与亚马逊Apache气流(MWAA)和集成管理与监测监控有向无环图(DAG) Databricks-based任务。此外,我们将展示如何创建警报基于DAG性能指标。
在我们进入入门的指导,让我们快速了解砖工作编制和亚马逊成功的气流(MWAA) ?
砖编排和警报
工作编排砖是一个完全集成的功能。客户可以使用API的工作或UI创建和管理工作和功能,如电子邮件警报监测。与这个强大的由API驱动方法,砖的工作可以安排任何一个API(例如,把数据从一个CRM)。砖编排可以支持工作与单个或多个任务的选择以及新添加的工作三角洲生活表。
亚马逊成功的气流
亚马逊管理工作流为Apache气流(MWAA)是一个为Apache气流编排管理服务。MWAA管理开源Apache气流平台客户代表与安全、可用性和可伸缩性的AWS。bob体育客户端下载MWAA给客户额外的好处与AWS服务轻松集成,通过预先存在的各种各样的第三方服务插件,允许客户创建复杂的数据处理管道。
高层架构图
我们将创建一个简单的DAG启动一个砖集群并执行一个笔记本。MWAA监控执行。注意:我们有一个简单的工作定义,但MWAA可以编排各种复杂的工作负载。
设置环境
博客假设您可以访问数据砖工作区。注册一个免费的在这里,配置一个砖集群。此外,创建一个API牌MWAA用于配置连接。
创建一个遵循这些MWAA环境指令。
如何创建一个砖连接
第一步是配置在MWAA砖连接。
例子DAG
下上传DAG到S3 bucket文件夹指定在创建MWAA环境。你DAG会自动出现在MWAA UI。
气流DAG的下面是一个例子,这创造了新的砖工作的集群配置,砖笔记本的任务,并提交砖的笔记本为执行任务。
从气流进口DAG从airflow.providers.databricks.operators.databricks进口DatabricksSubmitRunOperator, DatabricksRunNowOperator从datetime进口datetime, timedelta#为提交运行操作符定义参数new_cluster = {“spark_version”:“7.3.x-scala2.12”,“num_workers”:2,“node_type_id”:“i3.xlarge”,“aws_attributes”:{“instance_profile_arn”:“攻击:aws:我::XXXXXXX: instance-profile / databricks-data-role”}}
notebook_task = {“notebook_path”:' /用户/(电子邮件保护)/测试”,}#定义参数运行现在运营商notebook_params = {“变量”:5}
default_args = {“主人”:“气流”,“depends_on_past”:假,“email_on_failure”:假,“email_on_retry”:假,“重试”:1,“retry_delay”:timedelta(分钟=2)}与DAG (“databricks_dag”,start_date = datetime (2021年,1,1),schedule_interval =“@daily”,酱=假,default_args = default_args)作为dag:
opr_submit_run = DatabricksSubmitRunOperator (task_id =“submit_run”,databricks_conn_id =“databricks_default”,new_cluster = new_cluster,notebook_task = notebook_task)opr_submit_run
从GitHub获取文件的最新版本链接。
触发MWAA DAG。
一旦触发你可以看到工作集群在砖集群UI页面。
故障排除
亚马逊MWAA使用亚马逊CloudWatch气流日志。这些都是有用的故障排除DAG失败。
监测指标和警报
接下来,我们创建一个指标来监测DAG的成功完成。亚马逊MWAA支持许多指标。
我们使用TaskInstanceFailures创建警报。
对于阈值我们选择零(即。,we want to be notified when there are any failures over a period of one hour).
最后,我们选择一个电子邮件通知。
这里有一个例子在DAG失败时生成的监测电子邮件通知。
你收到这封邮件,因为亚马逊监测报警“DatabricksDAGFailure”在美国东弗吉尼亚(n)地区已进入报警状态,因为“阈值了
结论
在这个博客中,我们展示了如何创建一个气流DAG创建,配置,并提交一个新的砖工作的集群,砖笔记本的任务,在砖和笔记本的任务执行。我们利用MWAA的开箱即用的集成监测监控我们的示例工作流和有故障时接收通知。
接下来是什么
- 开始你的砖在AWS 14天的免费试用
- 试着亚马逊Apache气流工作流管理(MWAA)