砖工作流程是什么?
砖工作流协调数据处理、机器学习和分析管道在砖Lakehouse平台。bob体育客户端下载工作流已经完全与砖编排管理服务综合平台,包括砖工作运行非交互式的代码在你的砖工作区和δ生活表构建可靠的和可维护的ETL管道。bob体育客户端下载下图展示了一个由砖策划工作的工作流程:
运行一个三角洲生活表管道吸入从云存储原始点击流数据,清理和准备数据,sessionizes数据,和坚持最终sessionized数据设置为三角洲湖。
运行一个三角洲生活表管道吸入订单数据云存储,清理和转换数据进行处理,最终的数据集保存到三角洲湖。
加入的顺序和sessionized点击流数据来创建一个新的数据集进行分析。
从准备的数据提取功能。
并行执行任务的坚持和训练机器学习模型的特性。
砖的工作是什么?
请注意
CLI功能不可用这个版本砖在谷歌的云上。
砖的工作是数据处理和分析应用程序运行在一个砖工作区。你的工作可以由一个任务或一个大的多任务工作流与复杂的依赖关系。砖管理任务的编排、集群管理、监视和错误报告所有的工作。你可以立即运行工作,定期通过一个易于使用的调度系统,或不断确保工作总是运行的实例。您还可以交互式地在运行工作笔记本用户界面。
您可以创建和运行工作使用的工作界面,砖CLI或通过调用API的工作。你可以修复和重新运行失败或取消工作使用UI或API。您可以监视工作运行结果使用UI, CLI API和通知(例如,电子邮件、webhook目的地,或松弛的通知)。
学习使用砖CLI,明白了乔布斯CLI。使用API的工作了解,明白了乔布斯API 2.1。
以下部分覆盖砖工作的重要特性。
重要的
你只能创造就业数据科学与工程工作区或一个机器学习的工作区。
1000个并发任务工作空间是有限的。一个
429年太许多请求
当你返回请求的响应不能立即开始运行。就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。
实现数据处理和分析工作任务
你实现数据处理和分析工作流使用任务。工作是由一个或多个任务。笔记本运行,您可以创建工作任务的坛子,三角洲生活表管道,或Python, Scala,火花提交和Java应用程序。你的工作任务也可以安排砖SQL查询,警报和仪表板创建分析和可视化,或者你可以使用印度生物技术部任务运行印度生物技术部转换您的工作流。也支持遗留火花提交应用程序。
你控制任务的执行顺序通过指定的任务之间的依赖关系。您可以配置任务顺序或并行运行。
监测工作进展与通知
你可以接收通知当工作或任务开始,完成或失败。你可以发送通知目的地的一个或多个电子邮件地址或系统(例如,webhook目的地或松弛)。看到添加电子邮件和系统工作的通知事件。
你的工作与砖计算资源的运行
砖集群和SQL的仓库为您的工作提供的计算资源。您可以运行你的工作工作集群,一个通用的集群,或SQL仓库:
集群是一个专用的集群工作为你的工作或个人的工作任务。你的工作可以使用集群共享的所有任务或工作时,您可以为单个任务配置集群创建或编辑一个任务。一个集群时创建的工作或工作任务的工作或任务结束的时候开始和终止。
一个通用集群是一个共享的集群,手动启动和终止,可以由多个用户共享和工作。
为了优化资源使用,砖建议使用集群工作为你的工作。减少等待时间集群启动,考虑使用一个通用的集群。看到使用砖计算你们的工作。
你使用一个SQL仓库与印度生物技术部运行印度生物技术部转换任务。
δ生活是什么表?
δ住表是一个框架,简化了ETL和流媒体数据处理。三角洲生活表为有效的摄入数据提供了内置的支持自动加载程序、SQL和Python接口,支持声明性的实现数据转换,并支持将数据写入三角洲湖。你定义转换执行数据,和δ生活表管理任务编排,集群管理、监控、数据质量和错误处理。
首先,明白了δ生活是什么表?。
砖工作和三角洲的生活表
砖工作和三角洲的生活表提供一个全面的框架构建和部署的端到端数据处理和分析工作流。
使用达美住所有摄入和转换的数据表。使用砖工作安排的工作负载组成的单个任务或多个Lakehouse平台数据处理和分析任务,包括三角洲生活表摄入和转换。bob体育客户端下载
作为一个工作流编排系统,砖工作也支持:
在触发的基础上运行作业,例如,安排运行工作流。
通过SQL查询数据分析,机器学习和数据分析与笔记本,脚本,或外部库,等等。
运行工作由单一的任务,例如,运行一个Apache火花工作打包在一个JAR。
工作流编排与Apache气流
尽管砖建议使用砖工作编排数据工作流,您还可以使用Apache气流管理和安排数据工作流。随着气流,你在Python文件中定义您的工作流,气流管理调度和运行工作流。看到编排与Apache气流砖工作。