开始
加载和管理数据
处理数据
政府
引用和资源
2023年8月1日更新
给我们反馈
学习如何使用生产就绪的砖来开发和部署的第一个工具提取、转换和加载(ETL)管道数据编配。
通过本文的结尾,您将感到舒适:
启动一个砖通用计算集群。
创建一个砖笔记本。
配置增量数据摄入与汽车装载机三角洲湖。
笔记本电池过程中,执行查询,并预览数据。
安排一个笔记本作为砖的工作。
本教程使用交互式笔记本完成常见的ETL任务在Python或Scala。
您还可以使用三角洲生活表建立ETL管道。砖创建三角洲生活表,以减少建筑的复杂性,部署和维护生产ETL管道。看到教程:声明一个数据管道使用SQL在三角洲住表。
您还可以使用砖起程拓殖的提供者本文创建的资源。看到创建集群、笔记本和就业起程拓殖。
你登录到砖工作区。
你有允许创建一个集群。
请注意
如果你没有集群控制特权,你仍然可以完成大部分的步骤只要你有以下访问一个集群。
如果你只有进入砖SQL的工作区,明白了设置您的工作区使用砖SQL。
做探索性数据分析和数据工程,创建一个集群来提供所需的计算资源执行命令。
点击计算在侧边栏。
在计算页面,点击创建集群。这将打开新的集群页面。
为集群指定一个唯一的名称,默认状态保留剩余的值,并单击创建集群。
更多地BOB低频彩了解砖集群,明白了集群。
开始编写和执行互动代码在砖上,创建一个笔记本。
点击新在侧边栏,然后单击笔记本。
在创建笔记本页面:
为你的笔记本指定一个唯一的名称。
确保设置为默认语言PythonorgydF4y2BaScala。
选择您在步骤1中创建的集群集群下拉。
点击创建。
一个笔记本打开顶部有一个空单元。
学习更BOB低频彩多的关于创建和管理笔记本,看到的管理笔记本。
砖推荐使用自动加载程序增量数据的摄入。自动加载程序自动检测和过程到达云对象存储新文件。
砖建议存储数据三角洲湖。三角洲湖是一个开源存储层提供lakbob下载地址ehouse ACID事务,使数据。三角洲湖是默认格式表中创建数据砖。
配置自动加载程序向三角洲湖摄取数据表,下面的代码复制并粘贴到你的笔记本的空单元:
#导入功能从pyspark.sql.functions进口上校,current_timestamp#定义变量中使用下面的代码file_path=“/ databricks-datasets / structured-streaming /事件”用户名=火花。sql(的“选择regexp_replace (current_user (), [^ a-zA-Z0-9)”,“_”)”)。第一个()(0]table_name=f”{用户名}_etl_quickstart”checkpoint_path=f“/ tmp /{用户名}/ _checkpoint / etl_quickstart”#从以前的演示执行清除数据火花。sql(f如果存在“删除表{table_name}”)dbutils。fs。rm(checkpoint_path,真正的)#配置自动加载程序向三角洲摄取JSON数据表(火花。readStream。格式(“cloudFiles”)。选项(“cloudFiles.format”,“json”)。选项(“cloudFiles.schemaLocation”,checkpoint_path)。负载(file_path)。选择(“*”,上校(“_metadata.file_path”)。别名(“source_file”),current_timestamp()。别名(“processing_time”))。writeStream。选项(“checkpointLocation”,checkpoint_path)。触发(availableNow=真正的)。toTable(table_name))
/ /进口进口org。apache。火花。sql。功能。current_timestamp进口org。apache。火花。sql。流媒体。触发进口火花。值得一提的。_/ /定义变量中使用下面的代码瓦尔file_path=“/ databricks-datasets / structured-streaming /事件”瓦尔用户名=火花。sql(的“选择regexp_replace (current_user (), [^ a-zA-Z0-9)”,“_”)”)。第一个。得到(0)瓦尔table_name=s”$ {用户名}_etl_quickstart”瓦尔checkpoint_path=“/ tmp /$ {用户名}/ _checkpoint”/ /清除数据从之前的演示执行火花。sql(如果存在“删除表$ {table_name}”)dbutils。fs。rm(checkpoint_path,真正的)/ /配置自动加载程序向三角洲摄取JSON数据表火花。readStream。格式(“cloudFiles”)。选项(“cloudFiles.format”,“json”)。选项(“cloudFiles.schemaLocation”,checkpoint_path)。负载(file_path)。选择(美元“*”,美元“_metadata.file_path”。作为(“source_file”),current_timestamp。作为(“processing_time”))。writeStream。选项(“checkpointLocation”,checkpoint_path)。触发(触发。AvailableNow)。toTable(table_name)
在这段代码中定义的变量应该允许您安全地执行它,而不会与现有工作空间冲突风险资产或其他用户。限制网络或存储权限执行这段代码时将提高错误;联系您的工作区管理员解决这些限制。
更多地BOB低频彩了解汽车装载机,明白了自动加载器是什么?。
笔记本电脑执行逻辑细胞。执行的逻辑单元:
运行的细胞在前一步完成,选择细胞和新闻SHIFT + ENTER。
查询您刚刚创建的表,下面的代码复制并粘贴到一个空的细胞,然后按SHIFT + ENTER运行单元。
df=火花。读。表(table_name)
瓦尔df=火花。读。表(table_name)
DataFrame预览数据,下面的代码复制并粘贴到一个空的细胞中,然后按SHIFT + ENTER运行单元。
显示(df)
了解更BOB低频彩多关于交互式可视化数据的选择,明白了可视化在数据砖笔记本。
您可以运行砖笔记本生产脚本通过添加作为一个砖的工作任务。在这个步骤中,您将创建一个新的工作,你可以手动触发。
安排你的笔记本作为一个任务:
点击时间表右边的标题栏。
输入一个唯一的名称作业名。
点击手册。
在集群下拉,选择您在步骤1中创建的集群。
在出现的窗口中,点击现在运行。
看到工作运行结果,单击旁边的图标最后一次运行时间戳。
工作的更多信息,请参阅砖的工作是什么?。
BOB低频彩了解更多关于集成数据工程与砖和工具:
你最喜欢的IDE连接
使用印度生物技术部砖
了解砖命令行界面(CLI)
了解砖起程拓殖的提供者