三角洲生活表快速入门
你可以很容易地创建并运行一个三角洲生活表使用砖笔记本的管道。本文演示了使用δ生活表管道数据集包含维基百科点击流数据:
阅读原始JSON点击流数据到表中。
阅读从原始数据表记录和使用三角洲生活表预期创建一个新表,其中包含清洗数据。
利用洁净的记录数据表三角洲生活表查询,创建派生的数据集。
在这个快速入门,你:
创建一个新的笔记本和添加代码来实现管道。
创建一个新的管道使用笔记本工作。
启动一个更新管道的工作。
查看管道工作的结果。
创建一个笔记本
您可以使用一个例如笔记本电脑或者创建一个新的笔记本运行三角洲生活表管道:
去你的砖着陆页面并选择创建一个笔记本,或点击新在侧边栏并选择笔记本。的创建笔记本对话框出现了。
在创建笔记本对话,给你的笔记本一个名称并选择Python或SQL从默认的语言下拉菜单。你可以把集群设置为默认值。三角洲生活表运行时创建一个集群在它运行你的管道。
点击创建。
Python或SQL复制代码示例并粘贴到你的新笔记本。您可以将示例代码添加到笔记本的单细胞或多细胞。
代码示例
进口dlt从pyspark.sql.functions进口*从pyspark.sql.types进口*json_path=“/ databricks-datasets / wikipedia-datasets /数据2015 - 001 /点击流/ raw-uncompressed-json / _2_clickstream.json”@dlt。表(评论=“原始维基百科点击流数据集,从/ databricks-datasets摄取。”)defclickstream_raw():返回(火花。读。格式(“json”)。负载(json_path))@dlt。表(评论=“维基百科点击流数据清洗和准备分析。”)@dlt。预计(“valid_current_page_title”,“current_page_title NOT NULL”)@dlt。expect_or_fail(“valid_count”,“click_count > 0 ")defclickstream_prepared():返回(dlt。读(“clickstream_raw”)。withColumn(“click_count”,expr(“铸(n为INT)”))。withColumnRenamed(“curr_title”,“current_page_title”)。withColumnRenamed(“prev_title”,“previous_page_title”)。选择(“current_page_title”,“click_count”,“previous_page_title”))@dlt。表(评论=“一个表包含页面链接到Apache火花页面顶部。”)deftop_spark_referrers():返回(dlt。读(“clickstream_prepared”)。过滤器(expr(“current_page_title = = Apache_Spark”))。withColumnRenamed(“previous_page_title”,“referrer”)。排序(desc(“click_count”))。选择(“referrer”,“click_count”)。限制(10))
创建或刷新生活表clickstream_raw评论“原始维基百科点击流数据集,从/ databricks-datasets摄取。”作为选择*从json。' /砖- - - - - -数据集/维基百科- - - - - -数据集/数据- - - - - -001年/点击流/生- - - - - -未压缩的- - - - - -json/2015年_2_clickstream。json”;创建或刷新生活表clickstream_prepared(约束valid_current_page预计(current_page_title是不零),约束valid_count预计(click_count>0)在违反失败更新)评论“维基百科点击流数据清洗和准备分析。”作为选择curr_title作为current_page_title,投(n作为INT)作为click_count,prev_title作为previous_page_title从生活。clickstream_raw;创建或刷新生活表top_spark_referers评论“一个表包含页面链接到Apache火花页面顶部。”作为选择previous_page_title作为介绍人,click_count从生活。clickstream_prepared在哪里current_page_title=“Apache_Spark”订单通过click_countDESC限制10;
创建一个管道
创建一个新的管道使用三角洲住表笔记本:
点击工作流在侧边栏,单击三角洲生活表选项卡,并单击创建管道。
给管道名称并单击选择一个笔记本。
可选的输入输出数据的存储位置的管道。系统使用一个默认的位置如果你离开存储位置空的。
选择触发为管道模式。
点击创建。
系统显示管道的细节你点击后页面创建。您还可以访问您的管道中通过单击管道名称三角洲生活表选项卡。
启动管道
开始一个更新的新管道,单击按钮在顶部面板。系统返回一个消息确认你的管道是开始。
成功启动更新后,三角洲生活表系统:
开始一个集群使用一个集群配置由三角洲生活表系统。你也可以指定一个自定义的集群配置。
创建任何表,并确保不存在任何现有表的模式是正确的。
最新的数据更新表。
关闭集群更新完成后。
您可以跟踪更新的进展通过查看事件日志的底部管道的细节页面。
查看管道设置
点击设置查看和修改生成的配置管道。看到三角洲生活表设置有关配置设置。
发布数据集
你可以让管道输出数据用于查询通过发布砖metastore表:
单击设置按钮。
在输入数据库名称目标字段。
点击保存。
单击按钮来开始一个新的更新你的管道。
更新完成之后,您就可以查看数据库和表、查询数据,或者在下游应用程序中使用的数据。
例如笔记本电脑
这些笔记本电脑提供Python和SQL示例,实现一个三角洲生活表管道:
阅读原始JSON点击流数据到表中。
阅读从原始数据表记录和使用三角洲生活表预期创建一个新表,其中包含清洗数据。
利用洁净的记录数据表三角洲生活表查询,创建派生的数据集。
笔记本中找到更多的例子delta-live-tables-notebooksGitHub库。