教程:声明一个数据管道使用SQL在三角洲住表

预览

这个特性是在公共预览

本教程向您展示了如何使用SQL语法来声明一个数据管道与达美住表。砖建议三角洲生活表和SQL SQL用户的首选方法建立新的ETL,摄入和转换管道砖。δ生活表的SQL语法扩展标准火花SQL和许多新的关键字,结构,和表值函数。这些添加到标准SQL允许用户声明数据集之间的依赖关系和部署工业生产基础设施,而不需要学习任何新工具或额外的概念。

为用户熟悉火花DataFrames欲望广泛的测试和支持元编程操作,砖建议使用Python的三角洲生活表。看到与Python教程:声明一个数据管道三角洲生活表

请注意

  • 你不能混合的语言在一个δ住表源文件。您可以使用多个笔记本或文件与不同的语言在一个管道。

  • 在这个例子中,使用代码选择蜂巢metastore当您创建管道的存储选项。因为这个例子从DBFS读取数据,不能运行这个例子与管道配置为使用统一目录存储选项。

你在哪里运行三角洲住表的SQL查询吗?

你必须添加SQL文件管道配置来处理查询的逻辑。了解执行逻辑定义在三角洲生活表,看看教程:管道运行第一个三角洲住表

虽然您可以使用笔记本或SQL文件编写三角洲住表的SQL查询,三角洲表不是设计运行交互式地生活在笔记本电池。执行一个细胞包含三角洲住表语法在砖笔记本返回一个信息查询语法是否有效,但不运行查询逻辑。

声明一个三角洲生活表管道使用SQL

本教程使用SQL语法来声明一个三角洲生活表管道数据集包含维基百科点击流数据:

  • 阅读原始JSON点击流数据到表中。

  • 阅读从原始数据表记录和使用三角洲生活表预期创建一个新表,其中包含清洗数据。

  • 利用洁净的记录数据表三角洲生活表查询,创建派生的数据集。

这段代码演示了一个图案架构的简化示例。看到奖章lakehouse架构是什么?

将SQL代码复制粘贴到一个新的笔记本。您可以将示例代码添加到笔记本的单细胞或多细胞。回顾笔记创建选项,看看创建一个笔记本

创建一个表在对象存储文件

三角洲生活表支持加载所有数据格式支持的砖。看到在砖与外部数据

所有三角洲住表的SQL语句使用创建刷新语法和语义。当你更新一个管道,δ生活表决定表的逻辑上正确的结果可以通过增量处理或是否需要全部重新计算。

下面的示例创建一个表通过加载数据从JSON文件存储在对象存储:

创建刷新生活clickstream_raw评论“原始维基百科点击流数据集,从/ databricks-datasets摄取。”作为选择*json' /- - - - - -数据集/维基百科- - - - - -数据集/数据- - - - - -001年/点击流/- - - - - -未压缩的- - - - - -json/2015年_2_clickstreamjson;

表从一个上游数据集添加到管道

您可以使用生活虚拟模式从其他数据集查询数据声明的在你当前的三角洲住表管道。宣布新表以这种方式创建一个依赖项,三角洲生活表自动执行更新之前解决。的生活模式是一个自定义关键字实现三角洲生活表,可以代替目标模式如果您希望发布您的数据集。看到从三角洲住表发布数据蜂巢metastore管道

下面的代码的例子还包括监测和执行数据质量与预期相符。看到管理数据质量与达美住表

创建刷新生活clickstream_prepared(约束valid_current_page预计(current_page_title),约束valid_count预计(click_count>0)违反失败更新)评论“维基百科点击流数据清洗和准备分析。”作为选择curr_title作为current_page_title,(n作为INT)作为click_count,prev_title作为previous_page_title生活clickstream_raw;

创建一个丰富的数据视图

因为δ生活表流程更新管道作为一系列的依赖图,您可以声明高纯度仪表板视图权力,BI和分析通过声明表与特定的业务逻辑。

生活表物化视图在概念上是等价的。而引发传统意见执行逻辑视图查询,每次住表的最新版本查询结果存储在数据文件。因为δ生活表管理在一个管道中更新所有数据集,您可以安排管道更新以匹配物化视图和延迟要求知道查询这些表包含数据可用的最新版本。

下面的代码创建了一个丰富的物化视图上游数据:

创建刷新生活top_spark_referers评论“一个表包含页面链接到Apache火花页面顶部。”作为选择previous_page_title作为介绍人,click_count生活clickstream_prepared在哪里current_page_title=“Apache_Spark”订单通过click_countDESC限制10;

下一个步骤

欲了解BOB低频彩更多,请看三角洲生活表SQL语言参考