使用Apache火花DataFrames读三角洲共享共享表

本文提供了语法的例子使用Apache火花查询数据共享使用三角洲分享。使用deltasharing关键字作为一种格式为DataFrame操作选项。

查询共享数据的其他选项

您还可以创建查询,使用共享表名在三角洲共享目录metastore注册,比如下面的例子:

选择*shared_table_name
火花(“shared_table_name”)

更多配置三角洲分享砖使用共享和查询数据的表名,明白了读取数据共享使用Databricks-to-Databricks三角洲共享

您可以使用结构化流过程记录在共享表增量。使用结构化流,您必须启用共享表的历史。看到改变分享。历史需要共享数据砖运行时12.1或以上。

如果共享表有变化的数据提要源三角洲上启用表和历史上启用共享,读书的时候,你可以用改变数据提要三角洲与结构化流或批处理操作。看到使用三角洲湖变化数据以砖

关键字与三角洲分享阅读格式

deltasharing关键字是支持Apache火花DataFrame读取操作,如以下示例所示:

df=(火花格式(“deltasharing”)负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))

阅读改变δ共享共享表的数据提要

表有历史和改变共享数据提要启用,您可以阅读使用Apache火花DataFrames更改数据提要记录。历史需要共享数据砖运行时12.1或以上。

df=(火花格式(“deltasharing”)选项(“readChangeFeed”,“真正的”)选项(“startingTimestamp”,“2021-04-21 05:45:46”)选项(“endingTimestamp”,“2021-05-21 12:00:00”)负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))

使用结构化流读三角洲共享共享表

对于共享历史表,您可以使用共享表作为结构化流的来源。历史需要共享数据砖运行时12.1或以上。

streaming_df=(火花readStream格式(“deltasharing”)负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))#如果启用了CDF实验组的源表streaming_cdf_df=(火花readStream格式(“deltasharing”)选项(“readChangeFeed”,“真正的”)选项(“startingTimestamp”,“2021-04-21 05:45:46”)负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))