使用Apache火花DataFrames读三角洲共享共享表
本文提供了语法的例子使用Apache火花查询数据共享使用三角洲分享。使用deltasharing
关键字作为一种格式为DataFrame操作选项。
查询共享数据的其他选项
您还可以创建查询,使用共享表名在三角洲共享目录metastore注册,比如下面的例子:
选择*从shared_table_name
火花。读。表(“shared_table_name”)
更多配置三角洲分享砖使用共享和查询数据的表名,明白了读取数据共享使用Databricks-to-Databricks三角洲共享。
您可以使用结构化流过程记录在共享表增量。使用结构化流,您必须启用共享表的历史。看到改变分享。历史需要共享数据砖运行时12.1或以上。
如果共享表有变化的数据提要源三角洲上启用表和历史上启用共享,读书的时候,你可以用改变数据提要三角洲与结构化流或批处理操作。看到使用三角洲湖变化数据以砖。
关键字与三角洲分享阅读格式
的deltasharing
关键字是支持Apache火花DataFrame读取操作,如以下示例所示:
df=(火花。读。格式(“deltasharing”)。负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))
阅读改变δ共享共享表的数据提要
表有历史和改变共享数据提要启用,您可以阅读使用Apache火花DataFrames更改数据提要记录。历史需要共享数据砖运行时12.1或以上。
df=(火花。读。格式(“deltasharing”)。选项(“readChangeFeed”,“真正的”)。选项(“startingTimestamp”,“2021-04-21 05:45:46”)。选项(“endingTimestamp”,“2021-05-21 12:00:00”)。负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))
使用结构化流读三角洲共享共享表
对于共享历史表,您可以使用共享表作为结构化流的来源。历史需要共享数据砖运行时12.1或以上。
streaming_df=(火花。readStream。格式(“deltasharing”)。负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))#如果启用了CDF实验组的源表streaming_cdf_df=(火花。readStream。格式(“deltasharing”)。选项(“readChangeFeed”,“真正的”)。选项(“startingTimestamp”,“2021-04-21 05:45:46”)。负载(“<配置文件路径> # <共享名>。<模式名称>。<表名称>”))