增量克隆Parquet和Iceberg表去Delta湖

可使用Databricks克隆功能逐步转换Parquet或Iceberg数据源数据到管理或外部Delta表

databricks克隆Parquet和Iceberg合并功能克隆三角洲表转换表转三角洲湖.本条描述使用实例和限制特征并举实例

预览

特征显示公开预览.

注解

特征需要数据键运行时间11.3或以上

何时使用克隆增量摄取Parquet或Iceberg数据

Databricks提供多项选项摄取数据进湖屋.Databricks建议使用克隆录入下列状态中的Parquet或Iceberg数据:

注解

词名源表指表数据文件克隆目标表指Delta表创建或更新操作

  • 正在从Parquet或Iceberg迁移三角湖,但需要继续使用源表

  • 目标表和生产源表应保持最小同步并接收附加件、更新和删除

  • 您想创建ACID兼容源数据快照报告、机器学习或批量ETL

语法克隆

克隆人Parquet和Iceberg使用同样基本语法克隆Delta表,支持浅深克隆更多信息见克隆类型.

Databricks建议对大多数工作量增量使用克隆克隆支持Parquet和Iceberg使用SQL语法

注解

克隆Parquet和Iceberg的要求和保证不同于克隆或转换为Delta看吧要求克隆Parquet表和Iceberg表.

深克隆Parquet表或Iceberg表使用文件路径时使用下列语法:

环境变换OR系统REPLACE表单<目标-表格显示-名称>克隆解析器.'/路径选择//数据显示';环境变换OR系统REPLACE表单<目标-表格显示-名称>克隆冰山.'/路径选择//数据显示';

浅克隆Parquet表或Iceberg表使用文件路径时使用下列语法:

环境变换OR系统REPLACE表单<目标-表格显示-名称>夏洛夫克隆解析器.'/路径选择//数据显示';环境变换OR系统REPLACE表单<目标-表格显示-名称>夏洛夫克隆冰山.'/路径选择//数据显示';

也可以创建深浅克隆表并注册元体,如下例所示:

环境变换OR系统REPLACE表单<目标-表格显示-名称>克隆<源码-表格显示-名称>;环境变换OR系统REPLACE表单<目标-表格显示-名称>夏洛夫克隆<源码-表格显示-名称>;

要求克隆Parquet表和Iceberg表

使用深度或浅度克隆时,无法回溯源表对克隆发生后目标表应用的修改增量与克隆同步单向性,允许源表修改自动应用到目标Delta表

带Parquet表和Iceberg表使用克隆应用下列附加限制

  • Parquet表分页注册目录,如克隆前Hive元存储器,使用表名抵免源表无法使用路径克隆语法分治表

  • 无法克隆经历分区进化的冰山表

  • 无法克隆经更新、删除或合并的Iceberg并发表

  • icenceberg表限制下短列上定义分区

    • Databricks运行时13.0字符串.

    • Databricks运行时间13.1和以上中,您可用短列类型工作字符串,长长整数.

    • 数据键不支持短列类型工作小数.

  • 增量克隆同步模式变化和源表属性

注解

Databricks运行时间11.3中,此操作不收集文件级统计正因如此,目标表无法从三角洲湖数据跳转中受益文件级统计收集方式为Databricks运行时间12.0