三角洲表执行附加操作时常见问题重复数据
假设用户1执行Delta表A写操作用户2同时在Delta表A上执行附加操作可能导致表内记录重复
文章中,我们审查基本故障解析步骤,用这些步骤识别重复记录以及用户名和笔记本或作业,产生重复数据
识别重复记录列
sql选择计数发自 逐组 顺序由
输出识别所有列并重复数据
识别重复数据输入文件
从前查询中选择数据点并使用它来确定哪些文件提供重复数据
sql选择*输入_file_name去哪儿 =
输出包括列调用路径选择中识别输入文件全路径
标识位置表
sql描述表扩展
使用位置表结果查找寻宝路径
sshgrep-r 'part-.snappy.parquet' /dbfs/user/hive/warehouse/ /_delta_log
sshgrep-r 'part-/_delta_log
结果允许你识别Delta受冲击版本
检查Delta历史受创版本
sql选择*t.version in(0,1)
三角洲历史结果提供用户名以及笔记本或作业标识符,导致复制出现在三角洲表
确定重复数据源后,可修改笔记本或作业以防发生
示例笔记本
复习识别附加示例重复数据笔记本