识别附加操作重复数据

写由chetan.kardekar

2022年5月10日


三角洲表执行附加操作时常见问题重复数据

假设用户1执行Delta表A写操作用户2同时在Delta表A上执行附加操作可能导致表内记录重复

文章中,我们审查基本故障解析步骤,用这些步骤识别重复记录以及用户名和笔记本或作业,产生重复数据

识别重复记录列

sql选择计数
          
           发自
           
            逐组
            
             顺序由
             
            
           
          

输出识别所有列并重复数据

识别重复数据输入文件

从前查询中选择数据点并使用它来确定哪些文件提供重复数据

sql选择*输入_file_name
          
           去哪儿
           
            =
            
           
          

输出包括列调用路径选择中识别输入文件全路径

标识位置表

sql描述表扩展
          

使用位置表结果查找寻宝路径

sshgrep-r 'part-
          
           .snappy.parquet' /dbfs/user/hive/warehouse/
           
            /_delta_log
           
          
sshgrep-r 'part-
          
           /_delta_log
          

结果允许你识别Delta受冲击版本

检查Delta历史受创版本

sql选择*
          
           t.version in(0,1)
          

三角洲历史结果提供用户名以及笔记本或作业标识符,导致复制出现在三角洲表

确定重复数据源后,可修改笔记本或作业以防发生

示例笔记本

复习识别附加示例重复数据笔记本

文章有帮助吗