2022年11月8日更新gopinath.chandrasekaran

未提交的文件导致数据重复

问题你有一个网络问题(或类似的),一个写操作是在进步。你重新运行工作,但部分未提交的文件在运行造成不必要的数据重复失败。导致砖提交协议是如何工作的:DBIO提交协议(AWS | Azure | GCP)事务。文件后才提交反式……

1分钟的阅读时间
2022年10月28日更新gopinath.chandrasekaran

结构化流工作减缓每十日批

问题您正在运行的一系列结构化流工作和写入文件。每10日似乎跑慢于前面的工作。导致文件水槽创建一个_spark_metadata文件夹目标路径。这个元数据文件夹存储每一批信息,包括哪些文件批处理的一部分。这是所需的箴言…

1分钟的阅读时间
2023年2月17日更新gopinath.chandrasekaran

从DELTA_LOG腐败错误中恢复过来

问题要查询一个增量表当你得到错误IllegalStateException说,元数据无法恢复。错误的SQL语句:IllegalStateException:δ表的元数据无法恢复,重建版本:691193。你_delta_log目录中手动删除文件了吗?集石膏……

2分钟的阅读时间
加载更多