表格积分

Databricks上三角湖支持表表表报告大小与云端存储中对应文件目录总尺寸不同本条讨论为什么存在这种差异并推荐控制费用

Delta表尺寸为何不匹配目录尺寸

表尺寸通过UIs和Databricks报告德科里贝命令指磁盘上数据文件总尺寸在当前版本Delta表引用写表操作大都要求重写底层数据文件,但老数据文件保留一段时间支持时间旅行查询

注解

定期删除或更新表内记录时,删除向量可加速查询并减少数据文件总尺寸看吧是什么删除向量.

预测优化控制数据大小

databricks建议使用UnityCatalog管理表并启动预测优化带管理表预测优化数据bricks自动运行OptimZEVacoum命令防止积聚未使用数据文件期望表当前版与云端存储数据文件总尺寸之差总差总差这是因为当前版本中未引用的数据文件需要支持时间旅行查询看吧三角洲湖预测优化.

文件度量器Vacoum报表?

清除未用数据文件Vacoum或使用翻转RUN网络预览文件集删除,度量报告文件数和数据去除大小文件大小清除Vacoum千差万别,但取出文件大小超出当前表格总尺寸并不少见

文件度量器OptimZE报表?

何时OptimZE运行目标表新数据文件合并现有数据文件记录更改执行期间OptimZE仅影响数据组织,不修改底层数据内容数据文件总大小与表后增OptimZE运行,因为新压缩文件并存目录中无延时引用数据文件

后表大小报告OptimZE泛小比前小OptimZE运行量,因为当前表版引用数据文件总大小随数据压缩下降Vacoum必须在临界点传递后运行以删除底层数据文件

注解

类似运算度量里欧格表单DROP系统外观.所有需要重写数据文件的操作都提高包含目录中数据总尺寸直到Vacoum删除当前表版中不再引用的数据文件