三角洲表与传统表不同三角洲表包括ACID交易和时间穿行特征,这意味着它们保留交易日志和过期数据文件附加特征需要存储空间
文章中我们讨论建议帮助你管理三角洲表的大小
激活文件系统版本
启用文件系统版本时,将多变量数据保留在同一存储桶中文件系统创建数据版本,而不是删除项目,增加Delta表可用存储空间
启动开花滤波
布隆滤波索引AWS系统|休眠|GCP高空高效数据结构允许数据跳转所选列,特别是包含任意文本字段的数据跳转Databricks支持文件级Bloom滤波每一数据文件都可用单Bloom滤波索引文件关联阅读文件前Databricks检验索引文件,只有索引显示文件可能匹配数据滤波时文件才读
布隆滤波大小取决于创建布隆滤波的集数元素和所需假正概率FPP越低,使用位数越高,准确度越高,代价是存储空间越多。
复习三角洲logRetentionDuration策略化
日志文件默认保留30天值通过delta.log保留Duration属性可配置可使用此属性设置值长表设置TBPROPERSQL方法保留时间越多 存储空间越多示例设置delta.log保留时间= '365天'日志文件保留365天而不是默认30天
Vacoum三角洲表
VACUMAWS系统|休眠|GCP清除数据文件,即不再处于表交易日志最新状态并超过保留阈值的数据文件文件按逻辑从Delta事务日志+保留时删除,而不是存储系统修改时间戳默认阈值为7天数据砖不自动触发Vacoum三角洲表格操作您必须手动执行命令 。Vacoum帮助删除过期文件
OptimZE三角洲表
OptimZEAWS系统|休眠|GCP命令将多Delta文件压缩成大单文件帮助避免多文件遍历多端提高三角洲表的总体查询速度和性能默认OptimZE创建 1GB文件