真空
适用于:砖的SQL砖运行时
删除未使用的文件从一个表目录。
请注意
这个命令是不同取决于你工作在三角洲或Apache火花表。
真空三角洲表
递归地真空目录与三角洲表相关联。真空
从表中删除所有文件目录,并不是由三角洲,以及数据文件,不再在最新状态的事务日志表,保留阈值以上。真空
将跳过所有目录开始用下划线(_
),其中包括_delta_log
。分区表列,始于一个下划线是一个例外;真空
扫描所有有效的分区包含在目标三角洲表。三角洲删除表数据文件根据他们从三角洲被逻辑删除的事务日志+保留时间,不是他们修改存储系统上的时间戳。默认阈值是7天。
在三角洲表、砖不自动触发真空
操作。看到删除未使用的数据文件与真空。
如果你运行真空
在三角洲的表,你失去的能力时间旅行回一个版本比指定的数据保留周期。
警告
建议您设置一个保留间隔至少7天,因为旧的快照和未提交的文件仍然可以使用并发读者或作者。如果真空
清理活动文件,并发的读者可能会失败,或者更糟的是,表时可以损坏真空
删除文件,尚未提交。你必须选择一个时间间隔较长时间最长的并发事务和最长的时期,任何流可以落后于最新更新表。
三角洲湖有一个安全检查防止你运行一个危险真空
命令。在砖运行时,你一定没有这个表上执行的操作,需要更长的时间比保留你计划指定的时间间隔,你可以关掉这个安全检查通过设置引发配置属性spark.databricks.delta.retentionDurationCheck.enabled
来假
。
真空table_name(保留全国矿工工会小时](干运行]
参数
识别现有的差值表。必须不包含一个名称时间规范。
保留num小时
保留阈值。
排练
返回一个列表的1000个文件被删除。