优化化(Delta湖数据库)

重要点

文档已被退位, 可能无法更新 。产品、服务或技术本内容不再支持看吧OptimZE.

OptimZE[db_name.]表名[去哪儿上位万事通[区间BY高山市ol_name,ol_name2,..

优化三角湖数据布局可选优化数据子集或逐列对接数据不指定同地办公,则执行bin打包优化

注解

  • 分包优化即能者表示如果双运行同一组数据,二运行无效目的是生成均衡数据文件磁盘尺寸,但不一定每个文件图例数然而,两种计量方法往往相关联。

  • 顺序排序非全能目标递增运算时间为Z-Ordering保证不减少多次运行但如果没有新数据添加到单为Z-Ordered分区,则该分区的另一Z-Ordering将不产生任何效果目的是生成均衡数据文件图数,但不一定是磁盘数据大小两种度量最常相关,但有时情况并非如此,导致优化任务时间偏斜

  • 控制输出文件大小,设置spark配置spark.databricks.delta.optimize.maxFileSize.默认值为1073741824中设置大小到1GB指定值104857600文件大小设置为100MB

去哪儿

优化匹配给定分区前缀行子集只支持带分区密钥属性的滤波

区间BY

集合列信息同组文件三角湖数据倾斜算法使用共定位来大幅减少需要阅读的数据量可指定多列区间BY以逗号分隔表局部性随增列下降

实例

OptimZE事件处理OptimZE事件处理去哪儿日期显示>=20170101OptimZE事件处理去哪儿日期显示>=current_timestamp(b)-INTERVAL系统一号白昼区间BY高山市事件类型)