优化
适用于:砖的SQL砖运行时
三角洲湖数据的优化布局。选择优化的一个子集,或把数据的数据列。如果你不指定主机托管,装箱优化执行。
语法
优化table_name(在哪里谓词](ZORDER通过(col_name1(,…])]
请注意
装箱优化幂等,也就是说,如果是相同的数据集上运行两次,第二次运行没有影响。它旨在产生均衡数据文件对磁盘上它们的大小,但不一定是元组每个文件的数量。然而,这两个指标往往是相关的。
z值是不是幂等但旨在成为一个增量操作。z值的时间是不能保证减少多个运行。然而,如果没有新的数据只是z值添加到一个分区,该分区的另一个Z-Ordering不会有任何效果。它旨在产生均衡数据文件对元组的数量,但不一定是磁盘上的数据大小。两种措施通常是相关的,但可以有情况并非如此,导致斜在优化任务的时期。
请注意
在使用砖运行时,控制输出文件的大小,设置火花配置spark.databricks.delta.optimize.maxFileSize
。默认值是1073741824
,大小为1 GB。指定的值104857600
将文件大小设置为100 MB。
参数
识别现有的差值表。必须不包含一个名称时间规范。
在哪里
优化匹配给定的分区谓词的行子集。只支持过滤器包括分区键属性。
ZORDER通过
把同一组文件中列信息。使用Co-locality三角洲湖data-skipping算法极大地减少了需要读取的数据量。您可以指定多个列
ZORDER通过
作为一个以逗号分隔的列表。然而,当地的有效性下降与每个额外的列。
例子
优化事件优化事件在哪里日期> =“2017-01-01”优化事件在哪里日期> =current_timestamp()- - - - - -时间间隔1一天ZORDER通过(eventType)
更多的信息优化
命令,看到紧凑的数据文件与优化在三角洲湖。