动态文件修剪
动态文件修剪,可以显著提高查询的性能在三角洲湖表。动态文件修剪是特别有效的为非分区表,或加入非分区列上。动态文件修剪对性能的影响往往是相关的集群数据所以考虑使用z值最大化效益。
重要的
您必须使用Photon-enabled计算使用动态文件修剪合并
,更新
,删除
语句。只有选择
声明动态文件修剪当光子不使用杠杆。
对于动态背景和用例文件修剪,明白了更快的SQL查询与动态文件修剪三角洲湖。
配置
动态文件修剪是由以下Apache火花配置选项:
spark.databricks.optimizer.dynamicFilePruning
(默认是真正的
):指示优化器的主要标志压低过滤器。当设置为假
修剪、动态文件将不会生效。spark.databricks.optimizer.deltaTableSizeThreshold
(默认是10000000000年字节(10GB)
):代表了最小大小(以字节为单位)三角洲表探头一侧连接需要触发动态文件的修剪。如果探针方面不是非常大,它可能不是值得压低过滤器和我们可以简单地扫描整个表。你可以找到δ表通过运行的大小描述细节table_name
命令,然后看sizeInBytes
列。spark.databricks.optimizer.deltaTableFilesThreshold
(默认是10
在砖运行时的8.4及以上,1000年
在砖运行时8.3及以下):代表三角洲表的文件数量调查方面的连接需要触发动态文件修剪。当探测器方面比阈值表包含更少的文件,动态文件修剪不触发。如果一个表只有几个文件,它可能是不值得启用动态文件修剪。你可以找到δ表通过运行的大小描述细节table_name
命令,然后看numFiles
列。