优化建议砖

砖提供了许多优化lakehouse支持多种工作负载,从大规模的ETL处理特别的交互式查询。许多这些优化自动发生。你得到好处简单使用砖。此外,大多数砖运行时特性需要三角洲湖,默认存储层砖中用于创建表。

砖配置默认值,优化工作负载。但是,在某些情况下,改变配置设置提高了性能。

砖运行时性能增强

请注意

使用最新的砖运行时利用最新的性能增强。这里所有的行为记录都在砖默认启用运行时10.4 LTS以上。

  • 磁盘缓存加速重复读取对拼花数据文件加载数据到磁盘卷附加到计算集群。

  • 动态文件修剪提高查询性能,跳过目录不包含数据文件相匹配的查询谓词。

  • 低洗牌合并减少了数据文件重写的数量合并操作,减少了需要recaculateZORDER集群。

  • Apache 3.0引入了火花自适应查询执行很多操作,它提供了增强的性能。

砖对增强性能的建议

  • 你可以克隆表在砖深或浅源数据集的副本。

  • 基于成本的优化器加速查询性能利用表统计信息。

  • 您可以使用SQL与火花半结构化的JSON数据没有解析的字符串。

  • 高阶函数提供内置的,很多操作优化性能,没有共同的火花运营商。高阶函数提供性能优势超过用户定义函数。

  • 砖提供了大量的内置运营商和特殊的语法来处理复杂数据类型,包括数组、结构、和JSON字符串。

  • 您可以手动调整设置连接,包括范围或与然而包含数据

选择行为

  • 砖提供了一种编写可序列化的默认隔离保证;改变了隔离级别序列化可以减少并发操作的吞吐量,但可能需要阅读时可串行性是必需的。

  • 您可以使用布隆过滤器的索引减少的可能性扫描数据文件不包含记录匹配给定的条件。