三角洲表属性引用

湖储备δ表属性入手三角洲。。这些属性可能有特定的含义,并影响行为时,这些属性集。

表属性和SparkSession交互属性怎么样?

δ表属性设置每个表。如果一个属性设置在一个表上,那么这是紧随其后的是默认的设置。

有些表属性关联SparkSession总是优先于表属性的配置。一些例子包括spark.databricks.delta.autoCompact.enabledspark.databricks.delta.optimizeWrite.enabled汽车压实和优化配置,打开写SparkSession层面而不是表级别。砖建议使用table-scoped配置对于大多数工作负载。

对每一个增量表属性可以设置一个默认值为新表使用SparkSession配置,覆盖内置的默认。这个设置只影响到新表,不覆盖或替换现有表的属性设置。中使用的前缀SparkSession不同属性中使用的配置表,如下表所示:

三角洲湖相依

SparkSession相依

三角洲。<设计>

spark.databricks.delta.properties.defaults。<设计>

例如,设置delta.appendOnly=真正的财产所有新三角洲湖表中创建一个会话,设置如下:

火花δ属性违约appendOnly=真正的

修改现有表的表属性,使用设置TBLPROPERTIES

三角洲表属性

可用三角洲表属性包括以下:

财产

delta.appendOnly

真正的δ表扩展。如果扩展,不能删除现有记录,和现有的值不能被更新。

看到三角洲表属性引用

数据类型:布尔

默认值:

delta.autoOptimize.autoCompact

汽车对于三角洲湖自动优化为δ表的布局文件。

看到汽车压实对砖三角洲湖

数据类型:布尔

默认值:(一)

delta.autoOptimize.optimizeWrite

真正的为三角洲湖自动优化的布局为δ表文件中写道。

看到优化为三角洲湖砖

数据类型:布尔

默认值:(一)

delta.checkpoint.writeStatsAsJson

真正的对于三角洲湖写文件检查点JSON格式的数据统计数据列。

看到在检查站管理列级统计

数据类型:布尔

默认值:真正的

delta.checkpoint.writeStatsAsStruct

真正的三角洲湖写文件统计检查点的结构格式stats_parsed列和写分区值的结构partitionValues_parsed

看到在检查站管理列级统计

数据类型:布尔

默认值:(一)

delta.columnMapping.mode

是否支持增量表列和列映射相应的拼花列使用不同的名称。

看到重命名和删除列与三角洲湖列映射

注意:启用delta.columnMapping.mode自动使delta.randomFilePrefixes

数据类型:DeltaColumnMappingMode

默认值:没有一个

delta.dataSkippingNumIndexedCols

列数为三角洲湖为跳过数据收集统计信息。的值1意味着所有列的收集统计信息。更新这个属性并不会自动收集统计信息;相反,它重新定义了三角洲表的统计模式。具体地说,它改变了未来的行为统计信息收集(如在附加和优化)以及数据跳过(如忽视列统计超出这个数字,即使存在这样的统计数据)。

看到数据不与z顺序索引三角洲湖

数据类型:Int

默认值:32

delta.deletedFileRetentionDuration

最短的时间前三角洲湖保持逻辑删除数据文件删除。这是为了防止失败后在陈旧的读者紧凑排列或分区覆盖。

这个值应该足够大,以确保:

  • 它大于可能的持续时间最长的一份工作,如果你运行真空当有并发访问三角洲读者或作者表。

  • 如果你运行一个流媒体查询从表中读取,查询不停止超过这个值。否则,查询可能无法启动,因为它必须读旧文件。

看到配置数据保留时间旅行的查询

数据类型:CalendarInterval

默认值:时间间隔1

delta.enableChangeDataFeed

真正的使改变数据提要。

看到使改变数据提要

数据类型:布尔

默认值:

delta.isolationLevel

一个事务的程度必须隔绝的修改由并发事务。

有效的值可序列化的WriteSerializable

看到隔离级别和写冲突砖

数据类型:字符串

默认值:WriteSerializable

delta.logRetentionDuration

三角洲的历史表保存多长时间。真空业务覆盖这个保留阈值。

每次写的一个检查站,三角洲湖自动清理日志条目超过保留时间间隔。如果将此属性设置为一个足够大的价值,许多日志条目被保留。这应该不会影响性能,操作日志是常数时间。历史上的操作是平行但日志大小增加将变得更加昂贵。

看到配置数据保留时间旅行的查询

数据类型:CalendarInterval

默认值:时间间隔30.

delta.minReaderVersion

最低要求协议版本为读者,让读者阅读从δ表。

看到砖三角洲湖管理功能的兼容性如何?

数据类型:Int

默认值:1

delta.minWriterVersion

作家的最低要求协议版本为一个作家可以写这个δ表。

看到砖三角洲湖管理功能的兼容性如何?

数据类型:Int

默认值:2

delta.randomizeFilePrefixes

真正的三角洲湖来生成一个随机前缀的文件路径,而不是分区信息。

数据类型:布尔

默认值:

delta.randomPrefixLength

delta.randomizeFilePrefixes被设置为真正的的字符数,三角洲湖为随机生成前缀。

数据类型:Int

默认值:2

delta.setTransactionRetentionDuration

最短的时间内新快照将保留事务标识符(例如,SetTransaction看到。当一个新的快照事务标识符大于或等于此属性指定的持续时间,快照认为过期而忽略它。的SetTransaction标识符是用于使写的幂等。看到幂等表在foreachBatch写道获取详细信息。

数据类型:CalendarInterval

默认值:(一)

delta.targetFileSize

目标文件大小的字节或更高的单位文件调优。例如,104857600(字节)或100 mb

看到配置三角洲湖控制数据文件大小

数据类型:字符串

默认值:(一)

delta.tuneFileSizesForRewrites

真正的总是使用较低的文件大小为三角洲上的所有数据布局优化操作表。

不要调到较低的文件大小,也就是说,防止自动激活。

看到配置三角洲湖控制数据文件大小

数据类型:布尔

默认值:(一)