三角洲住表属性引用

本文提供了一个参考三角洲生活表JSON设置规范和表属性数据砖。为更多的细节在使用这些不同属性和配置,看到下面的文章:

三角洲生活表管道配置

字段

id

类型:字符串

这个管道全局惟一标识符。系统标识符分配的,不能更改。

的名字

类型:字符串

一个用户友好的名称。这个名字可以用来识别管道工作在UI中。

存储

类型:字符串

位置DBFS和云存储在输出数据和元数据所需的管道执行存储。表和元数据存储在子目录的位置。

存储没有指定设置,系统将默认的位置dbfs: /管道/

存储设置创建一个管道不得更改。

配置

类型:对象

一个可选的设置添加到列表的火花配置集群运行的管道。这些设置由三角洲生活读表运行时和用于管道通过火花配置查询。

元素必须被格式化键:值对。

类型:数组对象

笔记本的数组包含管道代码和所需的工件。

集群

类型:数组对象

数组的规范集群运行管道。

如果不指定这个值,管道会自动选择一个默认集群配置管道。

发展

类型:布尔

一个标志指示是否运行的管道发展生产模式。

默认值是真正的

通知

类型:数组对象

一个可选的一系列规范邮件通知当管道更新完成后,失败的事情错误,失败与non-retryable错误,或流失败。

连续

类型:布尔

一个标志指示是否运行管道不断。

默认值是

目标

类型:字符串

的名称数据库持久化管道输出数据。配置目标设置允许您查看和查询的管道输出数据砖UI。

通道

类型:字符串

版本的三角洲住表运行时使用。支持的值是:

  • 预览测试你的管道运行时版本即将到来的变化。

  • 当前的使用当前的运行时版本。

通道字段是可选的。默认值是当前的。砖建议使用当前的运行时版本为生产工作负载。

类型字符串

三角洲生活表产品版本运行管道。此设置允许你选择最好的产品版本基于管道的需求:

  • 核心流摄取工作负载运行。

  • 运行流摄取和变化数据捕获(CDC)工作负载。

  • 先进的流摄取工作负载运行,疾控中心的工作负载,负载需要三角洲住表预期执行数据质量约束。

字段是可选的。默认值是先进的

光子

类型:布尔

一个标志指示是否使用光子运行时管道运行。光子是砖高性能火花的引擎。Photon-enabled管道比non-Photon管道宣传以不同的速度。

光子字段是可选的。默认值是

pipelines.maxFlowRetryAttempts

类型:int

的最大数量尝试失败重试前流管道更新发生的事情失败时。

默认值是2。默认情况下,当事情发生故障,三角洲生活表运行时尝试运行流三次包括最初的尝试。

pipelines.numUpdateRetryAttempts

类型:int

尝试重试的最大数量更新之前没有更新发生的事情失败时。运行一个完整的更新重试。

默认值是5。这个参数只适用于在生产模式下运行触发更新。没有重试时管道在开发模式下运行。

三角洲生活表属性表

除了表属性的支持三角洲湖,你可以设置下表属性。

表属性

pipelines.autoOptimize.managed

默认值:真正的

启用或禁用自动将这个表的优化。

pipelines.autoOptimize.zOrderCols

默认值:无

一个可选的字符串包含一个以逗号分隔的z值这个表的列名。例如,pipelines.autoOptimize.zOrderCols=“年、月”

pipelines.reset.allowed

默认值:真正的

控制是否允许一个完整的刷新表。

美国疾病控制与预防中心表属性

下面的表属性被添加到控制墓碑管理的行为删除事件当使用疾病预防控制中心:

表属性

pipelines.cdc.tombstoneGCThresholdInSeconds

默认值:5分钟

将这个值设置为匹配的最高预期无序的数据之间的时间间隔。

pipelines.cdc.tombstoneGCFrequencyInSeconds

默认值:60秒

控制频率墓碑是清理检查。

看到改变数据获取与三角洲生活表

管道触发间隔

您可以指定一个管道触发间隔为整个三角洲住表管道或声明的数据集的一部分。看到管道触发间隔

pipelines.trigger.interval

默认是基于流型:

  • 5秒为流查询。

  • 一分钟完成查询的所有输入数据时是三角洲来源。

  • 十分钟完成一些数据源可能non-Delta时查询。

值是一个数字加上时间单位。以下是有效时间单位:

  • 第二个,

  • 一分钟,分钟

  • 小时,小时

  • 一天,

您可以使用单数或复数单位在定义值,例如:

  • {“pipelines.trigger.interval”:“1一小时”}

  • {“pipelines.trigger.interval”:“十秒"}

  • {“pipelines.trigger.interval”:“30第二个“}

  • {“pipelines.trigger.interval”:“1分钟”}

  • {“pipelines.trigger.interval”:“十分钟”}

  • {“pipelines.trigger.interval”:“十分钟”}

集群没有用户可设置的属性

因为δ生活表管理集群生命周期,许多由三角洲集群设置生活表,不能由用户手动配置。下表列出了这些设置,为什么他们不能手动设置。

字段

cluster_name

三角洲生活表设置集群的名称用于运行管道更新。这些名字不能覆盖。

spark_version

三角洲生活表集群上运行一个自定义的砖运行时版本不断更新,包括最新的功能。火花的版本与砖的运行时版本的捆绑,不能覆盖。

autotermination_minutes

因为δ生活表管理集群auto-termination和重用逻辑,集群auto-termination时不能覆盖。

runtime_engine

虽然你可以控制这一领域通过使光子管道,你不能直接设置这个值。

enable_elastic_disk

这个值是默认启用δ生活表,不能覆盖。

effective_spark_version

这个值是由系统自动设置的。

cluster_source

这个领域是系统设定的,只读的。

docker_image

因为δ生活表管理集群生命周期,不能使用一个自定义容器管道集群。

workload_type

这个值是系统设定的,不能覆盖。