三角洲生活表API指南

三角洲生活表API允许您创建、编辑、删除、启动、并查看详细信息管道。

重要的

访问数据砖REST api,你必须进行身份验证

创建一个管道

端点

HTTP方法

2.0 /管道

帖子

创建一个新的三角洲住表管道。

例子

这个示例创建了一个新的管道触发。

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道\——数据@pipeline-settings.json

pipeline-settings.json:

{“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:}

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”}

请求结构

看到PipelineSettings

响应结构

字段名

类型

描述

pipeline_id

字符串

新创建的管道的惟一标识符。

编辑一个管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

更新现有管道的设置。

例子

这个示例添加一个目标与ID参数管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5\——数据@pipeline-settings.json

pipeline-settings.json

{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:}

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

请求结构

看到PipelineSettings

删除一个管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

删除

从三角洲住表删除一条输油管道系统。

例子

这个例子删除ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x删除\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

开始一个管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新

帖子

开始一个更新的管道。你可以开始一个更新整个管道图,或选择性更新特定的表。

例子

开始全面刷新

这个例子开始更新与管道全部刷新IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{“full_refresh”:“true”}’

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

开始一个更新的选择表

这个例子开始更新,刷新sales_orders_cleanedsales_order_in_chicago管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{refresh_selection”: [“sales_orders_cleaned”、“sales_order_in_chicago”]}”

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

开始全面更新选中的表

这个例子开始一个更新的sales_orders_cleanedsales_order_in_chicago表和一个更新的全部刷新客户sales_orders_raw管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{refresh_selection”:“sales_orders_cleaned”、“sales_order_in_chicago”,“full_refresh_selection”:[“客户”、“sales_orders_raw”]}”

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

请求结构

字段名

类型

描述

full_refresh

布尔

是否再处理所有数据。如果真正的三角洲住表系统重置所有表复位之前运行的管道。

这个字段是可选的。

默认值是

返回一个错误full_refesh是真的,要么refresh_selectionfull_refresh_selection是集。

refresh_selection

一个数组的字符串

表更新的列表。使用refresh_selection开始的一组选定的表刷新管道图。

这个字段是可选的。如果两个refresh_selectionfull_refresh_selection是空的,整个管道图刷新。

返回一个错误如果:

  • full_refesh是真的,refresh_selection是集。

  • 一个或多个指定的表不存在的管道图。

full_refresh_selection

一个数组的字符串

一个表更新,刷新列表。使用full_refresh_selection开始一个更新的一组选定的表。指定表的状态重置前三角洲住表系统开始更新。

这个字段是可选的。如果两个refresh_selectionfull_refresh_selection是空的,整个管道图刷新。

返回一个错误如果:

  • full_refesh是真的,refresh_selection是集。

  • 一个或多个指定的表不存在的管道图。

  • 一个或多个指定的表不是复位。

响应结构

字段名

类型

描述

update_id

字符串

新创建的更新的惟一标识符。

request_id

字符串

请求的惟一标识符开始更新。

得到管道更新请求的状态

端点

HTTP方法

2.0 /管道/ {pipeline_id} /请求/ {request_id}

得到

得到了相关的管道更新的状态和信息request_id,在那里request_id是一个独特的标识符的请求启动管道更新。如果更新重试或重新启动,那么新的更新request_id继承。

例子

管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5,这个例子返回状态和信息更新与请求ID相关联a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /请求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“状态”:“终止”,“latest_update”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”,“配置”:{“id”:“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”,“名称”:“零售销售(SQL)”,“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:【{“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:【{“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:,“发展”:真正的,“光子”:真正的,“版”:“高级”,“通道”:“当前”},“原因”:“API_CALL”,“状态”:“完成”,“cluster_id”:“1234 - 567891 abcde123”,“creation_time”:1664304117145,“full_refresh”:,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

响应结构

字段名

类型

描述

状态

字符串

管道的状态更新请求。之一

  • 活跃的:一个更新请求积极运行或可能会在一个新的更新重试。

  • 终止:请求终止,不会重试或重新启动。

pipeline_id

字符串

管道的惟一标识符。

update_id

字符串

更新的惟一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

触发更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE,SCHEMA_CHANGE,JOB_TASK,或USER_ACTION

状态

字符串

的状态更新。之一排队,创建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

cluster_id

字符串

集群运行更新的标识符。

creation_time

INT64

创建的更新时的时间戳。

full_refresh

布尔

这是否更新重置所有表之前运行

refresh_selection

一个数组的字符串

没有完整的刷新表更新的列表。

full_refresh_selection

一个数组的字符串

一个表更新,刷新列表。

request_id

字符串

请求的惟一标识符开始更新。这是返回的值更新请求。如果更新重试或重新启动,那么新的更新request_id继承。然而,update_id将会不同。

停止任何活动管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /停止

帖子

停止任何活动管道更新。如果没有更新运行时,该请求是一个空操作。

连续管道,管道执行暂停。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲生活表执行刷新所选表没有完成处理,和简历处理剩余的管道DAG。

引起管道,管道停止执行。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲住表刷新所有表。

例子

这个例子停止更新的管道和IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /停止

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

管道事件列表

端点

HTTP方法

2.0 /管道/ {pipeline_id} /事件

得到

获取事件的管道。

例子

这个示例检索最多5事件ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /事件? max_results=5

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

page_token

字符串

返回的页面标记之前的电话。这个字段是互斥的所有字段在此请求max_results除外。返回一个错误如果max_results以外的任何字段设置这个字段设置。

这个字段是可选的。

max_results

INT32

返回条目的最大数量在一个页面。系统可能还不到max_results事件响应,即使有更多的事件。

这个字段是可选的。

默认值为25。

最大值是100。返回一个错误的值max_results大于100。

order_by

字符串

一个字符串显示时间戳排序顺序的结果,例如,["时间戳asc”)

可以升序或降序排序。默认情况下,事件按降序返回的时间戳。

这个字段是可选的。

过滤器

字符串

结果的标准来选择一个子集,使用sql的语法表达。支持过滤器:

  • 水平= '信息'(或警告错误)

  • 水平('信息',“警告”)

  • id =”(标识符)

  • 时间戳>“时间戳”(或> =,<,< =,=)

支持复合表达式,例如:水平('错误',“警告”)时间戳>2021 - 07 - 22 t06:37:33.083z

这个字段是可选的。

响应结构

字段名

类型

描述

事件

一个管道事件数组。

事件列表匹配请求的标准。

next_page_token

字符串

如果存在,一个令牌来获取下一个页面的事件。

prev_page_token

字符串

如果存在,一个令牌来获取事件的前一页。

得到管道的细节

端点

HTTP方法

2.0 /管道/ {pipeline_id}

得到

得到管道的详细信息,包括管道设置和最近的更新。

例子

本例中获得与ID细节的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“规范”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:},“状态”:“空闲”,“cluster_id”:“1234 - 567891 abcde123”,“名称”:“维基百科”管道(SQL),“creator_user_name”:“用户名”,“latest_updates”:({“update_id”:“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:37:30.279z”},{“update_id”:“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“取消”,“creation_time”:“2021 - 08 - 13 - t00:35:51.902z”},{“update_id”:“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“失败”,“creation_time”:“2021 - 08 - 13 - t00:33:38.565z”}),“run_as_user_name”:“用户名”}

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的惟一标识符。

规范

PipelineSettings

管道设置。

状态

字符串

管道的状态。之一闲置运行

如果状态=运行,那么至少有一个活跃的更新。

cluster_id

字符串

集群运行管道的标识符。

的名字

字符串

这个管道的用户友好的名称。

creator_user_name

字符串

用户名的管道的创造者。

latest_updates

一个数组的UpdateStateInfo

管道状态最近的更新,要求先用最新的更新。

run_as_user_name

字符串

管道运行时的用户名。

获得更新的细节

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新/ {update_id}

得到

管道更新的详细信息。

例子

这个例子得到更新的细节9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“更新”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”,“配置”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:,“发展”:},“原因”:“API_CALL”,“状态”:“完成”,“creation_time”:1628815050279,“full_refresh”:真正的,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的惟一标识符。

update_id

字符串

这个更新的惟一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

触发更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE

状态

字符串

的状态更新。之一排队,创建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

cluster_id

字符串

集群运行管道的标识符。

creation_time

INT64

创建的更新时的时间戳。

full_refresh

布尔

是否这是一个完整的刷新。如果这是真的,所有管道表在运行更新之前重置。

列表管道

端点

HTTP方法

2.0 /管道/

得到

δ住表列表中定义的管道系统。

例子

这个示例检索名称包含细节管道快速入门:

请求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道?过滤器=名字% 20 25快速入门% % 20% 27% 25% 27

替换:

  • < databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“状态”:({“pipeline_id”:“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“DLT快速入门(Python)”,“latest_updates”:({“update_id”:“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:34:21.871z”}),“creator_user_name”:“用户名”},{“pipeline_id”:“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“我的DLT快速入门示例”,“creator_user_name”:“用户名”}),“next_page_token”:“eyJ…= =”,“prev_page_token”:“eyJ . . x9”}

请求结构

字段名

类型

描述

page_token

字符串

返回的页面标记之前的电话。

这个字段是可选的。

max_results

INT32

返回条目的最大数量在一个页面。系统可能还不到max_results事件响应,即使有更多的事件。

这个字段是可选的。

默认值为25。

最大值是100。返回一个错误的值max_results大于100。

order_by

一个数组的字符串

一个字符串列表,指定结果的顺序,例如,["的名字asc”)。支持order_by字段是id的名字。默认值是idasc

这个字段是可选的。

过滤器

字符串

选择一个子集的结果根据指定的标准。

支持过滤器:

“笔记本= <路径>”选择参考提供的笔记本管道路径。

的名字就像“(模式)”选择管道与名称相匹配模式。支持通配符,例如:的名字就像“%购物%”

不支持复合过滤器。

这个字段是可选的。

响应结构

字段名

类型

描述

状态

一个数组的PipelineStateInfo

事件列表匹配请求的标准。

next_page_token

字符串

如果存在,一个令牌来获取下一个页面的事件。

prev_page_token

字符串

如果存在,一个令牌来获取事件的前一页。

数据结构

PipelinesAutoScale

属性定义一个集群自动定量。

字段名

类型

描述

min_workers

INT32

工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。

max_workers

INT32

工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。

模式

字符串

集群的自动定量模式:

KeyValue

一个键-值对,指定配置参数。

字段名

类型

描述

关键

字符串

配置属性名。

价值

字符串

配置属性值。

NotebookLibrary

一个包含管道代码规范一个笔记本。

字段名

类型

描述

路径

字符串

笔记本的绝对路径。

这个字段是必需的。

PipelineLibrary

规范管道依赖性。

字段名

类型

描述

笔记本

NotebookLibrary

笔记本的路径定义三角洲住表数据集。砖的路径必须工作区,例如:{“笔记本”:{“路径”:“/ my-pipeline-notebook-path”}}

PipelineSettings

管道的设置部署。

字段名

类型

描述

id

字符串

这个管道的惟一标识符。

标识符是由三角洲生活表系统,创建管道时,不能提供。

的名字

字符串

一个用户友好的名称。

这个字段是可选的。

默认情况下,管道的名称必须是唯一的。使用重复名称,设置allow_duplicate_names真正的在管道配置。

存储

字符串

路径DBFS目录用于存储检查点和表创建的管道。

这个字段是可选的。

系统使用一个默认的位置,如果这个字段是空的。

配置

的地图字符串:字符串

键值对列表添加到火花集群运行管道的配置。

这个字段是可选的。

元素必须被格式化为键:值对。

集群

一个数组的PipelinesNewCluster

数组的规范集群运行管道。

这个字段是可选的。

如果不指定这个值,系统将选择一个默认集群配置管道。

一个数组的PipelineLibrary

笔记本包含管道代码和运行管道所需的任何依赖性。

目标

字符串

坚持管道输出数据的数据库名称。

看到从三角洲住表发布数据管道为更多的信息。

连续

布尔

是否这是一个连续的管道。

这个字段是可选的。

默认值是

发展

布尔

是否在开发模式下运行管道。

这个字段是可选的。

默认值是

光子

布尔

是否启用了光子加速管道。

这个字段是可选的。

默认值是

通道

字符串

三角洲生活表释放通道指定运行时版本使用管道。支持的值是:

  • 预览测试管道与即将到来的改变δ生活表运行时。

  • 当前的使用当前δ生活表运行时版本。

这个字段是可选的。

默认值是当前的

字符串

三角洲生活表产品版本运行管道:

  • 核心支持流媒体接待工作负载。

  • 还支持流媒体接待工作负载和增加了对变化数据捕获的支持(CDC)处理。

  • 先进的支持所有的功能版,增加了支持工作负载需要三角洲住表预期执行数据质量约束。

这个字段是可选的。

默认值是先进的

PipelineStateInfo

管道的状态,最近的状态更新和相关资源的信息。

字段名

类型

描述

状态

字符串

管道的状态。之一闲置运行

pipeline_id

字符串

管道的惟一标识符。

cluster_id

字符串

集群运行管道的惟一标识符。

的名字

字符串

的用户友好的名称。

latest_updates

一个数组的UpdateStateInfo

管道状态最近的更新,要求先用最新的更新。

creator_user_name

字符串

用户名的管道的创造者。

run_as_user_name

字符串

管道运行时的用户名。这是一个只读值来自管道所有者。

PipelinesNewCluster

管道集群规范。

三角洲生活表系统设置以下属性。这些属性不能由用户配置:

  • spark_version

字段名

类型

描述

标签

字符串

集群的标签规范默认的配置默认集群或维护集群配置维护。

这个字段是可选的。默认值是默认的

spark_conf

KeyValue

一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项spark.driver.extraJavaOptionsspark.executor.extraJavaOptions分别。

火花参看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

gcp_attributes

谷歌云属性

属性相关的集群上运行谷歌云。如果没有指定在创建集群,将使用默认值。

node_type_id

字符串

这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索节点类型列表API调用。

driver_node_type_id

字符串

火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值node_type_id上面的定义。

ssh_public_keys

一个数组的字符串

SSH公钥的内容将被添加到每个火花节点集群。可以使用相应的私钥与用户名登录ubuntu在端口2200年。可以指定多达10个钥匙。

custom_tags

KeyValue

一个对象包含对集群资源的一组标记。砖标签的所有集群资源除了default_tags与这些标签。

请注意:

  • 标签上不支持遗留节点类型compute-optimized和memory-optimized等

  • 砖允许最多45定制标记。

cluster_log_conf

ClusterLogConf

长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果这个配置,日志将被交付给每一个目的地5分钟。司机日志的目的地<目标> / < cluster-ID > /司机的目的地,而执行者日志<目标> / < cluster-ID > /执行器

spark_env_vars

KeyValue

一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(也就是说,出口X = Y),而司机和工人。

为了指定一个额外的组SPARK_DAEMON_JAVA_OPTS,砖建议追加SPARK_DAEMON_JAVA_OPTS美元如以下示例所示。这确保了所有默认砖管理包括环境变量。

示例引发环境变量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

init_scripts

一个数组的InitScriptInfo

存储的配置初始化脚本。可以指定任意数量的目的地。所提供的脚本的顺序执行。如果cluster_log_conf指定,init脚本日志发送到吗<目标> / < cluster-ID > / init_scripts

instance_pool_id

字符串

可选的ID集群所属实例池。看到

driver_instance_pool_id

字符串

可选的ID用于驱动节点实例池。您还必须指定instance_pool_id。看到实例池API 2.0

policy_id

字符串

一个集群政策ID。

num_workers或自动定量

INT32PipelinesAutoScale

如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。

当阅读一个集群的属性,这一领域的反映所需的工人数量,而不是工人的实际数量。例如,如果一个集群的大小从5到10的工人,这一领域被更新以反映目标大小为10的工人,而执行者中列出的工人逐渐增加从5到10新节点配置。

如果自动定量,参数需要根据负载自动上下集群规模。

这个字段是可选的。

apply_policy_default_values

布尔

是否使用政策失踪的集群属性的默认值。

UpdateStateInfo

管道的当前状态更新。

字段名

类型

描述

update_id

字符串

这个更新的惟一标识符。

状态

字符串

的状态更新。之一排队,创建,WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

creation_time

字符串

当创建此更新的时间戳。