三角洲生活表API指南

重要的

这篇文章的内容已经退休,可能不会被更新。看到三角洲生活表砖的REST API参考。

三角洲生活表API允许您创建、编辑、删除、启动、并查看详细信息管道。

重要的

访问数据砖REST api,你必须进行身份验证

创建一个管道

端点

HTTP方法

2.0 /管道

帖子

创建一个新的三角洲住表管道。

例子

这个示例创建了一个新的管道触发。

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道\——数据@pipeline-settings.json

pipeline-settings.json:

{“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”}

请求结构

看到PipelineSettings

响应结构

字段名

类型

描述

pipeline_id

字符串

新创建的管道的惟一标识符。

编辑一个管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

更新现有管道的设置。

例子

这个示例添加一个目标与ID参数管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5\——数据@pipeline-settings.json

pipeline-settings.json

{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

请求结构

看到PipelineSettings

删除一个管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

删除

从三角洲住表删除一条输油管道系统。

例子

这个例子删除ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x删除\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

开始一个管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新

帖子

开始一个更新的管道。你可以开始一个更新整个管道图,或选择性更新特定的表。

例子

开始全面刷新

这个例子开始更新与管道全部刷新IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求
curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{“full_refresh”:“true”}’

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

开始一个更新的选择表

这个例子开始更新,刷新sales_orders_cleanedsales_order_in_chicago管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求
curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{refresh_selection”: [“sales_orders_cleaned”、“sales_order_in_chicago”]}”

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

开始全面更新选中的表

这个例子开始一个更新的sales_orders_cleanedsales_order_in_chicago表和一个更新的全部刷新客户sales_orders_raw管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求
curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{refresh_selection”:“sales_orders_cleaned”、“sales_order_in_chicago”,“full_refresh_selection”:[“客户”、“sales_orders_raw”]}”

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

请求结构

字段名

类型

描述

full_refresh

布尔

是否再处理所有数据。如果真正的三角洲住表系统重置所有表复位之前运行的管道。

这个字段是可选的。

默认值是

返回一个错误full_refesh是真的,要么refresh_selectionfull_refresh_selection是集。

refresh_selection

一个数组的字符串

表更新的列表。使用refresh_selection开始的一组选定的表刷新管道图。

这个字段是可选的。如果两个refresh_selectionfull_refresh_selection是空的,整个管道图刷新。

返回一个错误如果:

  • full_refesh是真的,refresh_selection是集。

  • 一个或多个指定的表不存在的管道图。

full_refresh_selection

一个数组的字符串

一个表更新,刷新列表。使用full_refresh_selection开始一个更新的一组选定的表。指定表的状态重置前三角洲住表系统开始更新。

这个字段是可选的。如果两个refresh_selectionfull_refresh_selection是空的,整个管道图刷新。

返回一个错误如果:

  • full_refesh是真的,refresh_selection是集。

  • 一个或多个指定的表不存在的管道图。

  • 一个或多个指定的表不是复位。

响应结构

字段名

类型

描述

update_id

字符串

新创建的更新的惟一标识符。

request_id

字符串

请求的惟一标识符开始更新。

得到管道更新请求的状态

端点

HTTP方法

2.0 /管道/ {pipeline_id} /请求/ {request_id}

得到

得到了相关的管道更新的状态和信息request_id,在那里request_id是一个独特的标识符的请求启动管道更新。如果更新重试或重新启动,那么新的更新request_id继承。

例子

管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5,这个例子返回状态和信息更新与请求ID相关联a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /请求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“状态”:“终止”,“latest_update”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”,“配置”:{“id”:“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”,“名称”:“零售销售(SQL)”,“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:【{“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:【{“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:,“发展”:真正的,“光子”:真正的,“版”:“高级”,“通道”:“当前”},“原因”:“API_CALL”,“状态”:“完成”,“cluster_id”:“1234 - 567891 abcde123”,“creation_time”:1664304117145,“full_refresh”:,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

响应结构

字段名

类型

描述

状态

字符串

管道的状态更新请求。之一

  • 活跃的:一个更新请求积极运行或可能会在一个新的更新重试。

  • 终止:请求终止,不会重试或重新启动。

pipeline_id

字符串

管道的惟一标识符。

update_id

字符串

更新的惟一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

触发更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE,SCHEMA_CHANGE,JOB_TASK,或USER_ACTION

状态

字符串

的状态更新。之一排队,创建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

cluster_id

字符串

集群运行更新的标识符。

creation_time

INT64

创建的更新时的时间戳。

full_refresh

布尔

这是否更新重置所有表之前运行

refresh_selection

一个数组的字符串

没有完整的刷新表更新的列表。

full_refresh_selection

一个数组的字符串

一个表更新,刷新列表。

request_id

字符串

请求的惟一标识符开始更新。这是返回的值更新请求。如果更新重试或重新启动,那么新的更新request_id继承。然而,update_id将会不同。

停止任何活动管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /停止

帖子

停止任何活动管道更新。如果没有更新运行时,该请求是一个空操作。

连续管道,管道执行暂停。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲生活表执行刷新所选表没有完成处理,和简历处理剩余的管道DAG。

引起管道,管道停止执行。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲住表刷新所有表。

例子

这个例子停止更新的管道和IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /停止

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

管道事件列表

端点

HTTP方法

2.0 /管道/ {pipeline_id} /事件

得到

获取事件的管道。

例子

这个示例检索最多5事件ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /事件? max_results=5

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

page_token

字符串

返回的页面标记之前的电话。这个字段是互斥的所有字段在此请求max_results除外。返回一个错误如果max_results以外的任何字段设置这个字段设置。

这个字段是可选的。

max_results

INT32

返回条目的最大数量在一个页面。系统可能还不到max_results事件响应,即使有更多的事件。

这个字段是可选的。

默认值为25。

最大值是100。返回一个错误的值max_results大于100。

order_by

字符串

一个字符串显示时间戳排序顺序的结果,例如,["时间戳asc”)

可以升序或降序排序。默认情况下,事件按降序返回的时间戳。

这个字段是可选的。

过滤器

字符串

结果的标准来选择一个子集,使用sql的语法表达。支持过滤器:

  • 水平= '信息'(或警告错误)

  • 水平('信息',“警告”)

  • id =”(标识符)

  • 时间戳>“时间戳”(或> =,<,< =,=)

支持复合表达式,例如:水平('错误',“警告”)时间戳>2021 - 07 - 22 t06:37:33.083z

这个字段是可选的。

响应结构

字段名

类型

描述

事件

一个管道事件数组。

事件列表匹配请求的标准。

next_page_token

字符串

如果存在,一个令牌来获取下一个页面的事件。

prev_page_token

字符串

如果存在,一个令牌来获取事件的前一页。

得到管道的细节

端点

HTTP方法

2.0 /管道/ {pipeline_id}

得到

得到管道的详细信息,包括管道设置和最近的更新。

例子

本例中获得与ID细节的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“规范”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:},“状态”:“空闲”,“cluster_id”:“1234 - 567891 abcde123”,“名称”:“维基百科”管道(SQL),“creator_user_name”:“用户名”,“latest_updates”:({“update_id”:“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:37:30.279z”},{“update_id”:“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“取消”,“creation_time”:“2021 - 08 - 13 - t00:35:51.902z”},{“update_id”:“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“失败”,“creation_time”:“2021 - 08 - 13 - t00:33:38.565z”}),“run_as_user_name”:“用户名”}

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的惟一标识符。

规范

PipelineSettings

管道设置。

状态

字符串

管道的状态。之一闲置运行

如果状态=运行,那么至少有一个活跃的更新。

cluster_id

字符串

集群运行管道的标识符。

的名字

字符串

这个管道的用户友好的名称。

creator_user_name

字符串

用户名的管道的创造者。

latest_updates

一个数组的UpdateStateInfo

管道状态最近的更新,要求先用最新的更新。

run_as_user_name

字符串

管道运行时的用户名。

获得更新的细节

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新/ {update_id}

得到

管道更新的详细信息。

例子

这个例子得到更新的细节9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“更新”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”,“配置”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:,“发展”:},“原因”:“API_CALL”,“状态”:“完成”,“creation_time”:1628815050279,“full_refresh”:真正的,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的惟一标识符。

update_id

字符串

这个更新的惟一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

触发更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE

状态

字符串

的状态更新。之一排队,创建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

cluster_id

字符串

集群运行管道的标识符。

creation_time

INT64

创建的更新时的时间戳。

full_refresh

布尔

是否这是一个完整的刷新。如果这是真的,所有管道表在运行更新之前重置。

列表管道

端点

HTTP方法

2.0 /管道/

得到

δ住表列表中定义的管道系统。

例子

这个示例检索名称包含细节管道快速入门:

请求

curl——netrc - x\https:// < databricks-instance > . . / api / 2.0 /管道?过滤器=名字% 20 25快速入门% % 20% 27% 25% 27

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件。

响应

{“状态”:({“pipeline_id”:“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“DLT快速入门(Python)”,“latest_updates”:({“update_id”:“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:34:21.871z”}),“creator_user_name”:“用户名”},{“pipeline_id”:“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“我的DLT快速入门示例”,“creator_user_name”:“用户名”}),“next_page_token”:“eyJ…= =”,“prev_page_token”:“eyJ . . x9”}

请求结构

字段名

类型

描述

page_token

字符串

返回的页面标记之前的电话。

这个字段是可选的。

max_results

INT32

返回条目的最大数量在一个页面。系统可能还不到max_results事件响应,即使有更多的事件。

这个字段是可选的。

默认值为25。

最大值是100。返回一个错误的值max_results大于100。

order_by

一个数组的字符串

一个字符串列表,指定结果的顺序,例如,["的名字asc”)。支持order_by字段是id的名字。默认值是idasc

这个字段是可选的。

过滤器

字符串

选择一个子集的结果根据指定的标准。

支持过滤器:

“笔记本= <路径>”选择参考提供的笔记本管道路径。

的名字就像“(模式)”选择管道与名称相匹配模式。支持通配符,例如:的名字就像“%购物%”

不支持复合过滤器。

这个字段是可选的。

响应结构

字段名

类型

描述

状态

一个数组的PipelineStateInfo

事件列表匹配请求的标准。

next_page_token

字符串

如果存在,一个令牌来获取下一个页面的事件。

prev_page_token

字符串

如果存在,一个令牌来获取事件的前一页。

数据结构

AwsAttributes

属性设置集群创建期间有关亚马逊网络服务。

字段名

类型

描述

first_on_demand

INT32

第一first_on_demand集群的节点将被放置在随需应变的实例。如果该值大于0,则集群驱动节点将被放置在一个随需应变的实例。如果该值大于或等于当前集群大小,所有节点将被放置在随需应变的实例。如果这个值小于当前集群大小,first_on_demand节点将被放置在随需应变的实例和其余部分将被放置可用性实例。这个值并不影响集群大小和不能突变在集群的生命周期。

可用性

AwsAvailability

可用性类型用于所有后续节点过去first_on_demand的。注意:如果first_on_demand是零,这种可用性将用于整个集群。

zone_id

字符串

可用性区域的标识符(AZ)集群所在。默认情况下,设置的值为汽车,否则称为Auto-AZ。Auto-AZ,砖在工作区中选择可用的阿兹基于ip子网和重试可用性区域如果AWS返回错误能力不足。

如果你愿意,你也可以指定一个可用性区域使用。这福利账户保留在一个特定的实例。指定AZ作为字符串(例如,“us-west-2a”)。提供的可用性区域必须在同一地区砖部署。例如,“us-west-2a”不是一个有效的区域ID如果砖部署驻留在“us-east-1”地区。

可用区域的列表以及默认值可以通过找到得到. . / api / 2.0 /集群/ list-zones调用。

instance_profile_arn

字符串

节点的集群只会放在AWS实例,这个实例配置文件。如果省略,节点将被放置在没有实例配置文件实例。实例配置文件之前必须被添加到砖环境帐户管理员。

此功能只能用于某些客户的计划。

spot_bid_price_percent

INT32

AWS实例,马克斯价格的比例相应的实例类型的随需应变的价格。例如,如果这个字段设置为50,和集群需要一个新的i3.xlarge现货实例,那么马克斯价格是随需应变的价格的一半i3.xlarge实例。同样,如果这个字段被设置为200,马克斯价格是随需应变的价格的两倍i3.xlarge实例。如果没有指定,默认值为100。当现货实例请求这个集群,只有现货实例的马克斯价格百分比匹配这一领域将被考虑。为了安全,我们执行这个领域不超过10000。

ebs_volume_type

EbsVolumeType

EBS卷的类型将启动集群。

ebs_volume_count

INT32

卷的数量为每个实例启动。你可以选择10卷。此功能只支持支持节点类型。遗留的节点类型不能指定自定义EBS卷。节点类型没有实例存储,需要指定至少一个EBS卷;否则,创建集群将会失败。

这些将被安装在EBS卷/ ebs0,/ ebs1等。将安装在实例存储卷/ local_disk0,/ local_disk1等。

如果在EBS卷,砖将配置的火花只使用EBS卷存储,因为不均匀大小的嘁喳设备会导致低效的磁盘利用率。如果没有附加EBS卷,砖将火花配置为使用实例存储卷。

如果指定EBS卷,火花配置spark.local.dir将被覆盖。

ebs_volume_size

INT32

每个EBS卷的大小为每个实例(在直布罗陀海峡)推出。对于通用SSD,这个值必须在100 - 4096年的经营范围内。吞吐量的优化硬盘,这个值必须在500 - 4096年的经营范围内。定制EBS卷不能被指定为遗留节点类型(memory-optimizedcompute-optimized)。

ebs_volume_iops

INT32

每EBS gp3 IOPS卷的数量。

这个值必须在3000年和16000年之间。

IOPS的价值和吞吐量计算基于AWS文档匹配的最大性能gp2体积相同的体积大小。

有关更多信息,请参见EBS卷限制计算器

ebs_volume_throughput

INT32

MiB的吞吐量/ EBS gp3体积,每秒。

这个值必须在125年和1000年之间。

如果既不ebs_volume_iops也不ebs_volume_throughput指定的值推断磁盘大小:

磁盘大小

IOPS

吞吐量

大于1000

3倍的磁盘大小,16000

250年

在170年和1000年之间

3000年

250年

低于170

3000年

125年

AwsAvailability

AWS可用性的集合类型设置为一个集群节点时的支持。

类型

描述

现货

使用实例。

ON_DEMAND

使用随需应变的实例。

SPOT_WITH_FALLBACK

最好使用现货实例,但回落到按需实例如果无法获得现货实例(例如,如果AWS现货价格太高)。

ClusterLogConf

集群日志路径。

字段名

类型

描述

dbfss3

DbfsStorageInfo

S3StorageInfo

DBFS集群日志的位置。必须提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / cluster_log”}}

S3集群日志的位置。目的地,要么地区仓库必须提供。例如,{“s3”:{“目的地”:“s3: / / cluster_log_bucket /前缀”,“地区”:“us-west-2”}}

DbfsStorageInfo

DBFS存储信息。

字段名

类型

描述

目的地

字符串

DBFS目的地。例子:dbfs: /我/路径

EbsVolumeType

砖支持gp2和gp3 EBS卷类型。按照说明在管理SSD存储选择gp2或gp3工作区。

类型

描述

GENERAL_PURPOSE_SSD

提供额外的存储使用AWS EBS卷。

THROUGHPUT_OPTIMIZED_HDD

提供额外的存储使用AWS相约卷。

FileStorageInfo

文件存储信息。

请注意

这个位置类型只能为集群设置使用砖容器服务

字段名

类型

描述

目的地

字符串

文件的目的地。例子:文件:/我/ file.sh

InitScriptInfo

一个init脚本。

对使用init脚本指令砖容器服务,请参阅使用init脚本

请注意

文件存储类型(字段名:文件)只能用于集群设置使用砖容器服务。看到FileStorageInfo

字段名

类型

描述

工作空间dbfs(弃用)

S3

WorkspaceStorageInfo

DbfsStorageInfo(弃用)

S3StorageInfo

init脚本的工作区位置。必须提供目的地。例如,{“工作区”:{“目的地”:“/用户/ someone@domain.com/init_script.sh”}}

(弃用)DBFS init脚本的位置。必须提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / init_script”}}

S3 init脚本的位置。必须提供目的地和地区或仓库。例如,{“s3”:{“目的地”:“s3: / / init_script_bucket /前缀”,“地区”:“us-west-2”}}

KeyValue

一个键-值对,指定配置参数。

字段名

类型

描述

关键

字符串

配置属性名。

价值

字符串

配置属性值。

NotebookLibrary

一个包含管道代码规范一个笔记本。

字段名

类型

描述

路径

字符串

笔记本的绝对路径。

这个字段是必需的。

PipelinesAutoScale

属性定义一个集群自动定量。

字段名

类型

描述

min_workers

INT32

工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。

max_workers

INT32

工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。

模式

字符串

集群的自动定量模式:

PipelineLibrary

规范管道依赖性。

字段名

类型

描述

笔记本

NotebookLibrary

笔记本的路径定义三角洲住表数据集。砖的路径必须工作区,例如:{“笔记本”:{“路径”:“/ my-pipeline-notebook-path”}}

PipelinesNewCluster

管道集群规范。

三角洲生活表系统设置以下属性。这些属性不能由用户配置:

  • spark_version

字段名

类型

描述

标签

字符串

集群的标签规范默认的配置默认集群或维护集群配置维护。

这个字段是可选的。默认值是默认的

spark_conf

KeyValue

一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项spark.driver.extraJavaOptionsspark.executor.extraJavaOptions分别。

火花参看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

属性相关的集群运行在Amazon Web服务。如果没有指定在创建集群,将使用默认值。

node_type_id

字符串

这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索得到2.0 /集群/ list-node-types调用。

driver_node_type_id

字符串

火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值node_type_id上面的定义。

ssh_public_keys

一个数组的字符串

SSH公钥的内容将被添加到每个火花节点集群。可以使用相应的私钥与用户名登录ubuntu在端口2200年。可以指定多达10个钥匙。

custom_tags

KeyValue

一个对象包含对集群资源的一组标记。砖标签的所有集群资源除了default_tags与这些标签。

请注意:

  • 标签上不支持遗留节点类型compute-optimized和memory-optimized等

  • 砖允许最多45定制标记。

cluster_log_conf

ClusterLogConf

长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果这个配置,日志将被交付给每一个目的地5分钟。司机日志的目的地<目标> / < cluster-ID > /司机的目的地,而执行者日志<目标> / < cluster-ID > /执行器

spark_env_vars

KeyValue

一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(也就是说,出口X = Y),而司机和工人。

为了指定一个额外的组SPARK_DAEMON_JAVA_OPTS,砖建议追加SPARK_DAEMON_JAVA_OPTS美元如以下示例所示。这确保了所有默认砖管理包括环境变量。

示例引发环境变量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

init_scripts

一个数组的InitScriptInfo

存储的配置初始化脚本。可以指定任意数量的目的地。所提供的脚本的顺序执行。如果cluster_log_conf指定,init脚本日志发送到吗<目标> / < cluster-ID > / init_scripts

instance_pool_id

字符串

可选的ID集群所属实例池。看到创建一个池

driver_instance_pool_id

字符串

可选的ID用于驱动节点实例池。您还必须指定instance_pool_id。看到实例池API

policy_id

字符串

一个集群政策ID。

num_workers自动定量

INT32InitScriptInfo

如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。

当阅读一个集群的属性,这一领域的反映所需的工人数量,而不是工人的实际数量。例如,如果一个集群的大小从5到10的工人,这一领域被更新以反映目标大小为10的工人,而执行者中列出的工人逐渐增加从5到10新节点配置。

如果自动定量,参数需要根据负载自动上下集群规模。

这个字段是可选的。

apply_policy_default_values

布尔

是否使用政策失踪的集群属性的默认值。

PipelineSettings

管道的设置部署。

字段名

类型

描述

id

字符串

这个管道的惟一标识符。

标识符是由三角洲生活表系统,创建管道时,不能提供。

的名字

字符串

一个用户友好的名称。

这个字段是可选的。

默认情况下,管道的名称必须是唯一的。使用重复名称,设置allow_duplicate_names真正的在管道配置。

存储

字符串

路径DBFS目录用于存储检查点和表创建的管道。

这个字段是可选的。

系统使用一个默认的位置,如果这个字段是空的。

配置

的地图字符串:字符串

键值对列表添加到火花集群运行管道的配置。

这个字段是可选的。

元素必须被格式化为键:值对。

集群

一个数组的PipelinesNewCluster

数组的规范集群运行管道。

这个字段是可选的。

如果不指定这个值,系统将选择一个默认集群配置管道。

一个数组的PipelineLibrary

笔记本包含管道代码和运行管道所需的任何依赖性。

目标

字符串

坚持管道输出数据的数据库名称。

看到从三角洲住表发布数据蜂巢metastore管道为更多的信息。

连续

布尔

是否这是一个连续的管道。

这个字段是可选的。

默认值是

发展

布尔

是否在开发模式下运行管道。

这个字段是可选的。

默认值是

光子

布尔

是否启用了光子加速管道。

这个字段是可选的。

默认值是

通道

字符串

三角洲生活表释放通道指定运行时版本使用管道。支持的值是:

  • 预览测试管道与即将到来的改变δ生活表运行时。

  • 当前的使用当前δ生活表运行时版本。

这个字段是可选的。

默认值是当前的

字符串

三角洲生活表产品版本运行管道:

  • 核心支持流媒体接待工作负载。

  • 还支持流媒体接待工作负载和增加了对变化数据捕获的支持(CDC)处理。

  • 先进的支持所有的功能版,增加了支持工作负载需要三角洲住表预期执行数据质量约束。

这个字段是可选的。

默认值是先进的

PipelineStateInfo

管道的状态,最近的状态更新和相关资源的信息。

字段名

类型

描述

状态

字符串

管道的状态。之一闲置运行

pipeline_id

字符串

管道的惟一标识符。

cluster_id

字符串

集群运行管道的惟一标识符。

的名字

字符串

的用户友好的名称。

latest_updates

一个数组的UpdateStateInfo

管道状态最近的更新,要求先用最新的更新。

creator_user_name

字符串

用户名的管道的创造者。

run_as_user_name

字符串

管道运行时的用户名。这是一个只读值来自管道所有者。

S3StorageInfo

S3存储信息。

字段名

类型

描述

目的地

字符串

S3的目的地。例如:s3: / /桶/ some-prefix您必须配置集群配置文件实例和实例配置文件必须写访问的目的地。你不能使用AWS键。

地区

字符串

S3。例如:us-west-2。地区或仓库必须设置。如果两个设置,仓库使用。

仓库

字符串

S3仓库。例如:https://s3 -我们-西方- 2. - amazonaws.com。地区或仓库必须设置。如果两个设置,仓库使用。

enable_encryption

BOOL

(可选)启用服务器端加密,默认情况下。

encryption_type

字符串

(可选)加密类型sse-s3sse-kms。仅当启用加密时使用,默认的类型sse-s3

kms_key

字符串

如果使用(可选)公里密钥加密和加密类型设置为启用sse-kms

canned_acl

字符串

(可选)设置访问控制列表罐头。例如:bucket-owner-full-control。如果设置了canned_acl,集群实例配置文件必须有s3: PutObjectAcl许可在目的地桶和前缀。可能罐头acl的完整列表可以在找到https://docs.aws.amazon.com/AmazonS3/latest/dev/acl-overview.html canned-acl。默认情况下,只有对象所有者得到完全控制。如果您使用交叉账户角色写数据,您可能希望设置bucket-owner-full-control让桶所有者能够阅读日志。

UpdateStateInfo

管道的当前状态更新。

字段名

类型

描述

update_id

字符串

这个更新的惟一标识符。

状态

字符串

的状态更新。之一排队,创建,WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,运行,停止,完成,失败的,或取消了

creation_time

字符串

当创建此更新的时间戳。

WorkspaceStorageInfo

工作区存储信息。

字段名

类型

描述

目的地

字符串

文件的目的地。例子:/用户/ someone@domain.com/init_script.sh