三角洲生活表API指南
三角洲生活表API允许您创建、编辑、删除、启动、并查看详细信息管道。
重要的
访问数据砖REST api,你必须进行身份验证。
创建一个管道
端点 |
HTTP方法 |
---|---|
|
|
创建一个新的三角洲住表管道。
例子
这个示例创建了一个新的管道触发。
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道\——数据@pipeline-settings.json
pipeline-settings.json
:
{“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:假}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
编辑一个管道
端点 |
HTTP方法 |
---|---|
|
|
更新现有管道的设置。
例子
这个示例添加一个目标
与ID参数管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5\——数据@pipeline-settings.json
pipeline-settings.json
{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:假}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
开始一个管道更新
端点 |
HTTP方法 |
---|---|
|
|
开始一个更新的管道。你可以开始一个更新整个管道图,或选择性更新特定的表。
例子
开始全面刷新
这个例子开始更新与管道全部刷新IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
开始一个更新的选择表
这个例子开始更新,刷新sales_orders_cleaned
和sales_order_in_chicago
管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
开始全面更新选中的表
这个例子开始一个更新的sales_orders_cleaned
和sales_order_in_chicago
表和一个更新的全部刷新客户
和sales_orders_raw
管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
。
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——数据”{refresh_selection”:“sales_orders_cleaned”、“sales_order_in_chicago”,“full_refresh_selection”:[“客户”、“sales_orders_raw”]}”
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
请求结构
字段名 |
类型 |
描述 |
---|---|---|
full_refresh |
|
是否再处理所有数据。如果 这个字段是可选的。 默认值是 返回一个错误 |
refresh_selection |
一个数组的 |
表更新的列表。使用 这个字段是可选的。如果两个 返回一个错误如果:
|
full_refresh_selection |
一个数组的 |
一个表更新,刷新列表。使用 这个字段是可选的。如果两个 返回一个错误如果:
|
得到管道更新请求的状态
端点 |
HTTP方法 |
---|---|
|
|
得到了相关的管道更新的状态和信息request_id
,在那里request_id
是一个独特的标识符的请求启动管道更新。如果更新重试或重新启动,那么新的更新request_id继承。
例子
管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
,这个例子返回状态和信息更新与请求ID相关联a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429
:
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /请求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
响应
{“状态”:“终止”,“latest_update”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”,“配置”:{“id”:“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”,“名称”:“零售销售(SQL)”,“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:【{“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:【{“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“连续”:假,“发展”:真正的,“光子”:真正的,“版”:“高级”,“通道”:“当前”},“原因”:“API_CALL”,“状态”:“完成”,“cluster_id”:“1234 - 567891 abcde123”,“creation_time”:1664304117145,“full_refresh”:假,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}
响应结构
字段名 |
类型 |
描述 |
---|---|---|
状态 |
|
管道的状态更新请求。之一
|
pipeline_id |
|
管道的惟一标识符。 |
update_id |
|
更新的惟一标识符。 |
配置 |
管道设置。 |
|
导致 |
|
触发更新。之一 |
状态 |
|
的状态更新。之一 |
cluster_id |
|
集群运行更新的标识符。 |
creation_time |
|
创建的更新时的时间戳。 |
full_refresh |
|
这是否更新重置所有表之前运行 |
refresh_selection |
一个数组的 |
没有完整的刷新表更新的列表。 |
full_refresh_selection |
一个数组的 |
一个表更新,刷新列表。 |
request_id |
|
请求的惟一标识符开始更新。这是返回的值更新请求。如果更新重试或重新启动,那么新的更新request_id继承。然而, |
停止任何活动管道更新
端点 |
HTTP方法 |
---|---|
|
|
停止任何活动管道更新。如果没有更新运行时,该请求是一个空操作。
连续管道,管道执行暂停。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲生活表执行刷新所选表没有完成处理,和简历处理剩余的管道DAG。
引起管道,管道停止执行。表目前处理完成刷新,但下游表不刷新。在下一个管道更新,三角洲住表刷新所有表。
管道事件列表
端点 |
HTTP方法 |
---|---|
|
|
获取事件的管道。
请求结构
字段名 |
类型 |
描述 |
---|---|---|
page_token |
|
返回的页面标记之前的电话。这个字段是互斥的所有字段在此请求max_results除外。返回一个错误如果max_results以外的任何字段设置这个字段设置。 这个字段是可选的。 |
max_results |
|
返回条目的最大数量在一个页面。系统可能还不到 这个字段是可选的。 默认值为25。 最大值是100。返回一个错误的值 |
order_by |
|
一个字符串显示时间戳排序顺序的结果,例如, 可以升序或降序排序。默认情况下,事件按降序返回的时间戳。 这个字段是可选的。 |
过滤器 |
|
结果的标准来选择一个子集,使用sql的语法表达。支持过滤器:
支持复合表达式,例如: 这个字段是可选的。 |
得到管道的细节
端点 |
HTTP方法 |
---|---|
|
|
得到管道的详细信息,包括管道设置和最近的更新。
例子
本例中获得与ID细节的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
响应
{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“规范”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:假},“状态”:“空闲”,“cluster_id”:“1234 - 567891 abcde123”,“名称”:“维基百科”管道(SQL),“creator_user_name”:“用户名”,“latest_updates”:({“update_id”:“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:37:30.279z”},{“update_id”:“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“取消”,“creation_time”:“2021 - 08 - 13 - t00:35:51.902z”},{“update_id”:“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“失败”,“creation_time”:“2021 - 08 - 13 - t00:33:38.565z”}),“run_as_user_name”:“用户名”}
响应结构
字段名 |
类型 |
描述 |
---|---|---|
pipeline_id |
|
管道的惟一标识符。 |
规范 |
管道设置。 |
|
状态 |
|
管道的状态。之一 如果状态= |
cluster_id |
|
集群运行管道的标识符。 |
的名字 |
|
这个管道的用户友好的名称。 |
creator_user_name |
|
用户名的管道的创造者。 |
latest_updates |
一个数组的UpdateStateInfo |
管道状态最近的更新,要求先用最新的更新。 |
run_as_user_name |
|
管道运行时的用户名。 |
获得更新的细节
端点 |
HTTP方法 |
---|---|
|
|
管道更新的详细信息。
例子
这个例子得到更新的细节9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003
管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
响应
{“更新”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”,“配置”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名称”:“维基百科”管道(SQL),“存储”:“/用户/用户名/数据”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:({“标签”:“默认”,“自动定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增强”}}),“库”:({“笔记本”:{“路径”:“/用户/用户名/ DLT笔记本/δ生活表快速入门(SQL)”}}),“目标”:“wikipedia_quickstart_data”,“连续”:假,“发展”:假},“原因”:“API_CALL”,“状态”:“完成”,“creation_time”:1628815050279,“full_refresh”:真正的,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}
响应结构
字段名 |
类型 |
描述 |
---|---|---|
pipeline_id |
|
管道的惟一标识符。 |
update_id |
|
这个更新的惟一标识符。 |
配置 |
管道设置。 |
|
导致 |
|
触发更新。之一 |
状态 |
|
的状态更新。之一 |
cluster_id |
|
集群运行管道的标识符。 |
creation_time |
|
创建的更新时的时间戳。 |
full_refresh |
|
是否这是一个完整的刷新。如果这是真的,所有管道表在运行更新之前重置。 |
列表管道
端点 |
HTTP方法 |
---|---|
|
|
δ住表列表中定义的管道系统。
例子
这个示例检索名称包含细节管道快速入门
:
请求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道?过滤器=名字% 20 25快速入门% % 20% 27% 25% 27
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
这个示例使用. netrc文件。
响应
{“状态”:({“pipeline_id”:“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“DLT快速入门(Python)”,“latest_updates”:({“update_id”:“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:34:21.871z”}),“creator_user_name”:“用户名”},{“pipeline_id”:“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“状态”:“空闲”,“名称”:“我的DLT快速入门示例”,“creator_user_name”:“用户名”}),“next_page_token”:“eyJ…= =”,“prev_page_token”:“eyJ . . x9”}
请求结构
字段名 |
类型 |
描述 |
---|---|---|
page_token |
|
返回的页面标记之前的电话。 这个字段是可选的。 |
max_results |
|
返回条目的最大数量在一个页面。系统可能还不到 这个字段是可选的。 默认值为25。 最大值是100。返回一个错误的值 |
order_by |
一个数组的 |
一个字符串列表,指定结果的顺序,例如, 这个字段是可选的。 |
过滤器 |
|
选择一个子集的结果根据指定的标准。 支持过滤器:
不支持复合过滤器。 这个字段是可选的。 |
响应结构
字段名 |
类型 |
描述 |
---|---|---|
状态 |
一个数组的PipelineStateInfo |
事件列表匹配请求的标准。 |
next_page_token |
|
如果存在,一个令牌来获取下一个页面的事件。 |
prev_page_token |
|
如果存在,一个令牌来获取事件的前一页。 |
数据结构
在本节中:
PipelinesAutoScale
属性定义一个集群自动定量。
字段名 |
类型 |
描述 |
---|---|---|
min_workers |
|
工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。 |
max_workers |
|
工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。 |
模式 |
|
集群的自动定量模式: |
PipelineLibrary
规范管道依赖性。
字段名 |
类型 |
描述 |
---|---|---|
笔记本 |
笔记本的路径定义三角洲住表数据集。砖的路径必须工作区,例如: |
PipelineSettings
管道的设置部署。
字段名 |
类型 |
描述 |
---|---|---|
id |
|
这个管道的惟一标识符。 标识符是由三角洲生活表系统,创建管道时,不能提供。 |
的名字 |
|
一个用户友好的名称。 这个字段是可选的。 默认情况下,管道的名称必须是唯一的。使用重复名称,设置 |
存储 |
|
路径DBFS目录用于存储检查点和表创建的管道。 这个字段是可选的。 系统使用一个默认的位置,如果这个字段是空的。 |
配置 |
的地图 |
键值对列表添加到火花集群运行管道的配置。 这个字段是可选的。 元素必须被格式化为键:值对。 |
集群 |
一个数组的PipelinesNewCluster |
数组的规范集群运行管道。 这个字段是可选的。 如果不指定这个值,系统将选择一个默认集群配置管道。 |
库 |
一个数组的PipelineLibrary |
笔记本包含管道代码和运行管道所需的任何依赖性。 |
目标 |
|
坚持管道输出数据的数据库名称。 看到从三角洲住表发布数据管道为更多的信息。 |
连续 |
|
是否这是一个连续的管道。 这个字段是可选的。 默认值是 |
发展 |
|
是否在开发模式下运行管道。 这个字段是可选的。 默认值是 |
光子 |
|
是否启用了光子加速管道。 这个字段是可选的。 默认值是 |
通道 |
|
三角洲生活表释放通道指定运行时版本使用管道。支持的值是:
这个字段是可选的。 默认值是 |
版 |
|
三角洲生活表产品版本运行管道:
这个字段是可选的。 默认值是 |
PipelineStateInfo
管道的状态,最近的状态更新和相关资源的信息。
字段名 |
类型 |
描述 |
---|---|---|
状态 |
|
管道的状态。之一 |
pipeline_id |
|
管道的惟一标识符。 |
cluster_id |
|
集群运行管道的惟一标识符。 |
的名字 |
|
的用户友好的名称。 |
latest_updates |
一个数组的UpdateStateInfo |
管道状态最近的更新,要求先用最新的更新。 |
creator_user_name |
|
用户名的管道的创造者。 |
run_as_user_name |
|
管道运行时的用户名。这是一个只读值来自管道所有者。 |
PipelinesNewCluster
管道集群规范。
三角洲生活表系统设置以下属性。这些属性不能由用户配置:
spark_version
字段名 |
类型 |
描述 |
---|---|---|
标签 |
|
集群的标签规范 这个字段是可选的。默认值是 |
spark_conf |
一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项 火花参看示例: |
|
gcp_attributes |
属性相关的集群上运行谷歌云。如果没有指定在创建集群,将使用默认值。 |
|
node_type_id |
|
这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索节点类型列表API调用。 |
driver_node_type_id |
|
火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值 |
ssh_public_keys |
一个数组的 |
SSH公钥的内容将被添加到每个火花节点集群。可以使用相应的私钥与用户名登录 |
custom_tags |
一个对象包含对集群资源的一组标记。砖标签的所有集群资源除了default_tags与这些标签。 请注意:
|
|
cluster_log_conf |
长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果这个配置,日志将被交付给每一个目的地 |
|
spark_env_vars |
一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(也就是说, 为了指定一个额外的组 示例引发环境变量: |
|
init_scripts |
一个数组的InitScriptInfo |
存储的配置初始化脚本。可以指定任意数量的目的地。所提供的脚本的顺序执行。如果 |
instance_pool_id |
|
可选的ID集群所属实例池。看到池。 |
driver_instance_pool_id |
|
可选的ID用于驱动节点实例池。您还必须指定 |
policy_id |
|
一个集群政策ID。 |
num_workers或自动定量 |
|
如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。 当阅读一个集群的属性,这一领域的反映所需的工人数量,而不是工人的实际数量。例如,如果一个集群的大小从5到10的工人,这一领域被更新以反映目标大小为10的工人,而执行者中列出的工人逐渐增加从5到10新节点配置。 如果自动定量,参数需要根据负载自动上下集群规模。 这个字段是可选的。 |
apply_policy_default_values |
|
是否使用政策失踪的集群属性的默认值。 |
UpdateStateInfo
管道的当前状态更新。
字段名 |
类型 |
描述 |
---|---|---|
update_id |
|
这个更新的惟一标识符。 |
状态 |
|
的状态更新。之一 |
creation_time |
|
当创建此更新的时间戳。 |