乔布斯API 2.0

就业API允许您创建、编辑和删除工作。一个请求到工作的最大允许大小API是10 mb。

对细节的更新工作API,支持多个任务的编排与砖工作,明白了乔布斯API更新。

警告

千万不要硬编码秘密或者存储在纯文本。使用秘密的API管理的秘密砖CLI。使用秘密效用(dbutils.secrets)引用在笔记本和工作秘密。

请注意

如果你收到一个500级的错误做乔布斯API请求时,砖建议重试请求10分钟(重试之间至少30秒时间间隔)。

重要的

访问数据砖REST api,你必须进行身份验证。

创建

端点	HTTP方法
`2.0 / /创建工作`	`帖子`

创建一个新工作。

例子

这个示例创建一个工作运行JAR任务10:15pm每晚。

请求

               curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/创建\——数据@create-job.json\|金桥。
              

create-job.json:

               {“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:3600年,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
的内容create-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥。

响应

               {“job_id”:1}
              

请求结构

重要的

当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名	类型	描述
`existing_cluster_id`或`new_cluster`	`字符串`或NewCluster	如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。如果new_cluster,集群的描述将被创建为每个运行。如果指定一个PipelineTask,这个领域可以是空的。
`notebook_task`或`spark_jar_task`或`spark_python_task`或`spark_submit_task`或`pipeline_task`或`run_job_task`	NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask	如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。如果spark_jar_task,表明这项工作应该运行一个罐子里。如果spark_python_task,表明这项工作应该运行Python文件。如果spark_submit_task,表明这项工作应该发起的火花提交脚本。如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。如果run_job_task,表明这项工作应该运行另一份工作。
`的名字`	`字符串`	一个可选的名字。默认值是`无标题的`。
`库`	一个数组的图书馆	一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。
`email_notifications`	JobEmailNotifications	一组可选的电子邮件地址通知当运行这个工作开始和完成时,这项工作被删除。默认行为是不发送任何电子邮件。
`webhook_notifications`	WebhookNotifications	一组可选的系统通知目的地当这个工作开始运行,完成,或失败。
`notification_settings`	JobNotificationSettings	使用可选的通知设置在发送通知的`email_notifications`和`webhook_notifications`对于这个工作。
`timeout_seconds`	`INT32`	一个可选的超时应用于每次运行的工作。默认行为是没有超时。
`max_retries`	`INT32`	一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的`失败的`result_state或`INTERNAL_ERRORlife_cycle_state`。值1的意思是无限期重试,值0意味着永不重试。默认行为是不重试。
`min_retry_interval_millis`	`INT32`	之间的一个可选的最小间隔时间以毫秒为单位的失败和随后的重试跑。默认行为是成功运行立即重试。
`retry_on_timeout`	`BOOL`	一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。
`时间表`	CronSchedule	一个可选的周期安排这项工作。默认行为是工作运行时通过点击触发现在运行在工作界面或发送一个API请求`runNow`。
`max_concurrent_runs`	`INT32`	一个可选的最大允许并发运行的作业的数量。设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行跳过除非有少于3活跃。这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。

响应结构

字段名	类型	描述
`job_id`	`INT64`	规范标识符为新创建的工作。

列表

端点	HTTP方法
`2.0 /工作/列表`	`得到`

列出所有工作。

例子

请求

               curl——netrc请求\https:// < databricks-instance > / api / 2.0 /工作/列表\|金桥。
              

取代< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。

这个示例使用. netrc文件和金桥。

响应

               {“工作”:({“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}]}
              

响应结构

字段名	类型	描述
`工作`	一个数组的工作	工作列表。

删除

端点	HTTP方法
`2.0 /工作/删除`	`帖子`

删除一个工作,发送一封电子邮件到指定的地址JobSettings.email_notifications。如果发生任何行动工作已经被移除。工作是删除之后,它的细节和其运行的历史是可见的UI或API的工作。这份工作是保证完成这个请求删除。然而,运行前活动收到这个请求可能仍然是活跃的。他们将终止异步。

例子

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/删除\——数据”{“job_id”: <作业id >}’
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<作业id >例如,与工作的ID123年。

这个示例使用. netrc文件。

请求结构

字段名	类型	描述
`job_id`	`INT64`	工作的规范标识符删除。这个字段是必需的。

得到

端点	HTTP方法
`2.0 /工作/`	`得到`

检索信息的一个工作。

例子

请求

               curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/ ? job_id = <作业id > '\|金桥。
              

或者:

               curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/\——数据job_id=<作业id >\|金桥。
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<作业id >例如,与工作的ID123年。

这个示例使用. netrc文件和金桥。

响应

               {“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}
              

请求结构

字段名	类型	描述
`job_id`	`INT64`	工作的规范标识符检索信息。这个字段是必需的。

响应结构

字段名	类型	描述
`job_id`	`INT64`	这个工作的规范标识符。
`creator_user_name`	`字符串`	造物主的用户名。这个领域不会包含在响应中如果用户已经删除。
`设置`	JobSettings	和它的所有运行设置这个工作。这些设置可以更新使用重置或更新端点。
`created_time`	`INT64`	这个工作的时间成立于时代毫秒(毫秒因为1/1/1970 UTC)。

重置

端点	HTTP方法
`2.0 /工作/重置`	`帖子`

覆盖所有设置为一个特定的工作。使用更新端点设置部分更新工作。

例子

这个示例请求使工作2相同的工作1创建的例子。

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/重置\——数据@reset-job.json\|金桥。
             

reset-job.json:

              {“job_id”:2,“new_settings”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}}
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
的内容reset-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥。

请求结构

字段名

类型

描述

job_id

INT64

工作的规范标识符重置。这个字段是必需的。

new_settings

JobSettings

新设置的工作。这些设置完全取代旧的设置。

修改字段JobSettings.timeout_seconds应用于活跃的运行。更改其他领域应用于未来只运行。

更新

端点	HTTP方法
`2.0 /工作/更新`	`帖子`

添加、更改或删除现有工作的特定设置。使用重置端点覆盖所有工作设置。

例子

这个示例请求添加库和删除电子邮件通知设置中定义的工作1创建的例子。

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/更新\——数据@update-job.json\|金桥。
             

update-job.json:

              {“job_id”:1,“new_settings”:{“existing_cluster_id”:“1201 -我的集群”,“email_notifications”:{“on_start”:(“someone@example.com”),“on_success”:[],“on_failure”:[]}},“fields_to_remove”:(“库”]}
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
的内容update-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥。

请求结构

场的

类型

描述

job_id

INT64

规范标识符的更新工作。这个字段是必需的。

new_settings

JobSettings

新设置的工作。任何顶级字段中指定new_settings完全取代。不支持嵌套部分更新字段。

修改字段JobSettings.timeout_seconds应用于活跃的运行。更改其他领域应用于未来只运行。

fields_to_remove

一个数组的字符串

删除顶级字段设置的工作。移除不支持嵌套的字段。这个字段是可选的。

现在运行

重要的

你只能创造就业数据科学与工程工作区或一个机器学习的工作区。
1000个并发任务工作空间是有限的。一个429年太许多请求当你返回请求的响应不能立即开始运行。
就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。

端点	HTTP方法
`2.0 /工作/运行`	`帖子`

现在运行工作并返回run_id引发的运行。

提示

如果您调用创建在一起现在运行,你可以使用运行提交端点相反,它允许您直接提交你的工作负载,而无需创建一个工作。

例子

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行\——数据@run-job.json\|金桥。
             

run-job.json:

一个示例请求一个笔记本工作:

              {“job_id”:1,“notebook_params”:{“名称”:“john doe”,“年龄”:“35”}}
             

请求一个例子为一罐工作:

              {“job_id”:2,“jar_params”:(“john doe”,“35”]}
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
的内容run-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥。

请求结构

字段名	类型	描述
`job_id`	`INT64`
`jar_params`	一个数组的`字符串`	参数的工作与JAR任务列表,如`“jar_params”:["约翰母鹿”,“35”)`。参数将用于调用中指定的主类的主要功能火花JAR任务。如果未指定`现在`,它将默认为一个空列表。jar_params不能结合notebook_params指定。这个字段(即的JSON表示。`{“jar_params”:["约翰母鹿”、“35”)}`)不能超过10000个字节。
`notebook_params`	的地图ParamPair	与笔记本从键值映射工作任务,如。`“notebook_params”:{" name ":“约翰母鹿”,“年龄”:“35”}`。地图被传递到笔记本,可以通过dbutils.widgets.get函数。如果未指定`现在`,触发运行使用工作的基础参数。你不能指定notebook_params结合jar_params。这个字段(即的JSON表示。`{" notebook_params ":{“名称”:“约翰母鹿”、“年龄”:“35”}}`)不能超过10000个字节。
`python_params`	一个数组的`字符串`	与Python任务工作的参数列表,如`“python_params”:["约翰母鹿”,“35”)`。参数将被传递给Python文件作为命令行参数。如果指定在`现在`,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。`{“python_params”:["约翰母鹿”、“35”)}`)不能超过10000个字节。
`spark_submit_params`	一个数组的`字符串`	工作引发的参数列表提交的任务,例如`“spark_submit_params”:["——阶级”,“org.apache.spark.examples.SparkPi”)`。将参数传递给脚本spark-submit作为命令行参数。如果指定在`现在`,它将覆盖工作设置中指定的参数。这一领域的JSON表示不能超过10000个字节。
`idempotency_token`	`字符串`	一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。这个令牌必须有最多64个字符。例如,`“idempotency_token”:“123”`。

响应结构

字段名	类型	描述
`run_id`	`INT64`	新触发运行的全球惟一的ID。
`number_in_job`	`INT64`	序列号的运行在所有的运行工作。

运行提交

重要的

你只能创造就业数据科学与工程工作区或一个机器学习的工作区。
1000个并发任务工作空间是有限的。一个429年太许多请求当你返回请求的响应不能立即开始运行。
就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。

端点	HTTP方法
`2.0 /工作/运行/提交`	`帖子`

提交一次运行。这个端点允许你提交一个工作负载直接创建一个工作。使用工作/运行/API来检查工作提交后的运行状态。

例子

请求

               curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行/提交\——数据@submit-job.json\|金桥。
              

submit-job.json:

               {“run_name”:“我的任务”火花,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
的内容submit-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥。

响应

               {“run_id”:123年}
              

请求结构

重要的

当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名	类型	描述
`existing_cluster_id`或`new_cluster`	`字符串`或NewCluster	如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。如果new_cluster,集群的描述将被创建为每个运行。如果指定一个PipelineTask,那么这个字段可以是空的。
`notebook_task`或`spark_jar_task`或`spark_python_task`或`spark_submit_task`或`pipeline_task`或`run_job_task`	NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask	如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。如果spark_jar_task,表明这项工作应该运行一个罐子里。如果spark_python_task,表明这项工作应该运行Python文件。如果spark_submit_task,表明这项工作应该发起的火花提交脚本。如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。如果run_job_task,表明这项工作应该运行另一份工作。
`run_name`	`字符串`	一个可选的名称。默认值是`无标题的`。
`webhook_notifications`	WebhookNotifications	一组可选的系统通知目的地当这个工作开始运行,完成,或失败。
`notification_settings`	JobNotificationSettings	使用可选的通知设置在发送通知的`webhook_notifications`运行。
`库`	一个数组的图书馆	一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。
`timeout_seconds`	`INT32`	一个可选的超时应用于每次运行的工作。默认行为是没有超时。
`idempotency_token`	`字符串`	一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。这个令牌必须有最多64个字符。例如,`“idempotency_token”:“123”`。

响应结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符为新提交的运行。

运行清单

端点	HTTP方法
`2.0 /工作/运行/列表`	`得到`

运行在开始时间降序排列的列表。

请注意

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口。

例子

请求

               curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/列表? job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。
              

或者:

               curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/列表\——数据“job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<作业id >例如,与工作的ID123年。
《是非题》与真正的或假。
<抵消>与抵消价值。
<限制>与限制价值。
< run-type >与run_type价值。

这个示例使用. netrc文件和金桥。

响应

               {“运行”:({“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ donald@duck.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}),“has_more”:真正的}
              

请求结构

字段名	类型	描述
`active_only`或`completed_only`	`BOOL`或`BOOL`	如果active_only`真正的`,仅包括活跃的运行结果;否则,列出活动和运行完成。一个活跃的是跑`等待`,`运行`,或`终止`RunLifecycleState。该字段不能`真正的`当completed_only`真正的`。如果completed_only`真正的`,只有完成中包括运行结果;否则,列出活动和运行完成。该字段不能`真正的`当active_only`真正的`。
`job_id`	`INT64`	的工作运行。如果省略,就业服务将从所有工作列表。
`抵消`	`INT32`	第一次运行返回的抵消,相对于最近的运行。
`限制`	`INT32`	跑到返回的数量。这个值应大于0小于1000。默认值是20。如果请求指定的极限0,最大限度的服务将使用。
`run_type`	`字符串`	跑到返回的类型。运行类型的描述,请参阅运行。

响应结构

字段名	类型	描述
`运行`	一个数组的运行	运行的一个列表,从最近的开始。
`has_more`	`BOOL`	如果这是真的,额外的匹配滤波器可用于提供清单。

运行得到

端点	HTTP方法
`2.0 /工作/运行/`	`得到`

检索的元数据。

请注意

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口。

例子

请求

               curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/ ? run_id = <运行id > '\|金桥。
              

或者:

               curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/\——数据run_id=<运行id >\|金桥。
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<运行id >例如,与运行的ID123年。

这个示例使用. netrc文件和金桥。

响应

               {“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}
              

请求结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符的运行检索元数据。这个字段是必需的。

响应结构

字段名	类型	描述
`job_id`	`INT64`	规范标识符包含这个运行的工作。
`run_id`	`INT64`	规范化运行的标识符。这个ID是独特的在所有运行的所有工作。
`number_in_job`	`INT64`	序列号的运行在所有的运行工作。这个值从1开始。
`original_attempt_run_id`	`INT64`	如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。
`状态`	RunState	运行的结果和生命周期状态。
`时间表`	CronSchedule	触发这个运行的cron调度如果是引发的周期性调度程序。
`任务`	JobTask	执行的任务运行,如果任何。
`cluster_spec`	ClusterSpec	工作的快照的集群规范这个运行时创建的。
`cluster_instance`	ClusterInstance	集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。
`overriding_parameters`	RunParameters	用于此运行的参数。
`start_time`	`INT64`	这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。
`end_time`	`INT64`	这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。
`setup_duration`	`INT64`	时间以毫秒为单位设置集群。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。总运行时间的总和`setup_duration`,`execution_duration`,`cleanup_duration`。的`setup_duration`字段设置为0多任务工作运行。多任务工作运行的总时间的价值`run_duration`字段。
`execution_duration`	`INT64`	的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。总运行时间的总和`setup_duration`,`execution_duration`,`cleanup_duration`。的`execution_duration`字段设置为0多任务工作运行。多任务工作运行的总时间的价值`run_duration`字段。
`cleanup_duration`	`INT64`	以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和`setup_duration`,`execution_duration`,`cleanup_duration`。的`cleanup_duration`字段设置为0多任务工作运行。多任务工作运行的总时间的价值`run_duration`字段。
`run_duration`	`INT64`	时间以毫秒为单位的工作运行和它的所有维修完成。这个字段只设置运行,而不是任务运行多任务工作。一个任务运行的时间的总和`setup_duration`,`execution_duration`,`cleanup_duration`。
`触发`	TriggerType	触发发射这个运行的类型。
`creator_user_name`	`字符串`	造物主的用户名。这个领域不会包含在响应中如果用户已经删除
`run_page_url`	`字符串`	运行的详细信息页面的URL。

经营出口

端点	HTTP方法
`2.0 /工作/运行/出口`	`得到`

出口和检索工作运行的任务。

请注意

只能出口笔记本运行在HTML格式。出口的其他类型将会失败。

例子

请求

               curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/出口? run_id = <运行id > '\|金桥。
              

或者:

               curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/出口\——数据run_id=<运行id >\|金桥。
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<运行id >例如,与运行的ID123年。

这个示例使用. netrc文件和金桥。

响应

               {“视图”:({“内容”:“< !html DOCTYPE html > < > < >负责人< /头> <身体> < /身体> < / html >”,“名称”:“我的笔记本”,“类型”:“笔记本”}]}
              

从JSON响应中提取的HTML的笔记本,下载并运行Python脚本。

请注意

笔记本的身体__DATABRICKS_NOTEBOOK_MODEL对象是编码。

请求结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符。这个字段是必需的。
`views_to_export`	ViewsToExport	这观点出口(代码、仪表板或全部)。默认的代码。

响应结构

字段名	类型	描述
`的观点`	一个数组的ViewItem	在HTML格式导出的内容(一个为每个视图条目)。

取消运行

端点	HTTP方法
`2.0 /工作/运行/取消`	`帖子`

取消工作运行。因为取消了异步运行,运行这个请求完成时可能仍在运行。运行不久将被终止。如果已经在一个终端运行life_cycle_state,这个方法是一个空操作。

这个端点确认run_id参数是有效的和无效的参数返回HTTP状态代码400。

例子

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行/取消\——数据”{“run_id”: <运行id >}’
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<运行id >例如,与运行的ID123年。

这个示例使用. netrc文件。

请求结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符的取消。这个字段是必需的。

取消所有运行

端点	HTTP方法
`2.0 /工作/运行/取消所有`	`帖子`

取消所有活动的工作。因为取消了异步运行,它不会阻止新的运行开始。

这个端点确认job_id参数是有效的和无效的参数返回HTTP状态代码400。

例子

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行/取消所有\——数据”{“job_id”: <作业id >}’
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<作业id >例如,与工作的ID123年。

这个示例使用. netrc文件。

请求结构

字段名	类型	描述
`job_id`	`INT64`	规范化作业取消所有运行的标识符。这个字段是必需的。

运行得到的输出

端点	HTTP方法
`2.0 /工作/运行/输出`	`得到`

检索一个任务的输出和元数据。当一个笔记本任务通过返回一个值dbutils.notebook.exit ()电话,您可以使用该端点来检索该值。砖限制这个API返回的输出的第一个5 MB。对于返回一个更大的结果,您可以工作结果存储在云存储服务。

这个端点确认run_id参数是有效的和无效的参数返回HTTP状态代码400。

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口。

例子

请求

               curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/输出? run_id = <运行id > '\|金桥。
              

或者:

               curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/输出\——数据run_id=<运行id >\|金桥。
              

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<运行id >例如,与运行的ID123年。

这个示例使用. netrc文件和金桥。

响应

               {“元数据”:{“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“终止”,“result_state”:“成功”,“state_message”:”“},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”},“notebook_output”:{“结果”:“也许截断字符串传递给dbutils.notebook.exit ()}}
              

请求结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符。找工作与mulitple任务,这是`run_id`任务的运行。看到运行得到的输出。这个字段是必需的。

响应结构

字段名

类型

描述

notebook_output或错误

NotebookOutput或字符串

如果notebook_output,笔记本的输出任务,如果可用。一个笔记本任务终止(成功或失败)没有打电话dbutils.notebook.exit ()被认为有一个空的输出。该字段将被设置,但其结果值将是空的。

如果错误,一个错误消息指示输出不可用的原因。非结构化信息,和它的确切格式都可能发生变化。

元数据

运行

所有的细节除了运行它的输出。

运行删除

端点	HTTP方法
`2.0 /工作/运行/删除`	`帖子`

删除一个稳定的运行。返回一个错误如果运行活动。

例子

              curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行/删除\——数据”{“run_id”: <运行id >}’
             

替换:

< databricks-instance >与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com。
<运行id >例如,与运行的ID123年。

这个示例使用. netrc文件。

请求结构

字段名	类型	描述
`run_id`	`INT64`	规范标识符的运行检索元数据。

数据结构

在本节中:

自动定量

集群范围定义的最小和最大数量的工人。

字段名	类型	描述
`min_workers`	`INT32`	工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。
`max_workers`	`INT32`	工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。

ClusterInstance

集群和火花上下文标识符使用的运行。这两个值一起识别执行上下文的所有时间。

字段名

类型

描述

cluster_id

字符串

规范标识符使用的集群运行。这个领域一直是用于现有的集群上运行。新的集群上运行,它可用一次创建集群。这个值可以用来查看日志通过浏览/ / sparkui / $ cluster_id / driver-logs #设置。可用的日志将继续运行完成后。

响应不包括这个领域如果还没有可用的标识符。

spark_context_id

字符串

规范标识符使用的上下文。这个领域将填写一旦运行开始执行。这个值可以用来查看火花UI通过浏览/ #设置/ sparkui / cluster_id / spark_context_id美元。火花UI将继续在运行完成后可用。

响应不包括这个领域如果还没有可用的标识符。

ClusterLogConf

集群日志路径。

字段名	类型	描述
	DbfsStorageInfo	DBFS集群日志的位置。必须提供目的地。例如,`{“dbfs”:{“目的地”:“dbfs: / home / cluster_log”}}`

ClusterSpec

重要的

当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名

类型

描述

existing_cluster_id或new_cluster

字符串或NewCluster

如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。

如果new_cluster,集群的描述将被创建为每个运行。

如果指定一个PipelineTask,那么这个字段可以是空的。

库

一个数组的图书馆

一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。

ClusterTag

集群标签定义。

CronSchedule

字段名	类型	描述
`quartz_cron_expression`	`字符串`	一个Cron表达式使用石英语法描述安排一份工作。看到Cron触发获取详细信息。这个字段是必需的。
`timezone_id`	`字符串`	Java时区ID。工作时间表将会解决关于这个时区。看到Java时区获取详细信息。这个字段是必需的。
`pause_status`	`字符串`	指示是否这个计划暂停。“暂停”或“停顿”。

DbfsStorageInfo

DBFS存储信息。

字段名	类型	描述
`目的地`	`字符串`	DBFS目的地。例子:`dbfs: /我/路径`

FileStorageInfo

文件存储信息。

请注意

这个位置类型只能为集群设置使用砖容器服务。

字段名	类型	描述
`目的地`	`字符串`	文件的目的地。例子:`文件:/我/ file.sh`

GCSStorageInfo

谷歌云存储(GCS)存储信息。

字段名	类型	描述
`目的地`	`字符串`	文件的目的地。例子:`g: / /……`

谷歌云属性

属性设置集群创建期间有关谷歌云。

字段名	类型	描述
`use_preemptible_executors`	`BOOL`	使用抢占的执行人。
`google_service_account`	`字符串`	集群使用谷歌服务帐户的电子邮件地址与谷歌身份验证。这个字段用于身份验证的GCS和BigQuery数据源。
`boot_disk_size`	`INT32`	大小,以GB磁盘的分配给每个实例。这个值必须在100 - 4096之间。

重要的

使用与GCS和BigQuery谷歌服务帐户,你使用访问数据源必须位于同一个项目时指定的SA建立你的砖账户。

InitScriptInfo

一个init脚本。

请注意

文件存储类型(字段名:文件)只能用于集群设置使用砖容器服务。看到FileStorageInfo。

字段名

类型

描述

工作空间或dbfs(弃用)

或gcs

WorkspaceStorageInfo

DbfsStorageInfo(弃用)

GCSStorageInfo

init脚本的工作区位置。必须提供目的地。例如,{“工作区”:{“目的地”:“/用户/ someone@domain.com/init_script.sh”}}

(弃用)DBFS init脚本的位置。必须提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / init_script”}}

谷歌云存储(GCS) init脚本的位置。必须提供目的地。例如,{“gs”:{“目的地”:“gs: / /……”}}

工作

字段名	类型	描述
`job_id`	`INT64`	这个工作的规范标识符。
`creator_user_name`	`字符串`	造物主的用户名。这个领域不会包含在响应中如果用户已经删除。
`run_as`	`字符串`	用户名,作业将运行。`run_as`是基于当前的工作设置,并将工作,如果工作的创造者访问控制被禁用,或者是吗`is_owner`如果启用了访问控制工作许可。
`设置`	JobSettings	和它的所有运行设置这个工作。这些设置可以更新使用`resetJob`方法。
`created_time`	`INT64`	这个工作的时间成立于时代毫秒(毫秒因为1/1/1970 UTC)。

JobEmailNotifications

重要的

on_start, on_success和on_failure字段只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

字段名	类型	描述
`on_start`	一个数组的`字符串`	电子邮件地址的列表通知运行时就开始了。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。
`on_success`	一个数组的`字符串`	电子邮件地址的列表成功运行完成时得到通知。跑步被认为是成功完成如果结尾`终止life_cycle_state`和一个`成功的result_state`。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。
`on_failure`	一个数组的`字符串`	电子邮件地址的列表通知运行时没有成功完成。跑步被认为已经完成了如果它以一个失败`INTERNAL_ERRORlife_cycle_state`或者一个`跳过`,`失败的`,或`TIMED_OUT`result_state。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。
`on_duration_warning_threshold_exceeded`	一个数组的`字符串`	一个被通知的电子邮件地址列表当运行的持续时间超过指定的阈值`RUN_DURATION_SECONDS`规的`健康`字段。如果没有规则的`RUN_DURATION_SECONDS`度量中指定`健康`领域的工作,不发送通知。
`no_alert_for_skipped_runs`	`BOOL`	如果这是真的,不发送电子邮件收件人中指定`on_failure`如果运行跳过。

字段名	类型	描述
`on_start`	一个数组的Webhook	一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地`on_start`财产。
`on_success`	一个数组的Webhook	一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾`终止life_cycle_state`和一个`成功的result_state`。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地`on_success`财产。
`on_failure`	一个数组的Webhook	一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败`INTERNAL_ERRORlife_cycle_state`或者一个`跳过`,`失败的`,或`TIMED_OUT`result_state。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。最多3可以指定的目的地`on_failure`财产。
`on_duration_warning_threshold_exceeded`	一个数组的Webhook	一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值`RUN_DURATION_SECONDS`规的`健康`字段。最多3可以指定的目的地`on_duration_warning_threshold_exceeded`财产。

JobNotificationSettings

字段名	类型	描述
`no_alert_for_skipped_runs`	`BOOL`	如果这是真的,不发送通知中指定的收件人`on_failure`如果运行跳过。
`no_alert_for_canceled_runs`	`BOOL`	如果这是真的,不发送通知中指定的收件人`on_failure`如果运行的是取消了。
`alert_on_last_attempt`	`BOOL`	如果这是真的,不发送通知中指定的收件人`on_start`重试运行和不发送通知中指定的收件人`on_failure`直到最后运行的重试。

JobSettings

重要的

当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

设置工作。这些设置可以更新使用resetJob方法。

字段名	类型	描述
`existing_cluster_id`或`new_cluster`	`字符串`或NewCluster	如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。如果new_cluster,集群的描述将被创建为每个运行。如果指定一个PipelineTask,那么这个字段可以是空的。
`notebook_task`或`spark_jar_task`或`spark_python_task`或`spark_submit_task`或`pipeline_task`或`run_job_task`	NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask	如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。如果spark_jar_task,表明这项工作应该运行一个罐子里。如果spark_python_task,表明这项工作应该运行Python文件。如果spark_submit_task,表明这项工作应该发起的火花提交脚本。如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。如果run_job_task,表明这项工作应该运行另一份工作。
`的名字`	`字符串`	一个可选的名字。默认值是`无标题的`。
`库`	一个数组的图书馆	一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。
`email_notifications`	JobEmailNotifications	一个可选的组运行时会通知的电子邮件地址的这个工作开始或完成这份工作时被删除。默认行为是不发送任何电子邮件。
`webhook_notifications`	WebhookNotifications	一组可选的系统通知目的地当这个工作开始运行,完成,或失败。
`notification_settings`	JobNotificationSettings	使用可选的通知设置在发送通知的`email_notifications`和`webhook_notifications`对于这个工作。
`timeout_seconds`	`INT32`	一个可选的超时应用于每次运行的工作。默认行为是没有超时。
`max_retries`	`INT32`	一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的`失败的`result_state或`INTERNAL_ERRORlife_cycle_state`。值1的意思是无限期重试,值0意味着永不重试。默认行为是不重试。
`min_retry_interval_millis`	`INT32`	一个可选的尝试之间的最小间隔时间以毫秒为单位。默认行为是成功运行立即重试。
`retry_on_timeout`	`BOOL`	一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。
`时间表`	CronSchedule	一个可选的周期安排这项工作。默认行为是引发的作业只会运行时点击“运行”的工作界面或发送一个API请求`runNow`。
`max_concurrent_runs`	`INT32`	一个可选的最大允许并发运行的作业的数量。设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行时将被忽略,除非有少于3活跃。这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。
`健康`	JobsHealthRules	定义一组可选的卫生规则。

JobTask

字段名

类型

描述

notebook_task或spark_jar_task或spark_python_task或spark_submit_task或pipeline_task或run_job_task

NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask

如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。

如果spark_jar_task,表明这项工作应该运行一个罐子里。

如果spark_python_task,表明这项工作应该运行Python文件。

如果spark_submit_task,表明这项工作应该发起的火花提交脚本。

如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。

如果run_job_task,表明这项工作应该运行另一份工作。

JobsHealthRule

字段名	类型	描述
`度规`	`字符串`	指定的卫生指标评估特定卫生规则。有效的值`RUN_DURATION_SECONDS`。
`操作符`	`字符串`	指定操作符用于比较健康度量值与指定的阈值。有效的值`GREATER_THAN`。
`价值`	`INT32`	指定的阈值,卫生指标应满足遵守卫生规则。

JobsHealthRules

字段名	类型	描述
`规则`	一个数组的JobsHealthRule	一组可选的卫生规则,可以定义一个工作。

图书馆

字段名

类型

描述

jar或蛋或whl或pypi或maven或凹口

字符串或字符串或字符串或PythonPyPiLibrary或MavenLibrary或RCranLibrary

如果jar, URI的jar安装。DBFS和GCS (gs支持)的uri。例如:{“罐子”:“dbfs: / mnt /砖/ library.jar”}或{“罐子”:“gs: / /桶/ library.jar”}。如果使用gc,确保集群在图书馆读访问。

如果鸡蛋,鸡蛋的URI被安装。支持DBFS和GCS uri。例如:{“蛋”:“dbfs: /我的/蛋”}或{“蛋”:“gs: / /桶/蛋”}。

如果whl, URI的车轮或压缩安装车轮。支持DBFS和GCS uri。例如:{“whl”:“dbfs: /我的/ whl”}或{“whl”:“gs: / /桶/ whl”}。如果使用gc,确保集群在图书馆读访问。轮文件名需要使用正确的公约。如果要安装压缩轮子,文件名后缀.wheelhouse.zip。

如果pypi, pypi库安装的规范。指定回购字段是可选的,如果没有指定,默认使用脉冲指数。例如:{“包”:“simplejson”,“回购”:“https://my-repo.com”}

如果maven, maven库安装的规范。例如:{“坐标”:“org.jsoup: jsoup: 1.7.2”}

如果凹口,凹口库安装的规范。

MavenLibrary

请注意

Maven库支持砖运行时7.3 LTS(没有其他7。x版本)和8.1以上。

字段名

类型

描述

坐标

字符串

Gradle-style Maven坐标。例如:org.jsoup: jsoup:是1.7.2。这个字段是必需的。

回购

字符串

Maven回购安装Maven寄来的包裹。如果省略,Maven中央存储库和引发搜索包。

除外责任

一个数组的字符串

依赖性排除列表。例如:[" slf4j: slf4j”,“* hadoop-client”):。

Maven依赖除外责任:https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html。

NewCluster

字段名	类型	描述
`num_workers`或`自动定量`	`INT32`或自动定量	如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。当阅读一个集群的属性,这个领域反映所需的工人数量而不是工人数量的实际电流。例如,如果一个集群的大小从5到10的工人,这一领域将立即被更新以反映目标大小为10的工人,而工人们中列出`spark_info`将逐渐增加从5到10新节点配置。如果自动定量,必需的参数自动上下规模集群基于负载。
`spark_version`	`字符串`	集群的火花版本。可用火花版本的列表可以通过使用检索得到2.0 /集群/ spark-versions调用。这个字段是必需的。
`spark_conf`	SparkConfPair	一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项`spark.driver.extraJavaOptions`和`spark.executor.extraJavaOptions`分别。火花参看示例:`{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}`或`{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}`
`gcp_attributes`	谷歌云属性	属性相关的集群上运行谷歌云。如果没有指定在创建集群,将使用默认值。
`node_type_id`	`字符串`	这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索得到2.0 /集群/ list-node-types调用。这个领域,`instance_pool_id`字段或一个集群政策,指定一个节点类型ID或实例池ID,是必需的。
`driver_node_type_id`	`字符串`	火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值`node_type_id`上面的定义。
`ssh_public_keys`	一个数组的`字符串`	设置为空数组。不支持集群SSH。
`custom_tags`	ClusterTag	总是设置为空数组。
`cluster_log_conf`	ClusterLogConf	长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果配置,日志将被交付给每一个目的地`5分钟`。司机日志的目的地`<目标> / < cluster-id > /司机`的目的地,而执行者日志`<目标> / < cluster-id > /执行器`。
`init_scripts`	一个数组的InitScriptInfo	存储的配置初始化脚本。可以指定任意数量的脚本。所提供的脚本的顺序执行。如果`cluster_log_conf`指定,init脚本日志发送到吗`<目标> / < cluster-id > / init_scripts`。
`spark_env_vars`	SparkEnvPair	一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(即,`出口X = Y`),而司机和工人。指定一组额外的`SPARK_DAEMON_JAVA_OPTS`,我们建议追加`SPARK_DAEMON_JAVA_OPTS美元`如以下示例所示。这确保了所有默认砖管理包括环境变量。示例引发环境变量:`{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}`或`{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}`
`enable_elastic_disk`	`BOOL`	Akways设置为false。
`instance_pool_id`	`字符串`	可选的ID用于集群节点实例池。指的是实例池API获取详细信息。

NotebookOutput

字段名	类型	描述
`结果`	`字符串`	值传递给dbutils.notebook.exit ()。砖限制这个API返回的第一个1 MB值。对于一个更大的结果,你的工作可以将结果存储在云存储服务。这一领域将会缺席`dbutils.notebook.exit ()`从来没有叫。
`截断`	`布尔`	不管结果是截断。

NotebookTask

所有输出细胞受到8 mb的大小。如果一个细胞的输出有较大的尺寸,其余的将被取消,跑将标记为失败。在这种情况下,一些内容的输出从其他细胞也可能丢失。

字段名

类型

描述

notebook_path

字符串

绝对路径的笔记本运行砖工作区。这条路必须开始削减。这个字段是必需的。

revision_timestamp

长

修改的时间戳的笔记本。

base_parameters

的地图ParamPair

基础参数用于每次运行的工作。如果是由调用运行现在参数指定的两个参数地图将被合并。如果指定相同的密钥base_parameters而在现在的价值现在就会被使用。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

如果没有指定的笔记本需要一个参数在工作的base_parameters或者是现在覆盖参数,从笔记本将使用默认值。

获取这些参数在一个笔记本使用dbutils.widgets.get。

ParamPair

笔记本运行基于名称的参数作业任务。

重要的

这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

类型	描述
`字符串`	参数名称。传递给dbutils.widgets.get来检索值。
`字符串`	参数值。

PipelineTask

字段名	类型	描述
`pipeline_id`	`字符串`	三角洲的全称生活表管道任务执行。

PythonPyPiLibrary

字段名	类型	描述
`包`	`字符串`	的名字PyPI包安装。还支持一个可选的版本规范。例子:`simplejson`和`simplejson = = 3.8.0`。这个字段是必需的。
`回购`	`字符串`	可以找到包的存储库。如果没有指定,默认使用脉冲指数。

RCranLibrary

字段名	类型	描述
`包`	`字符串`	凹口的名字包安装。这个字段是必需的。
`回购`	`字符串`	可以找到包的存储库。如果没有指定,默认使用凹口回购。

运行

所有的信息除了它的输出。输出可以分别与检索getRunOutput方法。

字段名	类型	描述
`job_id`	`INT64`	规范标识符包含这个运行的工作。
`run_id`	`INT64`	规范化运行的标识符。这个ID是独特的在所有运行的所有工作。
`creator_user_name`	`字符串`	造物主的用户名。这个领域不会包含在响应中如果用户已经删除。
`number_in_job`	`INT64`	序列号的运行在所有的运行工作。这个值从1开始。
`original_attempt_run_id`	`INT64`	如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。
`状态`	RunState	运行的结果和生命周期状态。
`时间表`	CronSchedule	触发这个运行的cron调度如果是引发的周期性调度程序。
`任务`	JobTask	执行的任务运行,如果任何。
`cluster_spec`	ClusterSpec	工作的快照的集群规范这个运行时创建的。
`cluster_instance`	ClusterInstance	集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。
`overriding_parameters`	RunParameters	用于此运行的参数。
`start_time`	`INT64`	这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。
`setup_duration`	`INT64`	设置集群的时间,以毫秒为单位。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。
`execution_duration`	`INT64`	的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。
`cleanup_duration`	`INT64`	以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和setup_duration, execution_duration, cleanup_duration。
`end_time`	`INT64`	这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。
`触发`	TriggerType	触发发射这个运行的类型。
`run_name`	`字符串`	一个可选的名称。默认值是`无标题的`。最大允许长度是4096字节utf - 8编码。
`run_page_url`	`字符串`	运行的详细信息页面的URL。
`run_type`	`字符串`	运行的类型。 `JOB_RUN`——正常工作运行。创建一个运行与现在运行。 `WORKFLOW_RUN`——工作流运行。创建一个运行与dbutils.notebook.run。 `SUBMIT_RUN`——提交运行。创建一个运行与现在运行。
`attempt_number`	`INT32`	序列号的尝试引发工作跑。的初始尝试运行的attempt_number 0。如果初始运行失败,工作有一个重试策略(`max_retries`> 0),随后创建一个运行`original_attempt_run_id`最初的尝试的ID和一个递增`attempt_number`。运行仅重试,直到他们成功,最大`attempt_number`是一样的吗`max_retries`价值的工作。

RunJobTask

字段名	类型	描述
`job_id`	`INT32`	工作的惟一标识符。这个字段是必需的。

RunLifeCycleState

的生命周期状态运行。允许状态转换:

等待- >运行- >终止- >终止
等待- >跳过
等待- >INTERNAL_ERROR
运行- >INTERNAL_ERROR
终止- >INTERNAL_ERROR

状态	描述
`等待`	运行触发。如果没有一个活跃的运行相同的工作,集群正在准备和执行上下文。如果已经有一个活跃的运行相同的工作,运行就会立即进入`跳过`国家没有准备任何资源。
`运行`	正在运行的任务执行。
`终止`	这个运行的任务已经完成,集群和执行上下文被清理干净。
`终止`	这个运行的任务已经完成,集群和执行上下文已经清理干净。这个状态是终端。
`跳过`	这流产是因为先前跑同样的工作已经活跃。这个状态是终端。
`INTERNAL_ERROR`	异常状态,表示失败的工作服务,如长期网络故障。如果一个运行在一个新的集群中结束`INTERNAL_ERROR`状态,就业服务尽快终止集群。这个状态是终端。

RunParameters

这个运行参数。只有jar_params之一,python_params,或者notebook_params应该中指定现在请求,这取决于类型的工作任务。工作与火花JAR任务或Python任务列表的定位参数,使用笔记本电脑和工作任务键值映射。

字段名	类型	描述
`jar_params`	一个数组的`字符串`	参数列表工作与火花JAR任务,例如`“jar_params”:["约翰母鹿”,“35”)`。参数将用于调用中指定的主类的主要功能火花JAR任务。如果未指定`现在`,它将默认为一个空列表。jar_params不能结合notebook_params指定。这个字段(即的JSON表示。`{“jar_params”:["约翰母鹿”、“35”)}`)不能超过10000个字节。使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。
`notebook_params`	的地图ParamPair	与笔记本从键值映射工作任务,如。`“notebook_params”:{" name ":“约翰母鹿”,“年龄”:“35”}`。地图被传递到笔记本,可以通过dbutils.widgets.get函数。如果未指定`现在`,触发运行使用工作的基础参数。 notebook_params不能结合jar_params指定。使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。这个字段(即的JSON表示。`{" notebook_params ":{“名称”:“约翰母鹿”、“年龄”:“35”}}`)不能超过10000个字节。
`python_params`	一个数组的`字符串`	与Python任务工作的参数列表,如`“python_params”:["约翰母鹿”,“35”)`。参数传递到Python文件作为命令行参数。如果指定在`现在`,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。`{“python_params”:["约翰母鹿”、“35”)}`)不能超过10000个字节。使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。重要的这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。
`spark_submit_params`	一个数组的`字符串`	工作引发的参数列表提交的任务,例如`“spark_submit_params”:["——阶级”,“org.apache.spark.examples.SparkPi”)`。参数传递给脚本spark-submit作为命令行参数。如果指定在`现在`,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。`{“python_params”:["约翰母鹿”、“35”)}`)不能超过10000个字节。使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。重要的这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

RunResultState

的结果状态运行。

如果life_cycle_state=终止:如果有一个任务运行,结果是保证是可用的,它表明任务的结果。
如果life_cycle_state=等待,运行,或跳过,结果不可用状态。
如果life_cycle_state=终止或lifecyclestate =INTERNAL_ERROR:结果状态可用如果运行一个任务和管理开始。

一旦可用,结果状态不会改变。

状态	描述
`成功`	任务成功完成。
`失败的`	任务完成的一个错误。
`TIMEDOUT`	达到超时后运行停止。
`取消了`	运行在用户请求被取消了。

RunState

字段名	类型	描述
`life_cycle_state`	RunLifeCycleState	的描述运行的运行生命周期中的当前位置。这个领域在响应中总是可用的。
`result_state`	RunResultState	的结果状态运行。如果不可用,反应不包括这个领域。看到RunResultState对细节result_state的可用性。
`user_cancelled_or_timedout`	`布尔`	由用户手动运行是否被取消或调度程序,因为运行超时。
`state_message`	`字符串`	当前状态的描述性信息。这个字段是结构化的,它的确切格式是可能发生变化。

SparkConfPair

火花配置键-值对。

类型	描述
`字符串`	配置属性的名称。
`字符串`	配置属性值。

SparkEnvPair

引发环境变量键-值对。

重要的

当指定环境变量的工作集群,这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

类型	描述
`字符串`	一个环境变量的名字。
`字符串`	环境变量的值。

SparkJarTask

字段名

类型

描述

jar_uri

字符串

自04/2016弃用。提供一个jar通过库字段。例如,看到的创建。

main_class_name

字符串

类的全名包含要执行的主要方法。这个类必须包含在一个JAR作为图书馆提供。

代码应该使用SparkContext.getOrCreate获得一个火花上下文;否则,运行的作业将失败。

参数

一个数组的字符串

传递的参数的主要方法。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

SparkPythonTask

字段名

类型

描述

python_file

字符串

执行Python文件的URI。DBFS路径支持。这个字段是必需的。

参数

一个数组的字符串

命令行参数传递给Python文件。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

SparkSubmitTask

重要的

您可以调用火花提交任务只有在新的集群。
new_cluster规范中,库和spark_conf不受支持。相反,使用——罐子和——py-files添加Java和Python库——设计设置火花配置。
主,deploy-mode,executor-cores是由砖自动配置;你不能指定参数。
默认情况下,火花提交工作使用所有可用的内存(不含砖服务保留内存)。你可以设置——driver-memory,——executor-memory一个较小的值,留一些余地堆使用。
的——罐子,——py-files,——文件参数支持DBFS路径。

例如,假设JAR DBFS上传,您可以运行SparkPi通过设置以下参数。

              {“参数”:(”——阶级”,“org.apache.spark.examples.SparkPi”,“dbfs: /道路/ / examples.jar”,“10”]}
             

字段名

类型

描述

参数

一个数组的字符串

命令行参数传递给火花提交。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

TriggerType

这些类型的触发器可以运行。

类型	描述
`周期`	安排定期引发运行时,比如一个cron调度程序。
`ONE_TIME`	一个火一个运行时间触发。发生这种情况你触发了一个运行在通过UI需求或API。
`重试`	表明一个运行触发的重试之前运行失败。这发生在你请求重新运行工作的失败。

ViewItem

导出的内容是在HTML格式。例如,如果视图导出仪表板,一个HTML字符串返回每一个仪表板。

字段名	类型	描述
`内容`	`字符串`	视图的内容。
`的名字`	`字符串`	视图项的名称。在代码视图的情况下,笔记本电脑的名字。在仪表板视图,仪表板的名字。
`类型`	ViewType	视图条目的类型。

ViewType

类型	描述
`笔记本`	笔记本查看项目。
`指示板`	仪表板视图条目。

ViewsToExport

视图导出:要么代码,所有仪表板,或全部。

类型	描述
`代码`	笔记本的代码视图。
`指示板`	所有仪表板视图的笔记本。
`所有`	笔记本的所有视图。

Webhook

字段名	类型	描述
`id`	`字符串`	标识符引用系统通知目的地。这个字段是必需的。

WebhookNotifications

字段名	类型	描述
`on_start`	一个数组的Webhook	一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地`on_start`财产。
`on_success`	一个数组的Webhook	一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾`终止life_cycle_state`和一个`成功的result_state`。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地`on_success`财产。
`on_failure`	一个数组的Webhook	一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败`INTERNAL_ERRORlife_cycle_state`或者一个`跳过`,`失败的`,或`TIMED_OUTresult_state`。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。最多3可以指定的目的地`on_failure`财产。
`on_duration_warning_threshold_exceeded`	一个数组的Webhook	一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值`RUN_DURATION_SECONDS`规的`健康`字段。最多3可以指定的目的地`on_duration_warning_threshold_exceeded`财产。

WorkspaceStorageInfo

工作区存储信息。

字段名	类型	描述
`目的地`	`字符串`	文件的目的地。例子:`/用户/ someone@domain.com/init_script.sh`