乔布斯API 2.0
就业API允许您创建、编辑和删除工作。一个请求到工作的最大允许大小API是10 mb。
对细节的更新工作API,支持多个任务的编排与砖工作,明白了乔布斯API更新。
警告
千万不要硬编码秘密或者存储在纯文本。使用秘密的API管理的秘密砖CLI。使用秘密效用(dbutils.secrets)引用在笔记本和工作秘密。
请注意
如果你收到一个500级的错误做乔布斯API请求时,砖建议重试请求10分钟(重试之间至少30秒时间间隔)。
重要的
访问数据砖REST api,你必须进行身份验证。
创建
端点 |
HTTP方法 |
---|---|
|
|
创建一个新工作。
例子
这个示例创建一个工作运行JAR任务10:15pm每晚。
请求
curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/创建\——数据@create-job.json\|金桥。
create-job.json
:
{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:3600年,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。的内容
create-job.json
与字段,适合您的解决方案。
请求结构
重要的
当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。 如果new_cluster,集群的描述将被创建为每个运行。 如果指定一个PipelineTask,这个领域可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。 如果spark_jar_task,表明这项工作应该运行一个罐子里。 如果spark_python_task,表明这项工作应该运行Python文件。 如果spark_submit_task,表明这项工作应该发起的火花提交脚本。 如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。 如果run_job_task,表明这项工作应该运行另一份工作。 |
|
|
一个可选的名字。默认值是 |
|
一个数组的图书馆 |
一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。 |
|
一组可选的电子邮件地址通知当运行这个工作开始和完成时,这项工作被删除。默认行为是不发送任何电子邮件。 |
|
|
一组可选的系统通知目的地当这个工作开始运行,完成,或失败。 |
|
|
使用可选的通知设置在发送通知的 |
|
|
|
一个可选的超时应用于每次运行的工作。默认行为是没有超时。 |
|
|
一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的 |
|
|
之间的一个可选的最小间隔时间以毫秒为单位的失败和随后的重试跑。默认行为是成功运行立即重试。 |
|
|
一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。 |
|
一个可选的周期安排这项工作。默认行为是工作运行时通过点击触发现在运行在工作界面或发送一个API请求 |
|
|
|
一个可选的最大允许并发运行的作业的数量。 设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。 这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行跳过除非有少于3活跃。 这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。 |
列表
端点 |
HTTP方法 |
---|---|
|
|
列出所有工作。
例子
请求
curl——netrc请求\https:// < databricks-instance > / api / 2.0 /工作/列表\|金桥。
取代< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。
响应
{“工作”:({“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}]}
响应结构
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的工作 |
工作列表。 |
删除
端点 |
HTTP方法 |
---|---|
|
|
删除一个工作,发送一封电子邮件到指定的地址JobSettings.email_notifications
。如果发生任何行动工作已经被移除。工作是删除之后,它的细节和其运行的历史是可见的UI或API的工作。这份工作是保证完成这个请求删除。然而,运行前活动收到这个请求可能仍然是活跃的。他们将终止异步。
得到
端点 |
HTTP方法 |
---|---|
|
|
检索信息的一个工作。
例子
请求
curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/ ? job_id = <作业id > '\|金桥。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/\——数据job_id=<作业id >\|金桥。
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。<作业id >
例如,与工作的ID123年
。
响应
{“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}
重置
端点 |
HTTP方法 |
---|---|
|
|
覆盖所有设置为一个特定的工作。使用更新端点设置部分更新工作。
例子
这个示例请求使工作2相同的工作1创建的例子。
curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/重置\——数据@reset-job.json\|金桥。
reset-job.json
:
{“job_id”:2,“new_settings”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。的内容
reset-job.json
与字段,适合您的解决方案。
更新
端点 |
HTTP方法 |
---|---|
|
|
添加、更改或删除现有工作的特定设置。使用重置端点覆盖所有工作设置。
例子
这个示例请求添加库和删除电子邮件通知设置中定义的工作1创建的例子。
curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/更新\——数据@update-job.json\|金桥。
update-job.json
:
{“job_id”:1,“new_settings”:{“existing_cluster_id”:“1201 -我的集群”,“email_notifications”:{“on_start”:(“someone@example.com”),“on_success”:[],“on_failure”:[]}},“fields_to_remove”:(“库”]}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。的内容
update-job.json
与字段,适合您的解决方案。
现在运行
重要的
你只能创造就业数据科学与工程工作区或一个机器学习的工作区。
1000个并发任务工作空间是有限的。一个
429年太许多请求
当你返回请求的响应不能立即开始运行。就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。
端点 |
HTTP方法 |
---|---|
|
|
现在运行工作并返回run_id
引发的运行。
例子
curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行\——数据@run-job.json\|金桥。
run-job.json
:
一个示例请求一个笔记本工作:
{“job_id”:1,“notebook_params”:{“名称”:“john doe”,“年龄”:“35”}}
请求一个例子为一罐工作:
{“job_id”:2,“jar_params”:(“john doe”,“35”]}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。的内容
run-job.json
与字段,适合您的解决方案。
请求结构
字段名 |
类型 |
描述 |
---|---|---|
|
|
|
|
一个数组的 |
参数的工作与JAR任务列表,如 |
|
的地图ParamPair |
与笔记本从键值映射工作任务,如。 如果未指定 你不能指定notebook_params结合jar_params。 这个字段(即的JSON表示。 |
|
一个数组的 |
与Python任务工作的参数列表,如 |
|
一个数组的 |
工作引发的参数列表提交的任务,例如 |
|
|
一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。 如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。 这个令牌必须有最多64个字符。 例如, |
运行提交
重要的
你只能创造就业数据科学与工程工作区或一个机器学习的工作区。
1000个并发任务工作空间是有限的。一个
429年太许多请求
当你返回请求的响应不能立即开始运行。就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。
端点 |
HTTP方法 |
---|---|
|
|
提交一次运行。这个端点允许你提交一个工作负载直接创建一个工作。使用工作/运行/
API来检查工作提交后的运行状态。
例子
请求
curl——netrc POST请求\https:// < databricks-instance > / api / 2.0 /工作/运行/提交\——数据@submit-job.json\|金桥。
submit-job.json
:
{“run_name”:“我的任务”火花,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。的内容
submit-job.json
与字段,适合您的解决方案。
请求结构
重要的
当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。 如果new_cluster,集群的描述将被创建为每个运行。 如果指定一个PipelineTask,那么这个字段可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。 如果spark_jar_task,表明这项工作应该运行一个罐子里。 如果spark_python_task,表明这项工作应该运行Python文件。 如果spark_submit_task,表明这项工作应该发起的火花提交脚本。 如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。 如果run_job_task,表明这项工作应该运行另一份工作。 |
|
|
一个可选的名称。默认值是 |
|
一组可选的系统通知目的地当这个工作开始运行,完成,或失败。 |
|
|
使用可选的通知设置在发送通知的 |
|
|
一个数组的图书馆 |
一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。 |
|
|
一个可选的超时应用于每次运行的工作。默认行为是没有超时。 |
|
|
一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。 如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。 这个令牌必须有最多64个字符。 例如, |
运行清单
端点 |
HTTP方法 |
---|---|
|
|
运行在开始时间降序排列的列表。
例子
请求
curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/列表? job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/列表\——数据“job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。<作业id >
例如,与工作的ID123年
。《是非题》
与真正的
或假
。<抵消>
与抵消
价值。<限制>
与限制
价值。< run-type >
与run_type
价值。
响应
{“运行”:({“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ donald@duck.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}),“has_more”:真正的}
请求结构
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果active_only 如果completed_only |
|
|
的工作运行。如果省略,就业服务将从所有工作列表。 |
|
|
第一次运行返回的抵消,相对于最近的运行。 |
|
|
跑到返回的数量。这个值应大于0小于1000。默认值是20。如果请求指定的极限0,最大限度的服务将使用。 |
|
|
跑到返回的类型。运行类型的描述,请参阅运行。 |
响应结构
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的运行 |
运行的一个列表,从最近的开始。 |
|
|
如果这是真的,额外的匹配滤波器可用于提供清单。 |
运行得到
端点 |
HTTP方法 |
---|---|
|
|
检索的元数据。
例子
请求
curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/ ? run_id = <运行id > '\|金桥。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/\——数据run_id=<运行id >\|金桥。
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。<运行id >
例如,与运行的ID123年
。
响应
{“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}
响应结构
字段名 |
类型 |
描述 |
---|---|---|
|
|
规范标识符包含这个运行的工作。 |
|
|
规范化运行的标识符。这个ID是独特的在所有运行的所有工作。 |
|
|
序列号的运行在所有的运行工作。这个值从1开始。 |
|
|
如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。 |
|
运行的结果和生命周期状态。 |
|
|
触发这个运行的cron调度如果是引发的周期性调度程序。 |
|
|
执行的任务运行,如果任何。 |
|
|
工作的快照的集群规范这个运行时创建的。 |
|
|
集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。 |
|
|
用于此运行的参数。 |
|
|
|
这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。 |
|
|
这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。 |
|
|
时间以毫秒为单位设置集群。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。总运行时间的总和 |
|
|
的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。总运行时间的总和 |
|
|
以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和 |
|
|
时间以毫秒为单位的工作运行和它的所有维修完成。这个字段只设置运行,而不是任务运行多任务工作。一个任务运行的时间的总和 |
|
触发发射这个运行的类型。 |
|
|
|
造物主的用户名。这个领域不会包含在响应中如果用户已经删除 |
|
|
运行的详细信息页面的URL。 |
经营出口
端点 |
HTTP方法 |
---|---|
|
|
出口和检索工作运行的任务。
请注意
只能出口笔记本运行在HTML格式。出口的其他类型将会失败。
例子
请求
curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/出口? run_id = <运行id > '\|金桥。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/出口\——数据run_id=<运行id >\|金桥。
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。<运行id >
例如,与运行的ID123年
。
响应
{“视图”:({“内容”:“< !html DOCTYPE html > < > < >负责人< /头> <身体> < /身体> < / html >”,“名称”:“我的笔记本”,“类型”:“笔记本”}]}
从JSON响应中提取的HTML的笔记本,下载并运行Python脚本。
请注意
笔记本的身体__DATABRICKS_NOTEBOOK_MODEL
对象是编码。
响应结构
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的ViewItem |
在HTML格式导出的内容(一个为每个视图条目)。 |
取消运行
端点 |
HTTP方法 |
---|---|
|
|
取消工作运行。因为取消了异步运行,运行这个请求完成时可能仍在运行。运行不久将被终止。如果已经在一个终端运行life_cycle_state
,这个方法是一个空操作。
这个端点确认run_id
参数是有效的和无效的参数返回HTTP状态代码400。
取消所有运行
端点 |
HTTP方法 |
---|---|
|
|
取消所有活动的工作。因为取消了异步运行,它不会阻止新的运行开始。
这个端点确认job_id
参数是有效的和无效的参数返回HTTP状态代码400。
运行得到的输出
端点 |
HTTP方法 |
---|---|
|
|
检索一个任务的输出和元数据。当一个笔记本任务通过返回一个值dbutils.notebook.exit ()电话,您可以使用该端点来检索该值。砖限制这个API返回的输出的第一个5 MB。对于返回一个更大的结果,您可以工作结果存储在云存储服务。
这个端点确认run_id
参数是有效的和无效的参数返回HTTP状态代码400。
运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口。
例子
请求
curl——netrc请求\“https:// < databricks-instance > / api / 2.0 /工作/运行/输出? run_id = <运行id > '\|金桥。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/运行/输出\——数据run_id=<运行id >\|金桥。
替换:
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。<运行id >
例如,与运行的ID123年
。
响应
{“元数据”:{“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“终止”,“result_state”:“成功”,“state_message”:”“},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”},“notebook_output”:{“结果”:“也许截断字符串传递给dbutils.notebook.exit ()}}
请求结构
字段名 |
类型 |
描述 |
---|---|---|
|
|
规范标识符。找工作与mulitple任务,这是 |
响应结构
字段名 |
类型 |
描述 |
---|---|---|
|
NotebookOutput或 |
如果notebook_output,笔记本的输出任务,如果可用。一个笔记本任务终止(成功或失败)没有打电话 如果错误,一个错误消息指示输出不可用的原因。非结构化信息,和它的确切格式都可能发生变化。 |
|
所有的细节除了运行它的输出。 |
运行删除
端点 |
HTTP方法 |
---|---|
|
|
删除一个稳定的运行。返回一个错误如果运行活动。
数据结构
在本节中:
自动定量
集群范围定义的最小和最大数量的工人。
字段名 |
类型 |
描述 |
---|---|---|
|
|
工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。 |
|
|
工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。 |
ClusterInstance
集群和火花上下文标识符使用的运行。这两个值一起识别执行上下文的所有时间。
字段名 |
类型 |
描述 |
---|---|---|
|
|
规范标识符使用的集群运行。这个领域一直是用于现有的集群上运行。新的集群上运行,它可用一次创建集群。这个值可以用来查看日志通过浏览 响应不包括这个领域如果还没有可用的标识符。 |
|
|
规范标识符使用的上下文。这个领域将填写一旦运行开始执行。这个值可以用来查看火花UI通过浏览 响应不包括这个领域如果还没有可用的标识符。 |
ClusterLogConf
集群日志路径。
字段名 |
类型 |
描述 |
---|---|---|
DBFS集群日志的位置。必须提供目的地。例如, |
ClusterSpec
重要的
当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。 如果new_cluster,集群的描述将被创建为每个运行。 如果指定一个PipelineTask,那么这个字段可以是空的。 |
|
一个数组的图书馆 |
一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。 |
ClusterTag
集群标签定义。
CronSchedule
字段名 |
类型 |
描述 |
---|---|---|
|
|
一个Cron表达式使用石英语法描述安排一份工作。看到Cron触发获取详细信息。这个字段是必需的。 |
|
|
Java时区ID。工作时间表将会解决关于这个时区。看到Java时区获取详细信息。这个字段是必需的。 |
|
|
指示是否这个计划暂停。“暂停”或“停顿”。 |
谷歌云属性
属性设置集群创建期间有关谷歌云。
字段名 |
类型 |
描述 |
---|---|---|
|
|
使用抢占的执行人。 |
|
|
|
|
|
大小,以GB磁盘的分配给每个实例。这个值必须在100 - 4096之间。 |
重要的
使用与GCS和BigQuery谷歌服务帐户,你使用访问数据源必须位于同一个项目时指定的SA建立你的砖账户。
InitScriptInfo
一个init脚本。
请注意
文件存储类型(字段名:文件
)只能用于集群设置使用砖容器服务。看到FileStorageInfo。
字段名 |
类型 |
描述 |
---|---|---|
或 |
DbfsStorageInfo(弃用) |
init脚本的工作区位置。必须提供目的地。例如, (弃用)DBFS init脚本的位置。必须提供目的地。例如, 谷歌云存储(GCS) init脚本的位置。必须提供目的地。例如, |
工作
字段名 |
类型 |
描述 |
---|---|---|
|
|
这个工作的规范标识符。 |
|
|
造物主的用户名。这个领域不会包含在响应中如果用户已经删除。 |
|
|
用户名,作业将运行。 |
|
和它的所有运行设置这个工作。这些设置可以更新使用 |
|
|
|
这个工作的时间成立于时代毫秒(毫秒因为1/1/1970 UTC)。 |
JobEmailNotifications
重要的
on_start, on_success和on_failure字段只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的 |
电子邮件地址的列表通知运行时就开始了。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。 |
|
一个数组的 |
电子邮件地址的列表成功运行完成时得到通知。跑步被认为是成功完成如果结尾 |
|
一个数组的 |
电子邮件地址的列表通知运行时没有成功完成。跑步被认为已经完成了如果它以一个失败 |
|
一个数组的 |
一个被通知的电子邮件地址列表当运行的持续时间超过指定的阈值 |
|
|
如果这是真的,不发送电子邮件收件人中指定 |
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的Webhook |
一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地 |
|
一个数组的Webhook |
一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾 |
|
一个数组的Webhook |
一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败 |
|
一个数组的Webhook |
一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值 |
JobNotificationSettings
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果这是真的,不发送通知中指定的收件人 |
|
|
如果这是真的,不发送通知中指定的收件人 |
|
|
如果这是真的,不发送通知中指定的收件人 |
JobSettings
重要的
当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。
当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。
设置工作。这些设置可以更新使用resetJob
方法。
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。 如果new_cluster,集群的描述将被创建为每个运行。 如果指定一个PipelineTask,那么这个字段可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。 如果spark_jar_task,表明这项工作应该运行一个罐子里。 如果spark_python_task,表明这项工作应该运行Python文件。 如果spark_submit_task,表明这项工作应该发起的火花提交脚本。 如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。 如果run_job_task,表明这项工作应该运行另一份工作。 |
|
|
一个可选的名字。默认值是 |
|
一个数组的图书馆 |
一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。 |
|
一个可选的组运行时会通知的电子邮件地址的这个工作开始或完成这份工作时被删除。默认行为是不发送任何电子邮件。 |
|
|
一组可选的系统通知目的地当这个工作开始运行,完成,或失败。 |
|
|
使用可选的通知设置在发送通知的 |
|
|
|
一个可选的超时应用于每次运行的工作。默认行为是没有超时。 |
|
|
一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的 |
|
|
一个可选的尝试之间的最小间隔时间以毫秒为单位。默认行为是成功运行立即重试。 |
|
|
一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。 |
|
一个可选的周期安排这项工作。默认行为是引发的作业只会运行时点击“运行”的工作界面或发送一个API请求 |
|
|
|
一个可选的最大允许并发运行的作业的数量。 设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。 这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行时将被忽略,除非有少于3活跃。 这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。 |
|
定义一组可选的卫生规则。 |
JobTask
字段名 |
类型 |
描述 |
---|---|---|
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。 如果spark_jar_task,表明这项工作应该运行一个罐子里。 如果spark_python_task,表明这项工作应该运行Python文件。 如果spark_submit_task,表明这项工作应该发起的火花提交脚本。 如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。 如果run_job_task,表明这项工作应该运行另一份工作。 |
JobsHealthRule
字段名 |
类型 |
描述 |
---|---|---|
|
|
指定的卫生指标评估特定卫生规则。有效的值 |
|
|
指定操作符用于比较健康度量值与指定的阈值。有效的值 |
|
|
指定的阈值,卫生指标应满足遵守卫生规则。 |
JobsHealthRules
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的JobsHealthRule |
一组可选的卫生规则,可以定义一个工作。 |
图书馆
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果jar, URI的jar安装。DBFS和GCS ( 如果鸡蛋,鸡蛋的URI被安装。支持DBFS和GCS uri。例如: 如果whl, URI的车轮或压缩安装车轮。支持DBFS和GCS uri。例如: 如果pypi, pypi库安装的规范。指定 如果maven, maven库安装的规范。例如: 如果凹口,凹口库安装的规范。 |
MavenLibrary
请注意
Maven库支持砖运行时7.3 LTS(没有其他7。x版本)和8.1以上。
字段名 |
类型 |
描述 |
---|---|---|
|
|
Gradle-style Maven坐标。例如: |
|
|
Maven回购安装Maven寄来的包裹。如果省略,Maven中央存储库和引发搜索包。 |
|
一个数组的 |
依赖性排除列表。例如: Maven依赖除外责任:https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html。 |
NewCluster
字段名 |
类型 |
描述 |
---|---|---|
|
|
如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。 当阅读一个集群的属性,这个领域反映所需的工人数量而不是工人数量的实际电流。例如,如果一个集群的大小从5到10的工人,这一领域将立即被更新以反映目标大小为10的工人,而工人们中列出 如果自动定量,必需的参数自动上下规模集群基于负载。 |
|
|
集群的火花版本。可用火花版本的列表可以通过使用检索得到2.0 /集群/ spark-versions调用。这个字段是必需的。 |
|
一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项 火花参看示例: |
|
|
属性相关的集群上运行谷歌云。如果没有指定在创建集群,将使用默认值。 |
|
|
|
这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索得到2.0 /集群/ list-node-types调用。这个领域, |
|
|
火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值 |
|
一个数组的 |
设置为空数组。不支持集群SSH。 |
|
总是设置为空数组。 |
|
|
长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果配置,日志将被交付给每一个目的地 |
|
|
一个数组的InitScriptInfo |
存储的配置初始化脚本。可以指定任意数量的脚本。所提供的脚本的顺序执行。如果 |
|
一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(即, 指定一组额外的 示例引发环境变量: |
|
|
|
Akways设置为false。 |
|
|
可选的ID用于集群节点实例池。指的是实例池API获取详细信息。 |
NotebookOutput
字段名 |
类型 |
描述 |
---|---|---|
|
|
值传递给dbutils.notebook.exit ()。砖限制这个API返回的第一个1 MB值。对于一个更大的结果,你的工作可以将结果存储在云存储服务。这一领域将会缺席 |
|
|
不管结果是截断。 |
NotebookTask
所有输出细胞受到8 mb的大小。如果一个细胞的输出有较大的尺寸,其余的将被取消,跑将标记为失败。在这种情况下,一些内容的输出从其他细胞也可能丢失。
字段名 |
类型 |
描述 |
---|---|---|
|
|
绝对路径的笔记本运行砖工作区。这条路必须开始削减。这个字段是必需的。 |
|
|
修改的时间戳的笔记本。 |
|
的地图ParamPair |
基础参数用于每次运行的工作。如果是由调用运行 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 如果没有指定的笔记本需要一个参数在工作的 获取这些参数在一个笔记本使用dbutils.widgets.get。 |
ParamPair
笔记本运行基于名称的参数作业任务。
重要的
这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。
类型 |
描述 |
---|---|
|
参数名称。传递给dbutils.widgets.get来检索值。 |
|
参数值。 |
PipelineTask
字段名 |
类型 |
描述 |
---|---|---|
|
|
三角洲的全称生活表管道任务执行。 |
PythonPyPiLibrary
字段名 |
类型 |
描述 |
---|---|---|
|
|
的名字PyPI包安装。还支持一个可选的版本规范。例子: |
|
|
可以找到包的存储库。如果没有指定,默认使用脉冲指数。 |
RCranLibrary
字段名 |
类型 |
描述 |
---|---|---|
|
|
凹口的名字包安装。这个字段是必需的。 |
|
|
可以找到包的存储库。如果没有指定,默认使用凹口回购。 |
运行
所有的信息除了它的输出。输出可以分别与检索getRunOutput
方法。
字段名 |
类型 |
描述 |
---|---|---|
|
|
规范标识符包含这个运行的工作。 |
|
|
规范化运行的标识符。这个ID是独特的在所有运行的所有工作。 |
|
|
造物主的用户名。这个领域不会包含在响应中如果用户已经删除。 |
|
|
序列号的运行在所有的运行工作。这个值从1开始。 |
|
|
如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。 |
|
运行的结果和生命周期状态。 |
|
|
触发这个运行的cron调度如果是引发的周期性调度程序。 |
|
|
执行的任务运行,如果任何。 |
|
|
工作的快照的集群规范这个运行时创建的。 |
|
|
集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。 |
|
|
用于此运行的参数。 |
|
|
|
这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。 |
|
|
设置集群的时间,以毫秒为单位。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。 |
|
|
的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。 |
|
|
以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和setup_duration, execution_duration, cleanup_duration。 |
|
|
这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。 |
|
触发发射这个运行的类型。 |
|
|
|
一个可选的名称。默认值是 |
|
|
运行的详细信息页面的URL。 |
|
|
运行的类型。
|
|
|
序列号的尝试引发工作跑。的初始尝试运行的attempt_number 0。如果初始运行失败,工作有一个重试策略( |
RunJobTask
字段名 |
类型 |
描述 |
---|---|---|
|
|
工作的惟一标识符。这个字段是必需的。 |
RunLifeCycleState
的生命周期状态运行。允许状态转换:
等待
- >运行
- >终止
- >终止
等待
- >跳过
等待
- >INTERNAL_ERROR
运行
- >INTERNAL_ERROR
终止
- >INTERNAL_ERROR
状态 |
描述 |
---|---|
|
运行触发。如果没有一个活跃的运行相同的工作,集群正在准备和执行上下文。如果已经有一个活跃的运行相同的工作,运行就会立即进入 |
|
正在运行的任务执行。 |
|
这个运行的任务已经完成,集群和执行上下文被清理干净。 |
|
这个运行的任务已经完成,集群和执行上下文已经清理干净。这个状态是终端。 |
|
这流产是因为先前跑同样的工作已经活跃。这个状态是终端。 |
|
异常状态,表示失败的工作服务,如长期网络故障。如果一个运行在一个新的集群中结束 |
RunParameters
这个运行参数。只有jar_params之一,python_params
,或者notebook_params应该中指定现在
请求,这取决于类型的工作任务。工作与火花JAR任务或Python任务列表的定位参数,使用笔记本电脑和工作任务键值映射。
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的 |
参数列表工作与火花JAR任务,例如 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 |
|
的地图ParamPair |
与笔记本从键值映射工作任务,如。 如果未指定 notebook_params不能结合jar_params指定。 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 这个字段(即的JSON表示。 |
|
一个数组的 |
与Python任务工作的参数列表,如 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 重要的 这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。 |
|
一个数组的 |
工作引发的参数列表提交的任务,例如 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 重要的 这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。 |
RunResultState
的结果状态运行。
如果
life_cycle_state
=终止
:如果有一个任务运行,结果是保证是可用的,它表明任务的结果。如果
life_cycle_state
=等待
,运行
,或跳过
,结果不可用状态。如果
life_cycle_state
=终止
或lifecyclestate =INTERNAL_ERROR
:结果状态可用如果运行一个任务和管理开始。
一旦可用,结果状态不会改变。
状态 |
描述 |
---|---|
|
任务成功完成。 |
|
任务完成的一个错误。 |
|
达到超时后运行停止。 |
|
运行在用户请求被取消了。 |
RunState
字段名 |
类型 |
描述 |
---|---|---|
|
的描述运行的运行生命周期中的当前位置。这个领域在响应中总是可用的。 |
|
|
的结果状态运行。如果不可用,反应不包括这个领域。看到RunResultState对细节result_state的可用性。 |
|
|
|
由用户手动运行是否被取消或调度程序,因为运行超时。 |
|
|
当前状态的描述性信息。这个字段是结构化的,它的确切格式是可能发生变化。 |
SparkEnvPair
引发环境变量键-值对。
重要的
当指定环境变量的工作集群,这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。
类型 |
描述 |
---|---|
|
一个环境变量的名字。 |
|
环境变量的值。 |
SparkJarTask
字段名 |
类型 |
描述 |
---|---|---|
|
|
自04/2016弃用。提供一个 |
|
|
类的全名包含要执行的主要方法。这个类必须包含在一个JAR作为图书馆提供。 代码应该使用 |
|
一个数组的 |
传递的参数的主要方法。 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 |
SparkPythonTask
字段名 |
类型 |
描述 |
---|---|---|
|
|
执行Python文件的URI。DBFS路径支持。这个字段是必需的。 |
|
一个数组的 |
命令行参数传递给Python文件。 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 |
SparkSubmitTask
重要的
您可以调用火花提交任务只有在新的集群。
new_cluster规范中,
库
和spark_conf
不受支持。相反,使用——罐子
和——py-files
添加Java和Python库——设计
设置火花配置。主
,deploy-mode
,executor-cores
是由砖自动配置;你不能指定参数。默认情况下,火花提交工作使用所有可用的内存(不含砖服务保留内存)。你可以设置
——driver-memory
,——executor-memory
一个较小的值,留一些余地堆使用。的
——罐子
,——py-files
,——文件
参数支持DBFS路径。
例如,假设JAR DBFS上传,您可以运行SparkPi
通过设置以下参数。
{“参数”:(”——阶级”,“org.apache.spark.examples.SparkPi”,“dbfs: /道路/ / examples.jar”,“10”]}
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的 |
命令行参数传递给火花提交。 使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。 |
TriggerType
这些类型的触发器可以运行。
类型 |
描述 |
---|---|
|
安排定期引发运行时,比如一个cron调度程序。 |
|
一个火一个运行时间触发。发生这种情况你触发了一个运行在通过UI需求或API。 |
|
表明一个运行触发的重试之前运行失败。这发生在你请求重新运行工作的失败。 |
ViewItem
导出的内容是在HTML格式。例如,如果视图导出仪表板,一个HTML字符串返回每一个仪表板。
字段名 |
类型 |
描述 |
---|---|---|
|
|
视图的内容。 |
|
|
视图项的名称。在代码视图的情况下,笔记本电脑的名字。在仪表板视图,仪表板的名字。 |
|
视图条目的类型。 |
ViewType
类型 |
描述 |
---|---|
|
笔记本查看项目。 |
|
仪表板视图条目。 |
Webhook
字段名 |
类型 |
描述 |
---|---|---|
|
|
标识符引用系统通知目的地。这个字段是必需的。 |
WebhookNotifications
字段名 |
类型 |
描述 |
---|---|---|
|
一个数组的Webhook |
一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地 |
|
一个数组的Webhook |
一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾 |
|
一个数组的Webhook |
一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败 |
|
一个数组的Webhook |
一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值 |