排除故障和修复工作

假设你已经通知(例如通过一个电子邮件通知,监控解决方案,或砖工作UI)任务已经失败在你砖的工作运行。本文中的步骤提供指导,帮助您识别失败的原因,建议你找到修复问题,以及如何修复失败的工作运行。

识别失败的原因

找到失败的任务数据砖工作界面:

  1. 点击工作图标工作在侧边栏。

  2. 的名字列,单击工作名称。的运行选项卡显示活跃的运行和运行完成,包括任何运行失败。矩阵视图中运行选项卡显示的历史运行的工作,包括成功和失败对于每个工作任务运行。任务运行可能会成功,因为失败或跳过,因为依赖任务失败了。使用矩阵视图中,您可以快速地识别你的工作运行的任务失败。

    矩阵的工作运行
  3. 徘徊在一个失败的任务关联的元数据。此元数据包括开始和结束日期、状态、集群持续时间的细节,和,在某些情况下,一个错误消息。

  4. 来帮助识别的原因失败,点击失败的任务。的任务运行细节页面出现,显示输出,错误消息,和相关的元数据的任务。

修复失败的原因

你的任务可能会失败的原因很多,例如,数据质量问题,错误配置,或者没有足够的计算资源。以下是建议步骤来解决一些任务失败的常见原因:

  • 如果失败是相关的任务配置,点击编辑任务。任务配置会在新标签页中打开。根据需要配置并点击更新任务保存任务

  • 如果相关的问题是集群资源,例如,不足的情况下,有几个选项:

    • 如果你的工作是配置为使用集群工作,考虑使用一个共享的集群。

    • 改变集群配置。点击编辑任务。在工作细节面板,在计算,点击配置集群配置。你可以改变工人的数量,实例类型,或其他集群配置选项。您也可以点击交换切换到另一个可用的集群。确保你最佳的利用可用资源,审查最佳实践集群配置

    • 如果有必要,请管理员增加云中的资源配额账户和地区部署您的工作区。

  • 如果失败是由于超过最大并发运行时,:

    • 等待运行完成。

    • 点击编辑任务。在工作细节面板中,单击编辑并发运行,输入一个新值最大并发运行,然后单击确认

在某些情况下,失败的原因可能是上游从你的工作,例如,一个外部数据源不可用。你仍然可以利用修复运行功能覆盖在下一节之后,外部问题得到解决。

重新运行失败,跳过任务

识别失败的原因后,您可以通过运行修复失败或取消了多任务工作只有失败任务的子集和任何相关的任务。因为成功的任务,任何任务,依靠他们不重新运行,这个特性可以减少所需的时间和资源从失败中恢复工作。

你可以改变工作或任务设置在修复工作之前运行。成功与当前工作任务重新运行和任务设置。举个例子,如果你改变了路径笔记本或一个集群环境中,任务是重新运行与更新的笔记本或集群设置。

查看所有任务运行的历史任务运行细节页面。

请注意

  • 如果一个或多个任务共享集群工作,修复运行集群创建了一个新工作。例如,如果原来的运行使用集群的工作my_job_cluster,第一个维修运行集群使用的新工作my_job_cluster_v1,使您可以很容易地看到集群和集群设置初始运行和使用的任何修理。的设置my_job_cluster_v1当前的设置是一样的my_job_cluster

  • 支持修复只有工作,安排两个或两个以上的任务。

  • 持续时间值显示在运行选项卡包括第一次运行时开始,直到最新修复运行完成的时候。例如,如果一个运行两次失败和成功第三运行,期间包括所有三分的时候。

修复失败的工作运行:

  1. 单击该链接的运行失败开始时间列的工作表或单击运行失败的矩阵视图中运行。的工作运行细节页面出现。

  2. 点击修复运行。的修理工作运行对话框,列出所有失败的任务和任何相关的任务将会重演。

  3. 添加或编辑参数修复任务,输入的参数修理工作运行对话框。您输入的参数修理工作运行对话框覆盖现有值。在后续修复运行时,您可以返回一个参数初始值是结算的键和值修理工作运行对话框。

  4. 点击修复运行修理工作运行对话框。

  5. 修复运行结束后,矩阵视图更新与修复的新列。任何失败的任务是红色现在应该绿色指示成功的竞选你的整个工作。