意想不到的集群终止

学习如何解决砖集群,意外停止。

写的亚当Pavlacka

去年发表在:2022年3月4日

有时一个集群意外终止,没有结果的手动终止或配置自动终止。一个集群可以终止的原因很多。一些终端是由砖和其他由云提供商。本文描述了终止的原因和补救措施。

超过砖发起请求的限制

抵御API的滥用,保证服务质量,并防止你意外地创建太多的大型集群,砖扼杀所有集群up-sizing请求,包括创建集群,开始和调整。节流使用令牌桶算法节点的总数限制,任何人都可以发布在一个定义的时间间隔在你砖部署,同时允许特定大小的请求。请求来自web UI和api受到限制。当集群请求超过速度限制,超标请求失败的REQUEST_LIMIT_EXCEEDED错误。

解决方案

如果你限制了合法的工作流,砖建议您执行以下操作:

  • 几分钟后重试您的请求。
  • 均匀地分散重复工作流的时间计划。例如,不安排你所有的工作在每小时运行边界,尝试在不同的时间间隔在一个小时内分发它们。
  • 考虑使用具有更大的集群节点类型和较小的节点数量。
  • 使用自动定量集群。

如果这些选项不为你工作,接触砖支持请求的限制增加为核心的实例。

其他砖开始终止的原因,明白了终止代码

云提供商发起终端

本文列出了常见的云提供商相关终止的原因和补救措施。

AWS

供应商限制

砖发射集群通过请求资源代表云账户。有时,这些请求失败,因为他们将超过你的云账号的资源限制。在AWS,常见的错误代码包括:

InstanceLimitExceeded

AWS限制运行实例的数量为每个节点类型。可能的解决方案包括:

  • 用更少的节点请求一个集群。
  • 请求一个集群不同的节点类型。
  • 问AWS支持增加实例的限制

Client.VolumeLimitExceeded

集群创建请求超过了EBS卷极限。AWS有两种类型的体积限制:限制EBS卷的总数和限制的总存储大小EBS卷。潜在的补救措施:

  • 用更少的节点请求一个集群。
  • 检查这两个极限的超越。(AWS受信任的顾问显示服务免费限制)。如果请求的总数超过了EBS卷,尽量减少请求的每个节点的体积数。如果请求超过了总EBS存储大小,尽量减少请求的存储大小和/或EBS卷的数量。
  • 问AWS支持增加EBS卷的限制

RequestLimitExceeded

AWS限制了API请求的速度为一个AWS帐户。等一段时间再重试请求。

供应商关闭

火花司机是一个单点故障,因为它拥有所有集群状态。如果实例托管司机节点关闭,砖终止集群。在AWS,常见的错误代码包括:

Client.UserInitiatedShutdown

实例被直接请求终止AWS并非来源于砖。请联系AWS管理员为更多的细节。

Server.InsufficientInstanceCapacity

AWS实例不能满足要求。等一会儿和重试请求。如果问题持续接触AWS支持。

Server.SpotInstanceTermination

AWS实例被终止,因为当前的现货价格已超过最大报价为这个实例。使用一个按需驱动实例,选择不同的可用性区域,或指定更高的收购价格。

为其他shutdown-related错误代码,请参考AWS文档

删除

发射失败

AWS

在AWS,常见的错误代码包括:

UnauthorizedOperation

砖未被授权发起请求的实例。可能的原因包括:

  • AWS管理员无效AWS访问密钥或我角色用来启动实例。
  • 你试图启动一个集群使用了我的角色,砖没有权限使用。联系AWS管理员设置我的角色。有关更多信息,请参见安全访问S3 bucket使用我的角色

不支持不支持消息”EBS-optimized实例请求配置”

所选实例类型不是可用的选择可用性区域(AZ)。它实际上并没有与EBS-optimization被启用。要矫正,可以选择不同的实例类型或阿兹。

AuthFailure.ServiceLinkedRoleCreationNotPermitted

提供的凭证不允许创建的服务联系角色EC2实例。砖管理员需要更新证书用于启动实例,在您的帐户。指令和可以找到更新的政策AWS帐户

看到错误代码AWS错误代码的完整列表。

删除

Azure

这终止原因发生在Azure砖未能获得虚拟机。从API错误代码和信息传播来帮助你解决这个问题。

OperationNotAllowed

您已达到配额限制,通常数量的核心,可以启动你的订阅。请求增加限制Azure门户。看到Azure服务订阅和限制、配额和约束

PublicIPCountLimitReached

你已经达到了极限的公共ip,可以运行。请求增加限制Azure门户。

SkuNotAvailable

资源SKU您选择(比如虚拟机大小)不是可供您选择的位置。解决,看解决错误SKU

ReadOnlyDisabledSubscription

你的订阅是禁用的。按以下步骤在为什么我的Azure订阅残疾和我如何激活吗?重新激活你的订阅。

ResourceGroupBeingDeleted

可能发生如果有人取消Azure砖工作区在Azure门户和您尝试创建一个集群在同一时间。集群失败因为资源组被删除。

SubscriptionRequestsThrottled

你的订阅是Azure资源管理器请求限制(参见节流资源管理器的请求)。典型的原因是另一个系统外Azure砖)使得Azure很多API调用。联系Azure支持这个系统识别,然后减少API调用的数量。

删除

沟通了

砖能够启动集群,但是失去了连接到实例托管火花司机。

AWS

造成不正确的网络配置(例如,改变安全组设置为砖工人)或瞬态AWS网络问题。

删除

Azure

司机造成的虚拟机下降或一个网络的问题。

删除
这篇文章有用吗?