有时一个集群意外终止,没有结果的手动终止或配置自动终止。一个集群可以终止的原因很多。一些终端是由砖和其他由云提供商。本文描述了终止的原因和补救措施。
超过砖发起请求的限制
抵御API的滥用,保证服务质量,并防止你意外地创建太多的大型集群,砖扼杀所有集群up-sizing请求,包括创建集群,开始和调整。节流使用令牌桶算法节点的总数限制,任何人都可以发布在一个定义的时间间隔在你砖部署,同时允许特定大小的请求。请求来自web UI和api受到限制。当集群请求超过速度限制,超标请求失败的REQUEST_LIMIT_EXCEEDED错误。
解决方案
如果你限制了合法的工作流,砖建议您执行以下操作:
- 几分钟后重试您的请求。
- 均匀地分散重复工作流的时间计划。例如,不安排你所有的工作在每小时运行边界,尝试在不同的时间间隔在一个小时内分发它们。
- 考虑使用具有更大的集群节点类型和较小的节点数量。
- 使用自动定量集群。
如果这些选项不为你工作,接触砖支持请求的限制增加为核心的实例。
其他砖开始终止的原因,明白了终止代码。
云提供商发起终端
本文列出了常见的云提供商相关终止的原因和补救措施。
AWS
供应商限制
砖发射集群通过请求资源代表云账户。有时,这些请求失败,因为他们将超过你的云账号的资源限制。在AWS,常见的错误代码包括:
InstanceLimitExceeded
AWS限制运行实例的数量为每个节点类型。可能的解决方案包括:
- 用更少的节点请求一个集群。
- 请求一个集群不同的节点类型。
- 问AWS支持增加实例的限制。
Client.VolumeLimitExceeded
集群创建请求超过了EBS卷极限。AWS有两种类型的体积限制:限制EBS卷的总数和限制的总存储大小EBS卷。潜在的补救措施:
- 用更少的节点请求一个集群。
- 检查这两个极限的超越。(AWS受信任的顾问显示服务免费限制)。如果请求的总数超过了EBS卷,尽量减少请求的每个节点的体积数。如果请求超过了总EBS存储大小,尽量减少请求的存储大小和/或EBS卷的数量。
- 问AWS支持增加EBS卷的限制。
RequestLimitExceeded
AWS限制了API请求的速度为一个AWS帐户。等一段时间再重试请求。
供应商关闭
火花司机是一个单点故障,因为它拥有所有集群状态。如果实例托管司机节点关闭,砖终止集群。在AWS,常见的错误代码包括:
Client.UserInitiatedShutdown
实例被直接请求终止AWS并非来源于砖。请联系AWS管理员为更多的细节。
Server.InsufficientInstanceCapacity
AWS实例不能满足要求。等一会儿和重试请求。如果问题持续接触AWS支持。
Server.SpotInstanceTermination
AWS实例被终止,因为当前的现货价格已超过最大报价为这个实例。使用一个按需驱动实例,选择不同的可用性区域,或指定更高的收购价格。
为其他shutdown-related错误代码,请参考AWS文档。
删除发射失败
AWS
在AWS,常见的错误代码包括:
UnauthorizedOperation
砖未被授权发起请求的实例。可能的原因包括:
- AWS管理员无效AWS访问密钥或我角色用来启动实例。
- 你试图启动一个集群使用了我的角色,砖没有权限使用。联系AWS管理员设置我的角色。有关更多信息,请参见安全访问S3 bucket使用我的角色。
不支持不支持消息”EBS-optimized实例请求配置”
所选实例类型不是可用的选择可用性区域(AZ)。它实际上并没有与EBS-optimization被启用。要矫正,可以选择不同的实例类型或阿兹。
AuthFailure.ServiceLinkedRoleCreationNotPermitted
提供的凭证不允许创建的服务联系角色EC2实例。砖管理员需要更新证书用于启动实例,在您的帐户。指令和可以找到更新的政策AWS帐户。
看到错误代码AWS错误代码的完整列表。
删除Azure
这终止原因发生在Azure砖未能获得虚拟机。从API错误代码和信息传播来帮助你解决这个问题。
OperationNotAllowed
您已达到配额限制,通常数量的核心,可以启动你的订阅。请求增加限制Azure门户。看到Azure服务订阅和限制、配额和约束。
PublicIPCountLimitReached
你已经达到了极限的公共ip,可以运行。请求增加限制Azure门户。
SkuNotAvailable
资源SKU您选择(比如虚拟机大小)不是可供您选择的位置。解决,看解决错误SKU。
ReadOnlyDisabledSubscription
你的订阅是禁用的。按以下步骤在为什么我的Azure订阅残疾和我如何激活吗?重新激活你的订阅。
ResourceGroupBeingDeleted
可能发生如果有人取消Azure砖工作区在Azure门户和您尝试创建一个集群在同一时间。集群失败因为资源组被删除。
SubscriptionRequestsThrottled
你的订阅是Azure资源管理器请求限制(参见节流资源管理器的请求)。典型的原因是另一个系统外Azure砖)使得Azure很多API调用。联系Azure支持这个系统识别,然后减少API调用的数量。
删除