意外集群终止

学习故障解析数据布列克斯集群意外停止

写由亚当巴夫拉卡

2022年3月4日

有时集群意外终止,而非因人工终止或配置自动终止.集群因多种原因终止部分终止由Databricks启动,其他由云提供商启动文章描述终止理由和修复步骤

数据键启动请求限值超出

数据bricks批量处理所有集群升级请求,包括集群创建、启动和重定大小振荡使用令牌桶算法限制总节点数,任何人都可以在数据键部署中跨定义区段启动,同时允许破解请求某些大小webUI和API请求受收费限制集群请求超出限值时,限值超值请求失效REQUEST_LIMIT_EXCEEDED报错

求解

数据bricks建议你做下列工作:

  • 几分钟后重试请求
  • 平均分布循环工作流比方说,不排程全部作业作业运行时分界并试取时段分配
  • 考虑使用大数集群节点类型和小节点数
  • 使用自动化标量集群化

如果这些选项不为您工作,联系Databricks支持请求核心实例提高限值

数据布列克启动终止理由见终止代码.

云提供商启动终止

文章列出了公共云提供方相关终止理由和修复步骤

AWS系统

提供者限值

Databricks代表云账户请求资源启动集群有时这些请求失效 因为它们会超出云账户资源限值AWS常见错误代码包括:

InstanceLimitExceeded

AWS限制每个节点类型运行实例数可能的解决方案包括:

  • 请求小节点集群
  • 请求用不同节点类型聚类
  • 询问AWS支持增强实例限制.

Client.VolumeLimitExceeded

集群创建请求超出EBS卷限值AWS有两种容量限制:EBS卷总数限制和EBS卷总存储规模限制潜在修复步骤

  • 请求小节点集群
  • 检验两个限值中哪一个超出高山市AWS信任导师服务限值免费)请求超出EBS卷总数时,尝试减少请求量/节点请求超出总EBS存储规模时,尝试缩小请求存储规模和/或EBS量数
  • 询问AWS支持EBS量限制增加.

RequestLimitExceeded

AWS系统限制API请求率制作AWS账号等待一阵子重试请求

提供者关机

Spark驱动单点故障 因为它拥有所有集群状态实例托管驱动节点关闭时Databricks终止集群AWS常见错误代码包括:

Client.UserInitiatedShutdown

事件终止直接请求AWS非数据bricks联系您的AWS管理员了解更多细节

Server.InsufficientInstanceCapacity

ss无法满足实例请求等待一阵子重试请求问题存续时联系 AWS支持

Server.SpotInstanceTermination

AWS终止实例,因为当前即时物价超过了为此例最大出价点播驱动器实例,选择不同的可用区或指定更高的即时标价

指其他关机错误代码ss文件.

删除

启动故障

AWS系统

AWS常见错误代码包括:

UnauthorizedOperation

Databricks未被授权启动请求实例可能原因包括:

  • AWS管理员撤销AWS存取密钥或IM函数启动实例
  • 您正试图使用数据bricks没有权限使用IAM角色启动集群联系搭建IM角色的AWS管理员更多信息见安全存取使用IM角色的S3桶.

消息不支持 EBS优化实例不支持请求配置

所选实例类型在所选可用区不可用与EBS优化启动无关求补救时,可选择不同实例类型或AZ

AuthFailure.ServiceLinkedRoleCreationNotPermitted

提供的证书没有权限为EC2插件创建服务关联作用Databricks管理员需要更新证书发布实例指令更新策略查找AWS账号.

看吧错误代码完整列表AWS报错码

删除

休眠

Azure数据bricks无法获取虚拟机时即发生终止理由错误代码和消息API传播帮助解决问题

OperationNotAllowed

已达到定额限值 通常是核心数 可启动请求限制Azure门户看吧Azure订阅服务限值、定额和约束.

PublicIPCountLimitReached

公有IP实现极限请求限制增量Azure门户

可接收性

skU资源选择(如VM大小)无法使用解决方式见SkU解决错误不可用.

ReadOnlyDisabledSubscription

您订阅功能失效沿步骤进为何我的Azure订阅功能失效,恢复订阅

ResourceGroupBeingDeleted

如果有人取消Azure门户网站工作空间并同时创建集群,则可能发生这种情况。集群失效是因为资源组正在删除

SubscriptionRequestsThrottled

订阅量达Azure资源管理请求限制推送资源管理请求)典型原因是AzureDatabricks外的另一系统常调用Azure联系人Azure支持识别系统并减少API调用数

删除

通信丢失

databricks启动集群,但失去了与spark驱动实例托管连接

AWS系统

由错误网络配置(例如改变数据键工安全组设置)或瞬时AWS网络问题驱动

删除

休眠

驱动虚拟机下降或网络问题

删除
文章有帮助吗