有时集群意外终止,而非因人工终止或配置自动终止.集群因多种原因终止部分终止由Databricks启动,其他由云提供商启动文章描述终止理由和修复步骤
数据键启动请求限值超出
数据bricks批量处理所有集群升级请求,包括集群创建、启动和重定大小振荡使用令牌桶算法限制总节点数,任何人都可以在数据键部署中跨定义区段启动,同时允许破解请求某些大小webUI和API请求受收费限制集群请求超出限值时,限值超值请求失效REQUEST_LIMIT_EXCEEDED报错
求解
数据bricks建议你做下列工作:
如果这些选项不为您工作,联系Databricks支持请求核心实例提高限值
数据布列克启动终止理由见终止代码.
云提供商启动终止
文章列出了公共云提供方相关终止理由和修复步骤
AWS系统
提供者限值
Databricks代表云账户请求资源启动集群有时这些请求失效 因为它们会超出云账户资源限值AWS常见错误代码包括:
InstanceLimitExceeded
AWS限制每个节点类型运行实例数可能的解决方案包括:
- 请求小节点集群
- 请求用不同节点类型聚类
- 询问AWS支持增强实例限制.
Client.VolumeLimitExceeded
集群创建请求超出EBS卷限值AWS有两种容量限制:EBS卷总数限制和EBS卷总存储规模限制潜在修复步骤
- 请求小节点集群
- 检验两个限值中哪一个超出高山市AWS信任导师服务限值免费)请求超出EBS卷总数时,尝试减少请求量/节点请求超出总EBS存储规模时,尝试缩小请求存储规模和/或EBS量数
- 询问AWS支持EBS量限制增加.
RequestLimitExceeded
AWS系统限制API请求率制作AWS账号等待一阵子重试请求
提供者关机
Spark驱动单点故障 因为它拥有所有集群状态实例托管驱动节点关闭时Databricks终止集群AWS常见错误代码包括:
Client.UserInitiatedShutdown
事件终止直接请求AWS非数据bricks联系您的AWS管理员了解更多细节
Server.InsufficientInstanceCapacity
ss无法满足实例请求等待一阵子重试请求问题存续时联系 AWS支持
Server.SpotInstanceTermination
AWS终止实例,因为当前即时物价超过了为此例最大出价点播驱动器实例,选择不同的可用区或指定更高的即时标价
指其他关机错误代码ss文件.
删除启动故障
AWS系统
AWS常见错误代码包括:
UnauthorizedOperation
Databricks未被授权启动请求实例可能原因包括:
- AWS管理员撤销AWS存取密钥或IM函数启动实例
- 您正试图使用数据bricks没有权限使用IAM角色启动集群联系搭建IM角色的AWS管理员更多信息见安全存取使用IM角色的S3桶.
消息不支持 EBS优化实例不支持请求配置
所选实例类型在所选可用区不可用与EBS优化启动无关求补救时,可选择不同实例类型或AZ
AuthFailure.ServiceLinkedRoleCreationNotPermitted
提供的证书没有权限为EC2插件创建服务关联作用Databricks管理员需要更新证书发布实例指令更新策略查找AWS账号.
看吧错误代码完整列表AWS报错码
删除休眠
Azure数据bricks无法获取虚拟机时即发生终止理由错误代码和消息API传播帮助解决问题
OperationNotAllowed
已达到定额限值 通常是核心数 可启动请求限制Azure门户看吧Azure订阅服务限值、定额和约束.
PublicIPCountLimitReached
公有IP实现极限请求限制增量Azure门户
可接收性
skU资源选择(如VM大小)无法使用解决方式见SkU解决错误不可用.
ReadOnlyDisabledSubscription
您订阅功能失效沿步骤进为何我的Azure订阅功能失效,恢复订阅
ResourceGroupBeingDeleted
如果有人取消Azure门户网站工作空间并同时创建集群,则可能发生这种情况。集群失效是因为资源组正在删除
SubscriptionRequestsThrottled
订阅量达Azure资源管理请求限制推送资源管理请求)典型原因是AzureDatabricks外的另一系统常调用Azure联系人Azure支持识别系统并减少API调用数
删除