集群启动失败

学习解决之道 集群启动故障

写由亚当巴夫拉卡

2022年3月4日

文章描述数例集群无法启动的场景,并基于日志中发现的错误消息为每种场景提供故障解析步骤

集群超时

错误消息 :

驱动程序无法及时启动 Interior_ERROR:spark驱动程序无法在300秒内启动

因果

集群无法启动 if它连接外部Hive元库 并试图从maven回播下载所有Hive元库集群下载近200JAR文件,包括依存如果Databricks集群管理器无法确认驱动程序5分钟内准备就绪,则集群启动失效这可能是因为JAR下载耗时过长

求解

将蜂窝库存储到DBFS并本地访问DBFS看吧spark选项.

全局或集群必读脚本

错误消息 :

集群无法在50分钟内启动 。因果:超时异常
          
           尝试
          

因果

init脚本运行集群分解阶段发送RPC(远程程序调用)到每个工人机本地运行脚本所有RPC必须在进程继续前返回状态万一RPC发现问题不回响应(例如瞬时联网问题),1小时超时即可点击,导致集群搭建作业失败

求解

a使用集群广度 init脚本取代全局或集群命名 init脚本带集群剖面嵌入脚本,Databricks不使用同步阻塞RPC获取脚本执行状态

多库安装集成UI

错误消息 :

图书馆安装在1800秒后超时尚未安装的库

因果

通常是网络问题间断问题

求解

通常您可以通过重运行作业或重开集群来修复问题

库安装程序配置三分钟后暂停取并安装罐子时,因网络问题可暂停使用解析问题,您可以从maven下载库到DBFS位置并安装自此

云提供方限值

错误消息 :

集群终止理由:云提供者限制

因果

错误通常由云提供方返回

求解

查看云提供者错误信息集群意外终止.

云提供商关机

错误消息 :

集群终止理由:云提供者关机

因果

错误通常由云提供方返回

求解

查看云提供者错误信息集群意外终止.

事件不可调用(Azure)

错误消息 :

集群终止理由:事件无法获取问题存续时请重试并联系Azure数据bricks内部错误消息:置节点时超时

因果

错误通常由云提供方返回典型地说,它发生时有Azure数据bricks工作空间安装到自己的虚拟网络VNet启动新AzureDatabricks工作空间时创建默认VNet工作空间虚拟网络已经对接或对租房资源有Exprotow连接时,当AzureDatabricks试图创建集群时,虚拟网络无法对集群节点建立sh连接

求解

添加用户定义路径(UDR),让AzureDatabricks控制平面sh访问集群实例、Blob存储实例和人工资源自定义UDR允许外向连接,不干扰集群创建详细UDR指令见步骤3:创建用户定义路径并联通您的AzureDatabricks虚拟网络子网.更多VNet故障解析信息见故障排除.

文章有帮助吗