文章描述数例集群无法启动的场景,并基于日志中发现的错误消息为每种场景提供故障解析步骤
集群超时
错误消息 :
驱动程序无法及时启动 Interior_ERROR:spark驱动程序无法在300秒内启动
因果
集群无法启动 if它连接外部Hive元库 并试图从maven回播下载所有Hive元库集群下载近200JAR文件,包括依存如果Databricks集群管理器无法确认驱动程序5分钟内准备就绪,则集群启动失效这可能是因为JAR下载耗时过长
求解
将蜂窝库存储到DBFS并本地访问DBFS看吧spark选项.
全局或集群必读脚本
错误消息 :
集群无法在50分钟内启动 。因果:超时异常尝试
因果
init脚本运行集群分解阶段发送RPC(远程程序调用)到每个工人机本地运行脚本所有RPC必须在进程继续前返回状态万一RPC发现问题不回响应(例如瞬时联网问题),1小时超时即可点击,导致集群搭建作业失败
求解
a使用集群广度 init脚本取代全局或集群命名 init脚本带集群剖面嵌入脚本,Databricks不使用同步阻塞RPC获取脚本执行状态
多库安装集成UI
错误消息 :
图书馆安装在1800秒后超时尚未安装的库
因果
通常是网络问题间断问题
求解
通常您可以通过重运行作业或重开集群来修复问题
库安装程序配置三分钟后暂停取并安装罐子时,因网络问题可暂停使用解析问题,您可以从maven下载库到DBFS位置并安装自此
云提供方限值
错误消息 :
集群终止理由:云提供者限制
因果
错误通常由云提供方返回
求解
查看云提供者错误信息集群意外终止.
云提供商关机
错误消息 :
集群终止理由:云提供者关机
因果
错误通常由云提供方返回
求解
查看云提供者错误信息集群意外终止.
事件不可调用(Azure)
错误消息 :
集群终止理由:事件无法获取问题存续时请重试并联系Azure数据bricks内部错误消息:置节点时超时
因果
错误通常由云提供方返回典型地说,它发生时有Azure数据bricks工作空间安装到自己的虚拟网络VNet启动新AzureDatabricks工作空间时创建默认VNet工作空间虚拟网络已经对接或对租房资源有Exprotow连接时,当AzureDatabricks试图创建集群时,虚拟网络无法对集群节点建立sh连接
求解
添加用户定义路径(UDR),让AzureDatabricks控制平面sh访问集群实例、Blob存储实例和人工资源自定义UDR允许外向连接,不干扰集群创建详细UDR指令见步骤3:创建用户定义路径并联通您的AzureDatabricks虚拟网络子网.更多VNet故障解析信息见故障排除.