问题
集群多并发作业时,你常常看到sparkUI中有些作业没有任何进展这使得识别主动作业/级对死作业/级复杂化
因果
每当多并行作业运行集群时,Spark内部就有可能eventListenerBus滴水事件这些事件用于跟踪sparkUI的工作进度事件监听者下降事件时,SparkUI开始看到死作业/台阶,永不结束作业实际完成但未显示为SparkUI完成
观察驱动日志中的下列迹迹
18/01/25 06:3732WARN直播监听器自Thu Jan 2506:3632UTC2018
求解
无法从sparkUI删除死作业而不重开集群可运行下列命令识别活动作业和阶段:
scala statusTracker.getActiveJobIds/statusTracker.getAviewStageIds/