问题
作业失败带Python内核无响应报错消息
致命错误: Python内核无响应
因果
如果集群耗尽内存,Python内核会崩溃
通常发生于内存密集操作相对小实例或并行运行多笔记本或同一集群作业时
求解
执行下列策略解决非响应式Python内核问题:
- 作业集群非交互性作业替代所有目的集群避免运行全功能集群批量作业
- 保证集群配置使用适当类型和大小有效管理预期工作量考虑通过增加工人节点或增强现有节点存储能力来增加集群规模
- 优化数据管道以减少同时处理数据的数量
- 多项笔记本或作业同时运行时,多组分布工作量不论集群大小,只有一个阿帕契spark驱动节点,无法在集群内分布
- 作业内存密集时 验证驱动器内存充足谨慎使用:
- 上头集合运算符向驱动程序传输大量数据
- 将大数据Frame转换成熊猫DataFrame
- 监控集群性能使用Ganglia量度识别潜在问题并优化资源使用