作业故障异常报错

作业运行中断并失败 因观察异常错误消息

写由亚当巴夫拉卡

2022年5月11日

问题

作业运行失败因观察异常错误而中断报错消息

集群运行期间无法访问:xxxxxxxxx

因果

集群作业向Apachespark驱动节点返回太多大结果

结果,司机服务耗尽存储器,集群无法连通

调用后可能发生.集合.showAPI

求解

可减少集群内的工作量或增加值spark.memory.chauffeur.size.

司机服务运行同宿Spark驱动分配更多内存到司机服务时,Spark驱动程序可少总内存使用

置值spark.memory.chauffeur.size:

  1. 打开工作空间集群配置页面
  2. 点击编辑.
  3. 扩展高级选项.
  4. 输入值spark.memory.chauffeur.sizemb内spark配置字段内
  5. 点击确认并重开.
删除

信息学

默认值spark.memory.chauffeur.size1024兆字节写成spark.memory.chauffeur.size 1024mbSpark配置最大值小于16GB或总内存的20%


文章有帮助吗