SparkUI常用调试工具spark作业
sparkUI无法访问时,您可以在另一集群加载事件日志并使用事件日志重放笔记本重播spark事件
跟踪文档配置集群日志交付上聚类
集日志位置取决于集群日志路径集群配置期间设置
例例,如果日志路径dbfs:/cluster-logs时段日志文件将存储dbfs:/cluster-logs/
确认集群日志存在
校验集群日志路径并验证日志正为所选集群写成日志文件每5分钟写一次
启动单节点集群
启动单节点集群重播日志集
选择实例类型基于事件日志大小并重播
运行事件日志重放笔记本
- 事件日志重放笔记本附单节点集群
- 输入选择集群事件日志路径笔记本
- 运行笔记本
事件日志重放笔记本
预防项目从UI下传
sparkUI中某些作业和/或阶梯有可能被删除
发生这种情况是因为默认UI限值旨在防止UI耗用过多内存并引起集群出故障
使用单节点集群重播事件日志时,可增加默认UI限值并用更多内存SparkUI禁止项目下降
集群创建期间通过编辑可调整这些值spark配置.
示例内含这些属性的默认值
spark.ui.reservationJobs1000spark.ui.reservationStages1000spark.ui.reservationTasks10万spark.sql.i.sql.