重播Apachespark事件集群

单节点集群重播sparkUI中另一集群事件日志

写由arjun.kaimaparambilrajan

2023年2月10日

SparkUI常用调试工具spark作业

sparkUI无法访问时,您可以在另一集群加载事件日志并使用事件日志重放笔记本重播spark事件

删除

警告

集群日志交付未默认启动 。启动集群前必须启动集群日志交付,否则将无日志重播

跟踪文档配置集群日志交付上聚类

集日志位置取决于集群日志路径集群配置期间设置

例例,如果日志路径dbfs:/cluster-logs时段日志文件将存储dbfs:/cluster-logs/ 单事件日志存储dbfs:/cluster-logs/ /事件/ / / .

删除

注解

示例DBFS分组日志使用,但这不是必备条件集群日志存入DBFS或S3存储

确认集群日志存在

校验集群日志路径并验证日志正为所选集群写成日志文件每5分钟写一次

启动单节点集群

启动单节点集群重播日志集

选择实例类型基于事件日志大小并重播

运行事件日志重放笔记本

  • 事件日志重放笔记本附单节点集群
  • 输入选择集群事件日志路径笔记本
  • 运行笔记本

事件日志重放笔记本

开笔记本新标签

预防项目从UI下传

sparkUI中某些作业和/或阶梯有可能被删除

发生这种情况是因为默认UI限值旨在防止UI耗用过多内存并引起集群出故障

使用单节点集群重播事件日志时,可增加默认UI限值并用更多内存SparkUI禁止项目下降

集群创建期间通过编辑可调整这些值spark配置.

示例内含这些属性的默认值

spark.ui.reservationJobs1000spark.ui.reservationStages1000spark.ui.reservationTasks10万spark.sql.i.sql.


文章有帮助吗