看来生活和历史集群指标

这篇文章解释了如何使用砖UI的本地集群度量工具收集关键硬件和火花指标。使用砖的集群运行时13.0及以上默认访问这些指标。

以前,集群指标聚集使用Ganglia,提供有限的集群的外部生活饲料指标。Ganglia只能记录历史数据在15块,存档使用静态可下载的快照。

现在,所有生活和历史集群指标嵌入到砖UI。这些度量一个可以过滤任何范围的日期、小时、分钟过去30天内。

访问集群指标UI

查看集群指标界面:

  1. 点击计算在侧边栏。

  2. 点击你想查看指标的计算资源。

  3. 单击指标选项卡。

集群指标在过去的24小时

默认显示硬件指标。查看火花指标,点击下拉标签硬件并选择火花。您也可以选择GPU如果GPU-enabled实例。

通过时间段过滤指标

您可以查看历史指标通过选择时间范围使用日期选择过滤器。收集度量每一分钟,所以你可以过滤任何范围的天,小时或分钟从过去的30天。单击日历图标选择从预定义的数据范围,或单击文本框内定义自定义值。

请注意

图表中显示的时间间隔调整根据您正在查看的时间长度。大多数平均指标是基于你当前浏览的时间间隔。

您还可以通过单击获得最新的指标刷新按钮。

在节点级别指标

您可以查看度量单个节点通过单击集群下拉菜单并选择您想要查看的节点指标。

请注意

GPU指标只在节点级别。火花指标不能用于单个节点。

CPU指标图表

下面的集群中的可用CPU指标图表查看指标界面:

  • CPU利用率:CPU时间的比例在每个模式,基于CPU秒总成本。基于哪个指标是平均时间间隔显示在图表中。

  • 内存利用率:总内存使用量由每个模式,以基于哪个字节数和平均时间间隔显示在图表中。

  • 内存交换的使用率:总内存交换使用由每个模式,以基于哪个字节数和平均时间间隔显示在图表中。

  • 免费的文件系统空间:总文件系统使用每个挂载点,以基于哪个字节数和平均时间间隔显示在图表中。

  • 通过网络接收:接收的字节数每个设备,通过网络的平均出基于任何时间间隔显示在图表中。

  • 通过网络传播:通过网络传输的字节数,每个设备平均出基于任何时间间隔显示在图表中。

  • 活跃节点:这表明活动节点的数量在每一个时间戳为给定的集群。

火花指标图表

可用以下火花指标图表查看集群中的指标界面:

  • 活动任务:任务执行的总数在任何给定的时间,平均出基于任何时间间隔显示在图表中。

  • 总失败的任务:任务未能执行人的总数,平均出基于任何时间间隔显示在图表中。

  • 总完成任务:完成的任务执行人总数,平均出基于任何时间间隔显示在图表中。

  • 总数量的任务:所有任务的总数(跑步、失败和完成)的执行人,平均出基于任何时间间隔显示在图表中。

  • 总洗牌读:随机读取数据的总大小,以字节和平均基于任何时间间隔显示在图表中。洗牌意味着序列化的读取数据的总和所有执行者的开始阶段。

  • 总洗牌写:洗牌写数据的总大小,单位为字节数和平均基于任何时间间隔显示在图表中。洗牌是所有书面序列化数据的总和执行人之前传输(通常在结束阶段)。

  • 总任务持续时间:总运行时间执行任务执行人JVM花,以基于哪个秒,平均时间间隔显示在图表中。

GPU指标图表

下面的GPU集群中的度量图可用来查看指标界面:

  • Per-GPU解码器利用率:GPU译码器的利用率,平均出基于任何时间间隔显示在图表中。

  • :Per-GPU编码器利用GPU编码器的利用率,平均基于任何时间间隔显示在图表中。

  • Per-GPU帧缓冲内存利用率字节:帧缓冲内存利用率,以基于哪个字节数和平均时间间隔显示在图表中。

  • Per-GPU内存利用率:GPU内存利用率的比例,平均出基于任何时间间隔显示在图表中。

  • Per-GPU利用率:基于GPU的利用率,平均出哪个时间间隔显示在图表中。