监控模型服务端点普罗米修斯和Datadog

本文展示了如何使用标准出口API来设置端点度量收集和监测普罗米修斯Datadog

需求

  • 读访问到所需的端点和个人访问令牌(PAT),可以在生成用户设置砖的机器学习界面访问端点。

  • 现有的模型服务端点。你可以验证通过检查项目的端点健康用以下:

    curl - n - x - h“授权:无记名(PAT)”https://(DATABRICKS_HOST]. . / api / 2.0 / serving-endpoints /(ENDPOINT_NAME]
  • 出口指标验证API:

    curl - n - x - h“授权:无记名(PAT)”https://(DATABRICKS_HOST]. . / api / 2.0 / serving-endpoints /(ENDPOINT_NAME]/指标

普罗米修斯集成

请注意

无论哪种类型的部署在生产环境中,刮的配置应该是相似的。

本节讲述了普罗米修斯的指导文档开始普罗米修斯服务本地使用码头工人。

  1. 写一个yaml配置文件和名称prometheus.yml。下面是一个例子:

    全球:scrape_interval:1米scrape_timeout:十年代scrape_configs:- - - - - -job_name:“普罗米修斯”metrics_path:“. . / api / 2.0 / serving-endpoints / ENDPOINT_NAME /指标”计划:“https”授权:类型:“持票人”凭证:“[PAT_TOKEN]”static_configs:- - - - - -目标:(“dbc - 741 - cfa95 - 12 - d1.dev.www.neidfyre.com”]
  2. 开始普罗米修斯在本地使用下面的命令:

    码头工人运行\- p9090年:9090\- v /路径/ / prometheus.yml: / etc /普罗米修斯/ prometheus.yml\舞会/普罗米修斯
  3. 导航到http://localhost: 9090检查如果你当地的普罗米修斯服务是启动和运行。

  4. 检查的普罗米修斯刮刀状态和调试错误:搜索= http://localhost: 9090 /目标吗?

  5. 一旦目标是全面启动和运行,您可以查询所提供的指标,cpu_usage_percentagemem_usage_percentage在UI中。

Datadog集成

请注意

初步建立了对于这个示例是基于免费版。

Datadog各种各样的代理,可以在不同环境中进行部署。出于演示的目的,以下启动一个Mac OS代理本地擦伤你砖的指标端点主机。使用其他代理的配置应该是在一个类似的模式。

  1. 注册一个datadog帐户。

  2. 在你安装OpenMetrics集成账户指示板,所以Datadog可以接受和处理OpenMetrics数据。

  3. 遵循Datadog文档让你Datadog代理启动并运行。对于这个示例,使用DMG包安装了一切包括选项launchctldatadog-agent

  4. 定位您的OpenMetrics配置。对于这个示例,配置在~ / .datadog-agent / conf.d / openmetrics.d / conf.yaml.default。下面是一个示例配置yaml文件。

    实例:- - - - - -openmetrics_endpoint:https:// [DATABRICKS_HOST] . . / api / 2.0 / serving-endpoints / [ENDPOINT_NAME] /指标指标:- - - - - -cpu_usage_percentage:的名字:cpu_usage_percentage类型:- - - - - -mem_usage_percentage:的名字:mem_usage_percentage类型:- - - - - -provisioned_concurrent_requests_total:的名字:provisioned_concurrent_requests_total类型:- - - - - -request_4xx_count_total:的名字:request_4xx_count_total类型:- - - - - -request_5xx_count_total:的名字:request_5xx_count_total类型:- - - - - -request_count_total:的名字:request_count_total类型:- - - - - -request_latency_ms:的名字:request_latency_ms类型:柱状图tag_by_endpoint:send_distribution_buckets:真正的:授权:无记名(PAT)内容类型:应用程序/ openmetrics-text
  5. 开始datadog剂使用launchctl开始com.datadoghq.agent

  6. 每次你需要改变你的配置,您需要重新启动代理拿起变化。

    launchctl com.datadoghq停止。代理launchctl开始com.datadoghq.agent
  7. 检查代理健康datadog-agent健康

  8. 检查代理状态与datadog-agent状态。您应该能够看到一个响应如下。如果不是,调试和错误消息。潜在的问题可能是由于过期拍牌,或一个不正确的URL。

    openmetrics(2.2.2)- - - - - - - - - - - - - - - - - - -实例ID: openmetrics: xxxxxxxxxxxxxxxx(好吧]配置来源:文件:/ opt / datadog-agent / etc / conf.d / openmetrics.d / conf.yaml.default总运行:1标准样品:最后的运行:2总:2事件:最后的运行:0总:0服务检查:最后的运行:1总:1平均执行时间:274 ms最后一次执行日期:2022年09-2123:00:41 PDT /2022年09-2206:00:41 UTC(xxxxxxxx)最后成功执行日期:2022年09-2123:00:41 PDT /2022年09-2206:00:41 UTC(xxxxxxx)
  9. 代理从UI状态也可以看出:http://127.0.0.1:5002

    如果你的代理完全启动和运行,你可以回到你的导航Datadog仪表板查询指标。您还可以创建一个监视器或警报基于指标数据:https://app.datadoghq.com/monitors/create/metric