迁移到无服务器实时推理

预览

此功能已在公共预览

本文演示如何在您的工作空间中启用无服务器实时推断,并将您的模型从使用切换到使用经典MLflow服务模型用无服务器实时推理建模服务。

有关无服务器实时推断的一般信息,请参见使用无服务器实时推断的模型服务

需求

重大的改变

  • 在无服务器实时推断中,端点请求和端点响应的格式与经典模型服务略有不同。看到对模型端点进行评分有关新格式协议的详细信息。

  • 在无服务器实时推断中,端点URL包括model-endpoint而不是模型

  • 无服务器实时推理包括完全支持使用API工作流管理资源并且可以投入生产。

为您的工作区启用无服务器实时推断

重要的

必须为您的工作区启用无服务器实时推断。第一次为工作空间启用它时,管理员必须阅读并接受条款和条件。

为您的工作空间启用无服务器实时推断:

  1. 注册预览。

    1. 电子邮件的model-serving-feedback团队,并请求加入无服务器实时推理公共预览

    2. Databricks发送给你一个谷歌表单。

    3. 填写表单并提交给Databricks。表单包含关于要注册哪个工作区的信息。

    4. 等待,直到Databricks通知您,您的工作区已在预览中注册。

  2. 作为管理员,访问管理控制台

  3. 选择工作空间设置

  4. 选择MLflow无服务器实时推理支持

禁用经典MLflow模型服务于您的模型

在为您的模型启用无服务器实时推断之前,您需要在当前服务的模型上禁用Classic MLflow模型。

下面的步骤展示了如何使用UI完成这一任务。

  1. 导航到模型在机器学习工作区的侧栏上。

  2. 选择要禁用经典模型服务的模型。

  3. 服务选项卡上,选择停止

  4. 出现确认消息。选择停止供应

在您的模型上启用无服务器实时推断

工作区上启用了无服务器实时推断后,您将在服务已注册型号的TAB。要为该模型启用无服务器实时推断,请单击启用无服务器实时推断按钮。

服务面板

重要的

如果您没有看到该按钮,而是看到支持服务按钮,您使用的是为经典模型服务的端点,而不是无服务器模型端点。联系管理员在此工作空间上启用该特性