使用无服务器实时推断的模型服务
预览
此功能已在公共预览.
本文描述了Databricks无服务器实时推理的模型服务,包括它与经典MLflow模型服务相比的优点和局限性。
无服务器实时推理将MLflow机器学习模型暴露为可扩展的REST API端点。这个功能使用Serverless计算,这意味着端点和相关的计算资源在Databricks云帐户中管理和运行。看到无服务器实时推断定价页面欲知详情。
经典MLflow服务模型使用在您自己的帐户下运行的单节点集群,即现在所说的经典数据平面。这个数据平面包括虚拟网络及其相关的计算资源,例如用于笔记本和作业的集群、专业和经典SQL仓库,以及服务端点的经典模型。
为什么使用无服务器实时推理?
无服务器实时推理提供:
一键启动端点的能力:Databricks自动为您的模型准备生产就绪环境,并为计算提供无服务器配置选项。
高可用性和可伸缩性:无服务器实时推理用于生产使用,可以支持高达每秒3000个查询(QPS)。无服务器实时推理端点自动伸缩,这意味着端点根据评分请求的数量自动调整。
仪表板:使用内置的无服务器实时推断仪表板,使用QPS、延迟和错误率等指标来监控模型端点的健康状况。
特征存储集成:当您的模型使用Databricks特征存储中的特征进行训练时,模型会被打包成特征元数据。如果你配置在线商店,这些功能会在收到评分请求时实时整合。
限制
当此服务处于预览状态时,将适用以下限制:
负载大小限制为每个请求16mb。
默认限制为每个注册的工作区对请求进行200 QPS的评分。您可以通过与Databricks支持联系人联系,将此限制增加到每个工作区最多3000 QPS。
最大努力支持小于100毫秒的延迟开销和可用性。
无服务器实时推断端点对internet开放入站流量,除非工作区中启用了IP allowlist,在这种情况下,该列表也适用于端点。
阶段和生产时间预期
将模型从登台过渡到生产需要时间。部署新注册的模型版本涉及构建模型容器映像和提供模型端点。这个过程大约需要5分钟。
Databricks执行的“零停机”更新/分期
而且/生产
通过保持现有模型部署,直到新模型部署就绪。这样做可以确保正在使用的模型端点没有中断。
如果模型计算时间超过60秒,请求将超时。如果您认为您的模型计算需要超过60秒,请联系您的Databricks支持联系人。
先决条件
重要的
在公开预览期间,您需要联系Databricks支持联系人,以便在工作空间上启用无服务器实时推断。
在创建无服务器实时推断端点之前,必须在工作空间中启用它们。看到为模型服务启用无服务器实时推断端点.
在您的工作空间上启用了无服务器实时推断端点后,您需要以下权限来为模型服务创建端点: