模型服务Serverless实时推理
重要的
这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。
本文中的指导是前一个预览版本的Serverless实时推理功能。砖建议您迁移模型的服务工作流来刷新预览功能。看到模型服务Serverless实时推理。
预览
这个特性是在公共预览。
本文描述模型与砖Serverless实时推理的服务,包括其优势和局限性相比经典MLflow模型服务。
Serverless实时推理暴露你MLflow机器学习模型作为可伸缩的REST API端点。这个功能使用Serverless计算,这意味着相关的端点和砖云计算资源管理和运行的帐户。看到Serverless实时推理价格页面为更多的细节。
经典MLflow模型服务使用一个单节点集群运行在自己的账户在现在所谓的经典数据平面。这个数据平面包括虚拟网络及其相关计算资源集群等笔记本和工作,职业和经典SQL仓库,和经典模型服务端点。
为什么使用Serverless实时推理?
Serverless实时推理提供了:
发射一个端点的能力有一个点击:砖自动为您的模型和针对生产环境准备为计算提供serverless配置选项。
高可用性和可伸缩性:Serverless实时推理用于生产使用,可以支持多达3000 queries-per-second(每秒)。Serverless实时推理端点自动向上和向下扩展,这意味着端点自动调整基于评分的请求的数量。
仪表板:使用内置的Serverless实时推理仪表板来监测你的健康模型端点使用指标(如每秒,延迟和错误率。
特性存储集成:当你的模型训练与砖特性的存储特性,模型包装功能的元数据。如果你配置您的在线商店,这些特性作为得分纳入实时接收的请求。
限制
该服务在预览,以下限制:
有效载荷的大小限制,每个请求的16 MB。
默认限制每个工作区登记200每秒的得分请求。你可以增加这个极限3000每秒每工作区通过接触你的砖支持接触。
尽最大努力支持少于100毫秒延迟开销和可用性。
Serverless实时推理端点是开放的互联网为入站流量除非启用IP allowlist在工作区中,在这种情况下,这也适用于端点列表。
登台和生产时间的期望
过渡模型从暂存到生产需要时间。部署一个新注册模型版本包括建立一个模型容器形象和端点配置模型。这个过程可以~ 5分钟。
砖执行“零宕机”的更新/分期
和/生产
端点通过保持现有模型部署到新的一个准备好。这样做可以确保不中断模型使用的端点。
如果模型计算花费的时间超过60秒,请求超时。如果你相信你的模型计算将超过60秒,请伸出你的砖支持联系。
先决条件
重要的
在公共预览,你需要伸出你的砖支持接触使Serverless实时推理工作区。
您可以创建Serverless实时推理端点之前,您必须让他们在你的工作区。看到使Serverless实时推理模型服务的端点。
后Serverless实时推理端点上启用您的工作空间,您需要以下权限创建端点模型为: