什么是托管MLflow?
托管MLflow构建在MLflow,一个由Dbob下载地址atabrbob体育客户端下载icks开发的开源平台,帮助管理具有企业可靠性、安全性和规模的完整机器学习生命周期。
好处
模型开发
通过标准化框架开发可用于生产的机器学习模型,加速并简化机器学习生命周期管理。
使用托管的MLflow Recipes,您可以引导ML项目,轻松地执行快速迭代,并将高质量的模型大规模地交付到生产中。
实验跟踪
使用任何ML库、框架或语言运行实验,并自动跟踪每个实验的参数、指标、代码和模型。通过在Databricks上使用MLflow,您可以安全地共享、管理和比较实验结果以及相应的工件和代码版本——这要感谢与Databricks工作区和笔记本的内置集成。
模型管理
使用一个中心位置来发现和共享ML模型,协作将它们从实验转移到在线测试和生产,与审批和治理工作流以及CI/CD管道集成,并监控ML部署及其性能。的MLflow模型注册表促进专业知识和知识的共享,并帮助您保持控制。
模型部署
通过与Docker容器、Azure ML或Amazon SageMaker的内置集成,在Apache Spark™或REST api上快速部署用于批处理推理的生产模型。借助Databricks上的Managed MLflow,您可以使用Databricks作业调度器和自动管理集群来操作和监视生产模型,以根据业务需求进行扩展。
特性
MLflow跟踪
MLflow跟踪:自动记录每次运行所使用的参数、代码版本、度量和工件Python,休息,R API,Java API
MLflow跟踪服务器:使用内置跟踪服务器快速开始,在一个地方记录所有运行和实验。在Databricks上无需配置。
实验管理:在工作区中使用访问控制和搜索查询创建、保护、组织、搜索和可视化实验。
MLflow运行侧边栏:从笔记本中自动跟踪运行,并为每次运行捕获笔记本的快照,以便始终可以返回到代码的以前版本。
使用运行记录数据:将参数、数据集、指标、工件等记录为运行到本地文件、SQLAlchemy兼容数据库或远程跟踪服务器的日志。
三角洲湖泊一体化:跟踪使用Delta Lake快照为模型提供数据的大规模数据集。
构件存储:S3桶、NFS共享文件系统、模型等大文件存放在Amazon S3、Azure Blob Storage、谷歌Cloud Storage、SFTP server、NFS、本地文件路径中。
MLflow食谱
简化项目启动:MLflow Recipes提供了用于构建和部署ML模型的开箱即用连接组件。
加速模型迭代:MLflow Recipes为模型迭代创建了标准化的、可重用的步骤——使过程更快、更便宜。
自动化团队交接:独立的结构提供模块化的生产就绪代码,实现从实验到生产的自动切换。
MLflow项目
MLflow项目:MLflow项目允许您指定软件环境用于执行您的代码。MLflow目前支持以下项目环境:Conda环境、Docker容器环境和系统环境。任何Git回购或本地目录都可以被视为MLflow项目。
远程执行方式:运行MLflow项目从Git或在Databricks集群上远程使用Databricks CLI快速扩展您的代码。
MLflow模型注册表
中央存储库:方法注册MLflow模型MLflow模型注册表.注册的模型具有唯一的名称、版本、阶段和其他元数据。
模型版本:在更新时自动跟踪已注册模型的版本。
模型阶段:为每个模型版本分配预设的或自定义的阶段,如“分期”和“生产”来表示模型的生命周期。
CI/CD工作流集成:记录阶段转换、请求、审查和批准变更,作为CI/CD管道的一部分,以便更好地控制和治理。
模型阶段转换:将新的注册事件或更改记录为自动记录用户、更改和其他元数据(如注释)的活动。
MLflow模型
MLflow模型:一种包装机器学习模型的标准格式,可以在各种下游工具中使用——例如,通过REST API或Apache Spark上的批处理推理进行实时服务。
模型定制:使用自定义Python模型而且定制的味道用于来自ML库的模型,这些模型不受MLflow内置风格的显式支持。
内置模型口味:MLflow提供了几种可能在您的应用程序中有用的标准风格,如Python和R函数、H20、Keras、MLeap、PyTorch、scikit-learn、Spark MLlib、TensorFlow和ONNX。
内置部署工具:通过Apache Spark UDF在本地机器上快速部署Databricks,或其他几个生产环境,如Microsoft Azure ML、Amazon SageMaker和为部署构建Docker映像.
请参阅Azure Databricks和AWS的产品新闻,了解有关我们最新功能的更多信息。BOB低频彩
MLflow产品的比较
它是如何工作的
MLflow是一组轻量级的api和用户界面,可以在机器学习工作流中与任何ML框架一起使用。它包括四个部分:MLflow跟踪,MLflow项目,MLflow模型而且MLflow模型注册表
MLflow跟踪:记录和查询实验:代码、数据、配置和结果。
MLflow项目:可复制的包装格式可在任何平台上运行。bob体育客户端下载
MLflow模型:发送模型到不同部署工具的通用格式。
MLflow模型注册表集中式存储库,在整个生命周期内协同管理MLflow模型。
在Databricks上管理MLflow是MLflow的完全管理版本,为从业者提供跨Databricks笔记本电脑、作业和数据存储的可再现性和实验管理,并具有Databricks笔记本电脑、作业和数据存储的可靠性、安全性和可伸缩性统一数据分析平台bob体育客户端下载.
资源
博客
使用Databricks Notebook + MLflow自动化部署和测试
使用MLflow、Apache Spark MLlib和Hyperopt进行超参数调优
MLflow:一个开源机器学习平台bob下载地址bob体育客户端下载