跳转到主要内容
bob体育客户端下载平台的博客

管理MLflow砖现在公共预览

分享这篇文章

在砖尝试本教程

构建生产机器学习应用程序是一个挑战,因为没有标准的方法来记录实验,确保可再生的运行和管理和部署模型。为应对这些挑战,去年6月我们介绍MLflow,一个开源bob下载地址的平台来管bob体育客户端下载理毫升生命周期,适用于任何机器学习库和环境。项目发展迅速,拥有超过74的贡献者和14版本。

今天,我们也兴奋地宣布公共预览管理MLflow砖上:一个完全MLflow集成到砖的管理版本。我们的目标与管理MLflow有两方面:

  1. 提供一个SaaS版本的MLflow管理和安全建立在方便使用。
  2. 集成MLflow整个砖统一分析平台bob体育亚洲版bob体育客户端下载,这样用户可以再现性和实验管理在他们砖笔记本,工作,数据存储等。

在这篇文章中,我们将简要描述MLflow,然后展示如何管理MLflow砖MLflow更容易利用上下文中的一个科学完整的数据平台。bob体育客户端下载

MLflow是什么?

MLflow是一个轻量级的api和用户接口,开发人员可以使用任何毫升框架来帮助简化他们的工作流程。具体地说,它包括三个特点:

  • 试验跟踪,可以让用户捕获实验参数,代码和度量和比较它们使用交互式UI或MLflow API。
  • 项目,一个简单的包装代码和依赖可再生的运行或多步骤的管道。
  • MLflow模型,一组api相同包模型和部署模型许多生产环境(例如码头工人、Azure毫升服务或Apache火花TM工作)。

自从我们MLflow发布,我们发现一个开源平台的想法毫升生命周期与社区强烈共鸣。bob下载地址bob体育客户端下载这个项目已经从74多个开发人员和40家公司贡献,如一个由RStudio R API和许多其他的添加。我们感到兴奋MLflow持续增长在2019年基于社区的反馈。

一些统计MLflow开源社区的增长bob下载地址
一些统计MLflow开源社区的增长bob下载地址

MLflow管理,我们不仅提供MLflow作为服务,还拥抱整个砖MLflow工作区。例如,笔记本修改自动捕获,与作为实验的一部分,您可以运行项目数据砖工作,实验是结合你的工作空间的安全控制。我们下一个描述这些关键功能。

跟踪实验数据砖工作区

创建高质量的ML模型通常需要大量的反复试验和多次迭代的建设、测试、调优,等等。在这个过程中,必须跟踪所有进入一个特定的运行,以及结果,然后能够组织和安全地分享这些。现在您可以创建实验对砖内部文件浏览器和记录你的结果。

砖的试验清单其运行和它们的关联元数据工作区

记录运行

您可以使用MLflow跟踪API记录运行跟踪模型、参数、数据代码,和结果。管理MLflow可以追踪运行发生内部或外部数据砖工作区。记录运行,只需加载开源MLflow客户端库(即。bob下载地址,将其附加到您的砖集群),电话mlflow.start_run ()在您的代码,然后叫MLflow(如日志语句mlflow.log_param ())来捕获参数、指标等。

如果您创建了一个运行在一个砖笔记本,砖自动捕获和链接的跑回具体修订的笔记本是用来生成它。你可以随时恢复,修改编辑版本的代码。

https://www.youtube.com/watch?v=rIC4rKetaVw

除了捕获元数据,如hyperparameters和标签,跑步还可以跟踪模型和其他构件如图片或文本文件。这些工件可能很大,所以默认文件系统存储在砖(DBFS)这是由云提供商的blob存储,使数以百万计的模型的存储和管理。

管理实验

MLflow实验可以在砖工作区中创建和组织就像一个笔记本,图书馆,或文件夹。只需点击一个实验看到其运行或列表进行比较。至关重要的是,与MLflow管理,实验是结合砖的标准基于角色的访问控制设置共享权限。

可再生的砖上运行的项目

可再生产地运行一个项目的能力是关键数据科学生产力,知识共享,和更快的发展。例如,一个项目可能包含从数据代码创建特性,然后火车模型,该模型使用的数据和一组hyperparameters作为输入。MLflow指定包一个项目在标准文件格式,它集成了Git,蟒蛇,和码头工人获取依赖项,如图书馆、参数和数据(见下文关于究竟MLflow项目)。

MLflow管理,你可以在本地开发MLflow项目并执行远程数据砖集群

https://www.youtube.com/watch?v=t3QyMgB037I

砖上运行一个项目从您的本地命令行输入mlflow project_folder_or_git_url——模式运行砖——cluster-spec your_cluster_spec.json(BOB低频彩了解更多关于集群的规格在我们的文档AzureAWS)。你也可以实现相同的结果使用MLflow Python API,它可以让你链在一起作为一个项目多步骤流程还是平行hyperparameter调优

在砖模型部署和行动

最后,您可以使用开源MLflow客户机从内部砖笔记bob下载地址本和就业管理您的模型和跨任何服务部署到生产模式(批、流、低延迟休息等)在一个广泛的部署平台。bob体育客户端下载你的部署选项包括:

  • 批处理或低延迟流(如使用结构化流)推理
    • 在砖大数据使用Apache火花
    • 在小数据模型使用本机格式(例如,scikit-learn或R)在砖。
  • 低延迟得分通过RESTful API使用MLflow内置的支持部署到Azure机器学习,亚马逊SageMaker或码头工人。
  • 出口火花MLlib模型使用MLeap低延迟得分直接嵌入到JVM应用程序(请参阅更多在这里)。
  • 通过MLflow API下载模型嵌入在一个应用程序。

所有这些部署操作可以执行通过开源MLflow从砖内库。bob下载地址然而,部署模型只是更大的图景的一部分时操作化。例如,大多数模型是今天投入生产的安排他们进一批新数据以一定的间隔周期。这需要等作业调度器砖的工作。你可以安排一个砖工作取得的新数据每小时(一天或一周,取决于数据摄取速度),并自动提醒你如果出现任何错误或性能异常。

https://www.youtube.com/watch?v=PWXK7w6XEP8

用户说什么

启动我们的公共预览MLflow之前,我们还与许多私人预览紧密合作客户从生物技术领域的金融和电子商务。他们的反馈帮助我们大大提高MLflow。我们很高兴看到MLflow帮助我们的客户解决他们的ML生命周期管理的挑战。

你可以加入我们数据+人工智能峰会听到直接从其他组织如Comcast和Showtime MLflow如何帮助他们加快机器学习生命周期。

下一个步骤

我们的公共预览MLflow管理仅仅是开始,我们计划用更多的集成和扩展管理MLflow更简单的工作流开发服务。迄今为止,我们认为我们已经用于许多团队,然而,我们很乐意听到你的反馈。

如果你现有的砖用户,您就可以开始使用托管MLflow导入快速启动笔记本Azure砖AWS。如果你没有一个砖的用户,访问www.neidfyre.com/mlflow了解更BOB低频彩多,开始的免费试用MLflow砖和管理。

最后,如果你想了解更多关于MLflow,不要错过我们BOB低频彩即将举行的研讨会机器学习完整的生命周期管理产品副总裁创始人——安迪Konwinski MLflow的砖和铅的产品经理。此外,我们将提供一个MLflow培训数据+人工智能峰会实践经验。我们很想听听你如何使用MLflow和如何使ML和数据开发周期更加简单。

机器学习管理生命周期

免费试着砖
看到所有公告的帖子