MLflow按需网络研讨会和常见问题解答现已可用!
8月30日,我们团队举办了一场网络直播研讨会介绍MLflow:用于完整机器学习生命周期的基础设施——与Databricks联合创始人兼首席技术专家Matei Zaharia合作。
在这次网络研讨会中,我们带你走过MLflow是Databribob下载地址cks的一个新的开源项目,旨在设计一个开放的ML平台,组织可以使用任何ML库和开发工具来可靠地构建和共享ML应用程序。bob体育客户端下载MLflow引入了简单的抽象来打包可重复的项目,跟踪结果,并封装可以与许多现有工具一起使用的模型,从而加速任何规模的组织的ML生命周期。
特别地,我们演示了如何:
- 使用MLflow Tracking跟踪流行框架的实验运行和结果
- 从命令行或Databricks笔记本执行发布在GitHub上的MLflow项目,以及在Databricks集群上远程执行项目
- 在预置或云中快速部署MLflow模型,并通过REST api公开它们
如果你错过了网络研讨会,你可以视图它现在。此外,我们还演示了以下内容笔记本和数据集.
更多的代码示例和教程可在GitHub,包括超参数调优,以及模型的训练和跟踪Tensorflow、Pytorch和scikit-learn。
如果你想免费访问Databricks统bob体育亚洲版一分析平台bob体育客户端下载试一下我们的笔记本,你可以访问免费试用.
最后,我们进行了问答环节,下面是大家提出的问题和回答。
一般的问题
问:MLflow是alpha版本,第一个稳定版本的时间表是什么时候?
我们非常关心API的稳定性,并使MLflow成为一个可以长期构建的库。我们希望API尽快稳定,目前的目标是在2019年上半年开始保证稳定。
Q: MLflow模块是一起使用还是只使用跟踪模块?
是的,你一次只能使用一个模块:MLflow跟踪,MLflow项目,或MLflow模型.MLflow被设计为模块化,以提供最大的灵活性,并轻松集成到用户现有的ML开发流程中。
问:MLflow与Azure一起工作吗?Cloudera吗?其他供应商?
您可以在任何平台上使用开源MLfbob下载地址low软件。bob体育客户端下载存储工作在本地或在云Azure Blob存储,S3或谷歌云存储,我们有一些文档关于如何使用MLflow与或没有Databricks。
问:你们计划在未来支持AutoML吗,比如自动参数调优?
MLflow很容易与现有的超参数调优工具(如Hyperopt或GPyOpt)集成。您可以使用这些工具自动运行具有不同超参数的MLflow项目,以找到最佳的超参数组合。有一个例子包含在MLflow代码库中。
问:MLflow和H2O AutoML有什么不同?
MLflow的目标不是成为一个自动化整个模型开发过程的纯AutoML解决方案。相反,它旨在简化ML开发过程,通过让现有的ML开发人员(包括数据科学家和生产工程师)轻松跟踪、重现和比较结果,从而提高他们的工作效率。这些特性对于进入生产环境和可靠地维护模型非常有用,即使您使用AutoML,它们也可以与其他ML工具一起工作,而不仅仅是AutoML库中支持的那些工具。
问:有没有想过将TransmogrifAI(自动化功能工程)这样的东西集成到MLflow中?
是的,我们的目标是轻松地支持使用任意ML库,包括TransmogrifAI。例如,您可以使用MLflow将参数和指标记录到TransmorgifAI,然后可视化以发现模式,这样您就可以重新配置TransmogrifAI实验以获得更好的性能。
MLflow跟踪的问题
MLflow跟踪允许记录和查询实验:代码,数据,配置,结果。在本次网络研讨会中,我们演示了如何使用通用Python函数以及使用MLflow的scikit-learn跟踪线性回归模型的结果。更多示例见Github.
问:您是否有在团队设置中使用共享MLflow跟踪服务器的文档?共享跟踪服务器有安全措施吗?如果我想知道是谁做的实验。
当然,这是我们的文档MLflow跟踪以及跟踪服务器可以为协作目的而设置。此外,MLflow跟踪UI可以让您看到谁已经将运行记录到MLflow跟踪服务器。MLflow跟踪服务器只提供一个HTTP接口,因此我们建议将其置于HTTP代理或VPN之后,以实现安全身份验证。
问:指标/参数记录在哪里?
MLflow运行可以记录在本地文件中,也可以远程记录到MLflow跟踪服务器.它与Azure Blob Storage、S3或谷歌Cloud Storage一起工作。详情请参阅我们的文档.
问:如何从Azure Databricks运行MLflow UI ?
您可以使用开源MLflow在Azure Databricks上使用MLflow,就像我们在本次网bob下载地址络研讨会中演示的那样。你可以参考我们的文档获取更多信息。在0.6版本中,MLflow将自动理解您是否在Databricks中运行实验,并将记录到您的笔记本或工作的链接。
我们还在Databricks上为客户提供托管MLflow的私人预览。你可以在//www.neidfyre.com/product/managed-mlflow获取更多信息。
问:你们将来有没有计划在数据库上也启用存储?
是的,我们还计划包括一个数据库存储后端,以便您可以插入常见的SQL数据库。MLflow中的存储后端已经是可插拔的,因此我们欢迎开源贡献者加入这一功能。bob下载地址
问:如果我在Databricks笔记本电脑上运行网格搜索功能,可以直接跟踪到MLflow吗?
是的,你甚至可以在同一个细胞中循环进行多个实验。MLflow将在您使用API时记录所有的运行。
MLflow项目的问题
MLflow项目允许在任何平台上进行可重复运行的打包格式。bob体育客户端下载BOB低频彩了解更多在这里.
问:Github项目是否需要有一个MLproject文件来支持通过MLflow运行?
我们目前建议您在对GitHub项目执行MLflow时创建一个MLproject文件。虽然你也可以在没有它的情况下在GitHub存储库中运行代码(只需在存储库中指定一个脚本作为你的入口点)MLProject
有助于记录入口点(即如何运行代码)及其依赖关系。
MLflow模型的问题
MLflow Models提供了支持各种部署工具的通用模型格式。BOB低频彩了解更多在这里.
问:“云运行”功能如何配置?如果我想先在cpu强的VM上运行作业,然后再在gpu强的VM上运行作业,该怎么办?
MLflow被设计成与您的环境无关,所以只要您的ML库支持在不同类型的硬件上运行,就应该可以将其打包到MLflow模型中并在这些设置中部署。该项目内置了与流行ML库的集成,我们打算对其进行优化以获得良好的性能。
问:将Databricks笔记本导出到Azure ML web服务作为开源MLflow的一部分是否可用bob下载地址
目前MLflow支持将模型导出到Azure ML,但我们不支持导出笔记本。我们只是导出您构建的模型,该函数,是的,它今天是受支持的。你可以在我们的文档.
问:MLflow是否支持将scikit学习模型部署到Amazon Sagemaker,它是如何工作的?
的mlflow.sagemaker模块可以将python_function模型部署在SageMaker上,或者本地部署在具有SageMaker兼容环境的Docker容器中。为了使用MLflow部署到SageMaker,您必须首先设置环境和用户帐户。此外,为了将自定义模型导出到SageMaker,您需要在Amazon ECR上提供与mlflow兼容的Docker映像。MLflow提供了一个默认的Docker映像定义;然而,这是由您建立实际的图像,并将其上传到您的ECR帐户。MLflow包含一个执行此步骤的实用程序。一旦构建并上传,MLflow容器就可以用于所有MLflow模型。有关更多信息,请参阅我们的文档.
要开始使用MLflow,请遵循mlflow.org或查看alpha发布代码Github.我们最近还创建了一个松弛的通道MLflow以及实时问题,你可以跟随@MLflow在Twitter上。我们很高兴听到您对概念和代码的反馈!