分析你与DataFrames MLflow数据
马克斯·艾伦实习与砖工程在2019年的夏天。这篇博客,写的马克斯,凸显了伟大的工作,他在团队。
介绍MLflow和机器学习开发生命周期
MLflow是一个开源平bob下载地址台的机器学bob体育客户端下载习生命周期,和许多砖客户一直用它来开发和部署模型发现金融诈骗,找到销售趋势,权力ride-hailing。的一个重要部分机器学习开发生命周期测试了不同的模型,每一种都可以使用不同的算法,构造hyperparameters和数据集。MLflow跟踪组件允许所有这些参数和属性模型的跟踪,以及关键指标如准确性、损失,AUC。幸运的是,由于我们引入自动对数MLflow 1.1,这些跟踪工作将照顾你。
下一步是理解过程中机器学习模型执行基于结果的最佳指标。当你只有少数运行比较,MLflow UI的比较功能运行良好。您可以查看运行的指标排队相邻并创建散点,线,平行坐标图。
两个新api MLflow数据进行分析
然而,当运行在一个实验和模型数量的增长(特别是在运行一个AutoML或hyperparameter搜索算法),变得繁琐的分析在UI中。在某些情况下,您会希望直接访问实验数据来创建自己的阴谋,做额外的数据工程,或使用一个多步骤的工作流中的数据。这就是为什么我们已经创建了两个新的api,允许用户访问他们MLflow DataFrame数据。第一个是一个从MLflow Python API访问客户端返回一个熊猫DataFrame。API,第二个是一个Apache火花数据源加载数据到火花DataFrame MLflow实验。一旦运行数据访问DataFrame,有许多不同类型的分析,可以帮助您选择最好的机器学习模型为您的应用程序。
熊猫DataFrame搜索API
注意:大熊猫DataFrame搜索API可用MLflow开源版本1.1.0版或更高版本。bob下载地址这也是预装在运行时6.0毫升,大砖。
因为熊猫是这样一个常用库数据科学家,我们决定创建一个mlflow.search_runs ()API返回您的MLflow在运行熊猫DataFrame。这个API需要在类似的争论mlflow.tracking.search_runs ()API,除了page_token参数。这个API自动分页通过你所有的运行并将它们添加到DataFrame。使用它非常简单:
进口mlflow
运行= mlflow.search_runs (“< experiment_id >”)< / experiment_id >
如果你不提供一个实验ID、API试图找到MLflow实验与你的笔记本。这将工作情况下当你以前创建的MLflow运行在这个笔记本上。否则,ID为特定的实验中,你可以找到它在MLflow界面:
或者你可以通过编程的方式如果你知道实验的全名:
从mlflow.tracking进口MlflowClient
客户= MlflowClient ()exp_id = client.get_experiment_by_name (“< experiment_name >”).experiment_id< / experiment_name >
等可选参数的搜索API还需要一个过滤器字符串,它遵循搜索语法中描述MLflow搜索文档。加载模型与指标“准确性”超过85%看起来像下面的查询:
运行= mlflow.search_runs (“