介绍MLflow运行边栏在Databricks笔记本
在2019年Spark+AI峰会上,我们在Databricks上宣布了托管MLflow的GA其中我们采用了最新最好的开源MLflow,并使Databricks的所有用户都可以轻松访bob下载地址问它。在那篇博文中,我们承诺将构建一些特性来连接Databricks和MLflow概念,从而实现两者之间的无缝集成。
今天,我们激动地宣布MLflow笔记本侧栏,这是这些集成中的第一个。
在笔记本中跟踪实验并生成可复制的机器学习代码是很困难的。我们喜欢笔记本界面,因为它提供了编写代码和查看结果之间的快速迭代周期。然而,这些好处也使我们很难跟踪所有的笔记本修订。我们经常问这样一个问题:它是无题的吗?Ipynb或untitled(1)。Ipynb以x%的验证准确性创建了这个训练运行?
是UNTITLED创造了最好的模型还是UNTITLED(1)?这个梗改编自Joel Grus在JupyterCon的演讲:我不喜欢笔记本.
传统的版本管理工具(如Git)也不是为这个用例设计的。为您创建的每个训练运行创建一个Git分支只比复制笔记本好一点点,因为您仍然需要跟踪每个分支的性能。
使用MLflow Runs侧边栏特性,我们试图弥合笔记本的快速迭代周期和跟踪代码修订的困难之间的差距。使用MLflow易于使用的跟踪api,用户已经可以跟踪每次训练运行的超参数和输出指标。在Managed MLflow on Databricks中,我们还将自动获取创建训练运行的笔记本修订的快照,并将其存储为运行元数据的一部分。
使用这些数据,我们创建了一个笔记本侧栏,显示您从这个笔记本上记录的所有实验运行。有了这个侧边栏,用户可以快速浏览他们的训练,并查看创建每个训练的笔记本的确切版本,以及它在那个时间点的样子。当然,如果您发现要恢复的笔记本修订,我们还允许您将其另存为Databricks工作区中的新笔记本。
https://www.youtube.com/watch?v=v-dkc2DvSw4
此外,MLflow Runs侧边栏上显示的所有数据也显示在我们都知道并喜欢的完整MLflow UI中。
https://www.youtube.com/watch?v=s4OPfXjFUE8
下一个步骤
MLflow运行侧边栏只是一个开始——我们计划在开发服务时扩展Databricks Managed MLflow,提供更多的集成和更简单的工作流程。我们认为到目前为止,我们所拥有的已经对许多团队有用,但是,我们希望听到您的反馈。
如果您是现有的Databricks用户,则可以通过导入快速入门笔记本为Azure砖或AWS.如果您还不是Databricks用户,请访问www.neidfyre.com/product/managed-mlflow开始免费试用Databricks和Managed MLflow。