航迹模型开发

模型开发过程是迭代的,并且在开发和优化模型时跟踪您的工作可能具有挑战性。在Databricks中,您可以使用MLflow跟踪帮助您跟踪模型开发过程,包括您尝试过的参数设置或组合,以及它们如何影响模型的性能。

MLflow跟踪用途实验而且运行记录和跟踪您的模型开发。运行是模型代码的一次执行。在MLflow运行期间,您可以记录模型参数和结果。实验是相关运行的集合。在实验中,您可以比较和筛选运行,以了解您的模型如何执行,以及它的性能如何依赖于参数设置、输入数据等。

本文中的笔记本提供了一些简单的示例,可以帮助您快速开始使用MLflow跟踪模型开发。有关在Databricks中使用MLflow跟踪的详细信息,请参见跟踪机器学习训练运行

请注意

MLflow跟踪不支持提交的作业spark_submit_task在Jobs API中。相反,您可以使用MLflow项目运行Spark代码。

使用自动记录来跟踪模型开发

MLflow可以自动记录在许多ML框架中编写的训练代码。这是开始使用MLflow跟踪的最简单方法。

这个示例笔记本展示了如何使用自动记录scikit-learn.有关使用其他Python库进行自记录的信息,请参见自动将训练运行记录到MLflow

MLflow自动快速入门Python笔记本

在新标签页打开笔记本

使用日志API来跟踪模型开发

本笔记本演示了如何使用MLflow日志API。使用日志API可以更好地控制记录的指标,并允许您记录额外的工件,如表或图。

这个示例笔记本显示如何使用Python日志API.MLflow也有REST、R和Java api

MLflow日志API快速入门Python笔记本

在新标签页打开笔记本

的端到端示例

本教程提供了一个在Databricks中训练模型的端到端示例,包括加载数据、可视化数据、设置并行超参数优化,以及使用MLflow检查结果、注册模型,并使用Spark UDF中注册的模型对新数据执行推断。

需求

Databricks运行时ML

例如笔记本电脑

MLflow端到端示例笔记本

在新标签页打开笔记本