航迹模型开发
模型开发过程是迭代的,并且在开发和优化模型时跟踪您的工作可能具有挑战性。在Databricks中,您可以使用MLflow跟踪帮助您跟踪模型开发过程,包括您尝试过的参数设置或组合,以及它们如何影响模型的性能。
MLflow跟踪用途实验而且运行记录和跟踪您的模型开发。运行是模型代码的一次执行。在MLflow运行期间,您可以记录模型参数和结果。实验是相关运行的集合。在实验中,您可以比较和筛选运行,以了解您的模型如何执行,以及它的性能如何依赖于参数设置、输入数据等。
本文中的笔记本提供了一些简单的示例,可以帮助您快速开始使用MLflow跟踪模型开发。有关在Databricks中使用MLflow跟踪的详细信息,请参见跟踪机器学习训练运行.
请注意
MLflow跟踪不支持提交的作业spark_submit_task在Jobs API中。相反,您可以使用MLflow项目运行Spark代码。
使用自动记录来跟踪模型开发
MLflow可以自动记录在许多ML框架中编写的训练代码。这是开始使用MLflow跟踪的最简单方法。
这个示例笔记本展示了如何使用自动记录scikit-learn.有关使用其他Python库进行自记录的信息,请参见自动将训练运行记录到MLflow.
使用日志API来跟踪模型开发
本笔记本演示了如何使用MLflow日志API。使用日志API可以更好地控制记录的指标,并允许您记录额外的工件,如表或图。
这个示例笔记本显示如何使用Python日志API.MLflow也有REST、R和Java api.