模型训练示例

本节包括示例,展示如何使用许多流行的开源库在Databricks上训练机器学习和深度学习模型。

你也可以使用AutoML,它会自动为模型训练准备一个数据集,使用scikit-learn和XGBoost等开源库执行一组试验,并为每次试验运行创建一个包含源代码的Python笔记本,以便您可以审查、复制和修改代码。

有关演示如何训练使用Unity Catalog中的数据并将预测写回Unity Catalog的机器学习模型的示例笔记本,请参见使用Unity Catalog数据进行Python ML模型训练

机器学习的例子

笔记本(s)

特性

scikit-learn

机器学习入门

分类模型,MLflow,使用Hyperopt和MLflow进行自动超参数调优

scikit-learn

使用模型注册表进行机器学习

分类模型,MLflow,自动超参数调优与Hyperopt和MLflow,模型注册

scikit-learn

的端到端示例

分类模型,MLflow,使用Hyperopt和MLflow的自动超参数调优,XGBoost,模型注册表,模型服务

MLlib

MLlib例子

二叉分类,决策树,GBT回归,结构化流,自定义转换器

xgboost

XGBoost例子

Python, PySpark和Scala,单节点工作负载和分布式培训

深度学习的例子

也看到在Databricks上的深度学习最佳实践

笔记本

特性

TensorFlow Keras

深度学习快速入门

TensorFlow Keras, TensorBoard, Hyperopt, MLflow

TensorFlow(单节点)

TensorFlow教程与MNIST数据集

TensorFlow, TensorBoard

PyTorch(单节点)

PyTorch教程与MNIST数据集

PyTorch

关于分布式深度学习训练,请参见:

笔记本

特性

HorovodRunner (TensorFlow Keras)

TensorFlow Keras MNIST示例

TensorFlow Keras单节点分布式训练

HorovodRunner (PyTorch)

PyTorch MNIST示例

PyTorch单节点进行分布式训练

HorovodRunner

Horovod时间表

Horovod时间表

horovod.spark(PyTorch和Keras)

horovod.sparkpackage

horovod.spark用于ML管道Keras和PyTorch的估计器API

spark-tensorflow-distributor

使用TensorFlow进行分布式训练

在Apache Spark集群上使用TensorFlow进行分布式训练

超参数调优示例

有关Databricks中超参数调优的一般信息,请参见Hyperparameter调优

笔记本

特性

Hyperopt

分布式hyperopt

分布式hyperopt, scikit-learn, MLflow

Hyperopt

比较模型

利用分布式超选择同时搜索不同模型类型的超参数空间

Hyperopt

分布式训练算法和超opt

Hyperopt, MLlib

Hyperopt

Hyperopt最佳实践

不同大小数据集的最佳实践