模型训练示例
本节包括示例,展示如何使用许多流行的开源库在Databricks上训练机器学习和深度学习模型。
你也可以使用AutoML,它会自动为模型训练准备一个数据集,使用scikit-learn和XGBoost等开源库执行一组试验,并为每次试验运行创建一个包含源代码的Python笔记本,以便您可以审查、复制和修改代码。
有关演示如何训练使用Unity Catalog中的数据并将预测写回Unity Catalog的机器学习模型的示例笔记本,请参见使用Unity Catalog数据进行Python ML模型训练.
机器学习的例子
包 |
笔记本(s) |
特性 |
---|---|---|
scikit-learn |
分类模型,MLflow,使用Hyperopt和MLflow进行自动超参数调优 |
|
scikit-learn |
分类模型,MLflow,自动超参数调优与Hyperopt和MLflow,模型注册 |
|
scikit-learn |
分类模型,MLflow,使用Hyperopt和MLflow的自动超参数调优,XGBoost,模型注册表,模型服务 |
|
MLlib |
二叉分类,决策树,GBT回归,结构化流,自定义转换器 |
|
xgboost |
Python, PySpark和Scala,单节点工作负载和分布式培训 |
深度学习的例子
包 |
笔记本 |
特性 |
---|---|---|
TensorFlow Keras |
TensorFlow Keras, TensorBoard, Hyperopt, MLflow |
|
TensorFlow(单节点) |
TensorFlow, TensorBoard |
|
PyTorch(单节点) |
PyTorch |
关于分布式深度学习训练,请参见:
包 |
笔记本 |
特性 |
---|---|---|
HorovodRunner (TensorFlow Keras) |
TensorFlow Keras单节点分布式训练 |
|
HorovodRunner (PyTorch) |
PyTorch单节点进行分布式训练 |
|
HorovodRunner |
Horovod时间表 |
|
|
|
|
|
在Apache Spark集群上使用TensorFlow进行分布式训练 |
超参数调优示例
有关Databricks中超参数调优的一般信息,请参见Hyperparameter调优.
包 |
笔记本 |
特性 |
---|---|---|
Hyperopt |
分布式hyperopt, scikit-learn, MLflow |
|
Hyperopt |
利用分布式超选择同时搜索不同模型类型的超参数空间 |
|
Hyperopt |
Hyperopt, MLlib |
|
Hyperopt |
不同大小数据集的最佳实践 |