为机器学习和深度学习准备数据和环境

本节描述如何为机器学习和深度学习准备数据和Databricks环境。

准备数据

本节中的文章涵盖了特定于ML和DL应用程序的加载和预处理数据的各个方面。

准备环境

Databricks运行时机器学习(Databricks Runtime ML)是一个为机器学习和数据科学优化的现成环境。Databricks Runtime ML包括许多外部库,包括TensorFlow, PyTorch, Horovod, scikit-learn和XGBoost,并提供扩展来提高性能,包括GPU加速XGBoost,分布式深度学习使用HorovodRunner,并使用Databricks File System (DBFS)保险丝挂载

若要使用Databricks Runtime ML,请在运行时选择运行时的ML版本创建集群

请注意

要访问用于机器学习工作流的Unity Catalog中的数据,必须使用单用户集群.用户隔离群集与Databricks机器学习运行时不兼容。

安装库

你可以安装额外的为您的笔记本或集群创建自定义环境。

使用GPU集群

通过创建GPU集群,可以加速深度学习任务。有关创建Databricks GPU集群的详细信息,请参见GPU-enabled集群.Databricks Runtime ML包括GPU硬件驱动程序和NVIDIA库,如CUDA。