为机器学习和深度学习准备数据和环境
本节描述如何为机器学习和深度学习准备数据和Databricks环境。
准备环境
的Databricks运行时机器学习(Databricks Runtime ML)是一个为机器学习和数据科学优化的现成环境。Databricks Runtime ML包括许多外部库,包括TensorFlow, PyTorch, Horovod, scikit-learn和XGBoost,并提供扩展来提高性能,包括GPU加速XGBoost,分布式深度学习使用HorovodRunner,并使用Databricks File System (DBFS)保险丝挂载.
若要使用Databricks Runtime ML,请在运行时选择运行时的ML版本创建集群.
请注意
要访问用于机器学习工作流的Unity Catalog中的数据,必须使用单用户集群.用户隔离群集与Databricks机器学习运行时不兼容。
使用GPU集群
通过创建GPU集群,可以加速深度学习任务。有关创建Databricks GPU集群的详细信息,请参见GPU-enabled集群.Databricks Runtime ML包括GPU硬件驱动程序和NVIDIA库,如CUDA。