为机器学习和深度学习加载数据

请注意

托管MLflow与谷歌Cloud上的Databricks集成需要Databricks运行时机器学习9.1 LTS或以上。

本节将介绍关于ML和DL应用程序加载数据的信息。有关加载数据的一般信息,请参见将数据加载到Databricks Lakehouse

存储用于数据加载和模型检查点的文件

机器学习应用程序可能需要使用共享存储来进行数据加载和模型检查点。这对于分布式深度学习尤为重要。

砖提供Databricks文件系统使用Spark和本地文件api访问集群上的数据。

加载表格数据

您可以加载表格机器学习数据或文件(例如,请参见CSV文件).可以将Apache Spark dataframe转换为pandas dataframePySpark方法toPandas (),然后可选地转换为NumPy格式熊猫的方法to_numpy ()

为分布式培训准备数据

本节将介绍为分布式训练准备数据的两种方法:Petastorm和TFRecords。