加载数据的机器学习和深度的学习
本节将介绍信息专为毫升和DL应用程序加载数据。对于一般信息加载数据,看看数据加载到砖Lakehouse。
加载和存储文件数据模型检查点
机器学习应用程序可能需要使用共享存储模型数据加载和检查点。这对于分布式深度学习尤为重要。
砖提供砖文件系统(DBFS)用于访问数据集群上使用火花和本地文件api。
加载表格数据
机器学习可以加载表格数据表或文件(例如,明白了CSV文件)。你可以将Apache火花DataFrames转换成熊猫DataFrames使用PySpark方法toPandas ()
,然后选择皈依NumPy格式使用熊猫的方法to_numpy ()
。
准备数据分布式训练
本节将介绍两种方法准备数据分布式训练:Petastorm TFRecords。