准备数据分布式训练
本文描述了两种方法准备数据分布式训练:Petastorm TFRecords。
Petastorm(推荐)
Petastorm是一个开源的bob下载地址数据访问图书馆,使直接加载数据存储在Apache镶花的格式。这是砖和Apache的火花方便用户因为拼花是推荐的数据格式。本文说明了这个用例:
TFRecord
您还可以使用TFRecord格式作为分布式数据源深度学习。TFRecord格式是一种简单的面向记录的二进制格式,许多TensorFlow训练数据的应用程序使用。
tf.data.TFRecordDataset是TensorFlow数据集,它是由从TFRecords文件的记录。更多细节关于如何使用TFRecord数据,看到TensorFlow指南消费TFRecord数据。
下面的文章描述和说明推荐的方法来保存您的数据和负载TFRecord TFRecord文件文件: