保存Apache火花DataFrames TFRecord文件

本文向您展示如何使用Apache火花DataFrames spark-tensorflow-connector保存和负载TFRecord TensorFlow TFRecord文件。

TFRecord文件格式是一种简单的面向记录毫升训练数据的二进制格式。的tf.data.TFRecordDataset类允许您流在一个或多个TFRecord文件的内容作为一个输入管道的一部分。

使用spark-tensorflow-connector图书馆

您可以使用spark-tensorflow-connector拯救Apache火花DataFrames TFRecord文件。

spark-tensorflow-connector图书馆内的吗TensorFlow生态系统,使火花DataFrames之间的转换TFRecords(TensorFlow流行的格式来存储数据)。spark-tensorflow-connector一样,您可以使用火花DataFrame api TFRecords文件读入DataFrames和写DataFrames TFRecords。

请注意

spark-tensorflow-connector库是包含在砖运行时机器学习。使用spark-tensorflow-connector砖运行时,您需要安装Maven的图书馆。看到Maven或火花包获取详细信息。

例如:与TensorFlow从TFRecord加载数据文件

笔记本的示例演示了如何从Apache火花DataFrames TFRecord文件保存数据和负载毫升TFRecord文件培训。

你可以加载TFRecord文件使用tf.data.TFRecordDataset类。看到阅读TFRecord文件从TensorFlow细节。

图像数据准备分布式DL笔记本

在新标签页打开笔记本