将Apache Spark DataFrames保存为TFRecord文件

TFRecord文件格式是一种简单的面向记录的ML训练数据二进制格式。的tf.data.TFRecordDataset类允许您将一个或多个TFRecord文件的内容作为输入管道的一部分进行流处理。

请注意

本指南不是关于使用TensorFlow导入数据的全面指南。看到TensorFlow API指南

保存Apache Spark DataFrames到TFRecord文件

你可以使用spark-tensorflow-connector将Apache Spark DataFrames保存到TFRecord文件。

spark-tensorflow-connector图书馆在TensorFlow生态系统可以在Spark dataframe和TFRecords(TensorFlow存储数据的流行格式)。使用Spark -tensorflow-connector,您可以使用Spark DataFrame api将TFRecords文件读入DataFrame,并将DataFrame写入TFRecords。

请注意

其中包含spark-tensorflow连接器库介绍Databricks运行时机器学习.无需使用以下说明安装库,只需使用介绍Databricks运行时机器学习.使用spark-tensorflow-connector砖运行时,您需要从Maven安装库。看到Maven或Spark包获取详细信息。

使用TensorFlow从TFRecord文件中加载数据

方法加载TFRecord文件tf.data.TFRecordDataset类。看到读取TFRecord文件从TensorFlow获取详细信息。

下面的示例笔记本演示了如何将数据从Apache Spark DataFrames保存到TFRecord文件,并加载TFRecord文件用于ML训练。

为分布式DL准备图像数据

在新标签页打开笔记本