将Apache Spark DataFrames保存为TFRecord文件
TFRecord文件格式是一种简单的面向记录的ML训练数据二进制格式。的tf.data.TFRecordDataset类允许您将一个或多个TFRecord文件的内容作为输入管道的一部分进行流处理。
请注意
本指南不是关于使用TensorFlow导入数据的全面指南。看到TensorFlow API指南.
保存Apache Spark DataFrames到TFRecord文件
你可以使用spark-tensorflow-connector将Apache Spark DataFrames保存到TFRecord文件。
spark-tensorflow-connector图书馆在TensorFlow生态系统可以在Spark dataframe和TFRecords(TensorFlow存储数据的流行格式)。使用Spark -tensorflow-connector,您可以使用Spark DataFrame api将TFRecords文件读入DataFrame,并将DataFrame写入TFRecords。
请注意
其中包含spark-tensorflow连接器库介绍Databricks运行时机器学习.无需使用以下说明安装库,只需使用介绍Databricks运行时机器学习.使用spark-tensorflow-connector砖运行时,您需要从Maven安装库。看到Maven或Spark包获取详细信息。
使用TensorFlow从TFRecord文件中加载数据
方法加载TFRecord文件tf.data.TFRecordDataset
类。看到读取TFRecord文件从TensorFlow获取详细信息。
下面的示例笔记本演示了如何将数据从Apache Spark DataFrames保存到TFRecord文件,并加载TFRecord文件用于ML训练。