TensorFlow数据读取：TFRecord格式与队列实例解析

11 浏览量更新于2024-08-29 收藏 187KB PDF 举报

"本文主要介绍了如何使用TensorFlow的TFRecord格式存储数据以及通过队列读取数据的方法。在TensorFlow中，数据的读取方式包括预加载数据、填充数据和从文件读取数据。预加载数据会将所有数据直接嵌入到数据图中，适合小规模数据，但对内存消耗大；填充数据则通过feed_dict参数动态输入，虽方便但内存消耗和类型转换耗时。最有效的方法是从文件读取数据，特别是使用TFRecord格式，它是一种高效的二进制文件格式，能够优化内存使用并简化数据处理。" 在TensorFlow中，TFRecord格式被设计用来存储大量的数据，尤其适用于大规模机器学习项目。它将数据转换为可序列化的二进制格式，便于高效地读取和处理。文件中的每个记录都是一个独立的、自包含的数据块，可以包含多个特征，每个特征以键值对的形式存在。要将数据转换为TFRecord格式，首先需要定义用于创建`tf.train.Feature`的辅助函数，如`def_int64_feature`和`def_bytes_feature`。这些函数分别用于创建64位整数和字节串类型的特征。然后，通过`tf.train.Example`协议缓冲区（protocol buffer）将数据结构化，再将其序列化为字符串，最后使用`tf.python_io.TFRecordWriter`写入到TFRecord文件中。在读取TFRecord文件时，通常会使用队列管理器（queue manager），它能有效地加载数据并处理数据流。队列管理器包含了多种类型的队列，如随机读取队列（random shuffle queue）和批处理队列（batch queue），可以实现数据的随机化和批量处理，这对于训练神经网络模型非常关键，因为它可以增加模型的泛化能力。以下是一个基本的TFRecord文件读取流程： 1. 创建一个`TFRecordReader`对象，指定TFRecord文件的路径。 2. 使用`reader.read()`方法从文件中读取一条记录，返回键和对应的序列化字符串。 3. 解码序列化字符串，使用`tf.parse_single_example()`或`tf.parse_example()`函数将数据解析回原始形式。 4. 将解码后的数据放入队列，例如使用`tf.train_enqueue_ops`。 5. 在训练循环中，从队列中获取数据进行训练。使用队列管理器的好处在于，它可以实现多线程读取，提高数据加载速度，同时还可以在训练过程中添加数据预处理步骤，如归一化、随机扰动等。 TFRecord格式结合队列读取机制，为TensorFlow提供了一种高效、灵活的数据处理方案，特别适合处理大规模数据集，从而优化了训练过程，提升了模型性能。

TFRecord格式存储数据与队列读取实例格式存储数据与队列读取实例

Tensor Flow官方网站上提供三种读取数据的方法官方网站上提供三种读取数据的方法

1. 预加载数据：在Tensor Flow图中定义常量或变量来保存所有数据,将数据直接嵌到数据图中，当训练数据较大时，很消耗内

存。

如

x1=tf.constant([0,1])

x2=tf.constant([1,0])

y=tf.add(x1,x2)

2.填充数据：使用sess.run()的feed_dict参数，将Python产生的数据填充到后端，之前的MNIST数据集就是通过这种方法。也

有消耗内存，数据类型转换耗时的缺点。

3. 从文件读取数据：从文件中直接读取，让队列管理器从文件中读取数据。分为两步

先把样本数据写入TFRecords二进制文件

再从队列中读取

TFRecord是TensorFlow提供的一种统一存储数据的二进制文件，能更好的利用内存，更方便的复制和移动，并且不需要单独

的标记文件。下面通过代码来将MNIST转换成TFRecord的数据格式，其他数据集也类似。

#生成整数型的属性

def _int64_feature(value):

return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

#生成字符串型的属性

def _bytes_feature(value):

return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def convert_to(data_set,name):

'''

将数据填入到tf.train.Example的协议缓冲区（protocol buffer)中，将协议缓冲区序列

化为一个字符串，通过tf.python_io.TFRecordWriter写入TFRecords文件

'''

images=data_set.images

labels=data_set.labels

num_examples=data_set.num_examples

if images.shape[0]!=num_examples:

raise ValueError ('Imagessize %d does not match label size %d.'\

%(images.shape[0],num_examples))

rows=images.shape[1] #28

cols=images.shape[2] #28

depth=images.shape[3] #1 是黑白图像

filename = os.path.join(FLAGS.directory, name + '.tfrecords')

#使用下面语句就会将三个文件存储为一个TFRecord文件,当数据量较大时，最好将数据写入多个文件

#filename="C:/Users/dbsdz/Desktop/TF练习/TFRecord"

print('Writing',filename)

writer=tf.python_io.TFRecordWriter(filename)

for index in range(num_examples):

image_raw=images[index].tostring() #将图像矩阵化为一个字符串

#写入协议缓冲区，height、width、depth、label编码成int 64类型，image——raw编码成二进制

example=tf.train.Example(features=tf.train.Features(feature={

'height':_int64_feature(rows),

'width':_int64_feature(cols),

'depth':_int64_feature(depth),

'label':_int64_feature(int(labels[index])),

'image_raw':_bytes_feature(image_raw)}))

writer.write(example.SerializeToString()) #序列化字符串

writer.close()

上面程序可以将MNIST数据集中所有的训练数据存储到三个TFRecord文件中。结果如下图

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38581447

粉丝: 8
资源: 911

TensorFlow数据读取：TFRecord格式与队列实例解析

TFRecord文件查看包含的所有Features代码

TFRecord数据存储与队列读取实战教程

将自己的数据集制作成TFRecord格式教程

Tensorflow使用tfrecord输入数据格式

Tensorflow高效数据读取：tfrecord详解与实战

Tensorflow高效数据读取：使用tfrecord详解

从多个tfrecord文件中无限读取文件的例子

TensorFLow 不同大小图片的TFrecords存取实例

使用TensorFlow框架读取图片文件的Python实践

【高效数据管道】：TensorFlow中的队列与线程使用技巧

最新资源