Tensorflow高效数据读取策略：TFRecord打包与批量读取解析

116 浏览量更新于2024-08-30 收藏 73KB PDF 举报

在TensorFlow中，批量读取数据是数据处理过程中的关键步骤，特别是对于大规模数据集，高效的数据流管理能显著提高模型训练的效率。本文将重点讨论两种常见的数据读取方式：单一数据读取和随机批量数据读取，以及TFRecord文件的打包与读取。 1. 单一数据读取方式 - **slice_input_producer()**: 这种方法适用于一次性读取固定顺序的数据。用户可以创建一个`tf.train.slice_input_producer()`操作，传入包含图像和标签的张量列表。这个函数返回一个数据队列，可以通过`Session.run([images, labels])`获取数据。需要注意的是，由于`slice_input_producer()`默认不指定迭代次数(`num_epochs=None`)，数据会被无限循环读取，直到被其他操作关闭或进程结束。如果希望限制迭代次数，需要设置`num_epochs`。 - **string_input_producer()**: 对于文件数据，推荐使用`string_input_producer()`，它需要首先定义一个文件读取器，如`tf.WholeFileReader`。通过调用`reader.read(file_queue)`获取文件名和内容（key-value对），然后使用`Session.run(value)`来读取数据。这个方法可以生成一个文件名队列，用于迭代访问数据文件。如果`num_epochs`为`None`，则会无限遍历文件，直到队列耗尽。 2. 随机批量数据读取方式 - **batch()** 和 **shuffle_batch()**: 当需要处理大量样本时，批量数据读取非常有效。`tf.train.batch()`函数接受一组张量并返回指定大小的批次数据，而`tf.train.shuffle_batch()`除了批量外还提供了随机洗牌功能。为了确保数据在多个批次之间的均衡分布，`capacity`（缓冲区容量）通常设置为`batch_size * 10`，`min_after_dequeue`（最小待取数）为`batch_size * 5`，这有助于避免队列空的情况。 3. TFRecord文件的打包与读取 - TFRecord是TensorFlow提供的二进制文件格式，用于存储结构化的数据。在打包数据时，可以使用`tf.train.write_example()`函数将数据序列化到TFRecord文件中，包括特征和标签等信息。读取时，使用`tf.python_io.tf_record_iterator`或`tf.data.TFRecordDataset`从文件中逐条解析数据。 - 在使用`slice_input_producer()`或`string_input_producer()`处理TFRecord文件时，需要先将其转换成TensorFlow可识别的格式，如`tf.parse_example()`或者自定义的解码函数。然后，这些函数可以作为`slice_input_producer()`或`string_input_producer()`的输入，使得数据可以从TFRecord文件无缝地加载到模型训练流程中。总结来说，TensorFlow提供了一套强大的工具来管理和加载数据，无论是单一数据还是批量数据，都能根据需求灵活选择合适的方法。理解这些方法并结合实际场景，能够显著提升数据预处理和模型训练的效率。在处理TFRecord文件时，正确打包和解析数据是关键，这直接影响到模型性能和训练速度。

Tensorflow中批量读取数据的案列分析及中批量读取数据的案列分析及TFRecord文件的打文件的打

包与读取包与读取

单一数据读取方式：单一数据读取方式：

　　第一种：slice_input_producer()

# 返回值可以直接通过 Session.run([images, labels])查看，且第一个参数必须放在列表中，如[...] [images, labels] = tf.train.slice_input_producer([images,

labels], num_epochs=None, shuffle=True)

　　第二种：string_input_producer()

# 需要定义文件读取器，然后通过读取器中的 read()方法来获取数据（返回值类型 key,value），再通过 Session.run(value)查看

file_queue = tf.train.string_input_producer(filename, num_epochs=None, shuffle=True)

reader = tf.WholeFileReader() # 定义文件读取器

key, value = reader.read(file_queue) # key：文件名；value：文件中的内容

　　！！！num_epochs=None，不指定迭代次数，这样文件队列中元素个数也不限定（None*数据集大小）。

　　！！！如果它不是None，则此函数创建本地计数器 epochs，需要使用local_variables_initializer()初始化局部变量

　　！！！以上两种方法都可以生成文件名队列。

（随机）批量数据读取方式：（随机）批量数据读取方式：

batchsize=2　　# 每次读取的样本数量

tf.train.batch(tensors, batch_size=batchsize)

tf.train.shuffle_batch(tensors, batch_size=batchsize, capacity=batchsize*10, min_after_dequeue=batchsize*5) # capacity > min_after_dequeue

　　！！！以上所有读取数据的方法，在Session.run()之前必须开启文件队列线程 tf.train.start_queue_runners()

TFRecord文件的打包与读取文件的打包与读取

一、单一数据读取方式一、单一数据读取方式

第一种：slice_input_producer()

def slice_input_producer(tensor_list, num_epochs=None, shuffle=True, seed=None, capacity=32, shared_name=None, name=None)

案例1：

import tensorflow as tf

images = ['image1.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg'] labels = [1, 2, 3, 4]

# [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True)

# 当num_epochs=2时，此时文件队列中只有 2*4=8个样本，所有在取第9个样本时会出错

# [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=2, shuffle=True)

data = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True)

print(type(data)) # <class 'list'>

with tf.Session() as sess:

# sess.run(tf.local_variables_initializer())

sess.run(tf.local_variables_initializer())

coord = tf.train.Coordinator() # 线程的协调器

threads = tf.train.start_queue_runners(sess, coord) # 开始在图表中收集队列运行器

for i in range(10):

print(sess.run(data))

coord.request_stop()

coord.join(threads)

"""

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38741966

粉丝: 2

Tensorflow高效数据读取策略：TFRecord打包与批量读取解析

tfrecord数据集读取

将自己的数据集制作成TFRecord格式教程

Java读取json文件并对json数据进行读取、添加、删除与修改操作

tfrecord数据.zip

Tensorflow数据读取：预加载、喂养与文件读取解析

TensorFlow2.0入门：数据读取与模型构建

使用TensorFlow框架读取图片文件的Python实践

TensorFlow入门：探索tfrecord与TFRecordDataset

Matlab批量读取特定类型文件的两种策略

MATLAB图像加密教程：Tensorflow图像处理与数据格式转换

最新资源