tensorflow高效数据读取：tfrecord保存与读取教程

PDF格式 | 214KB | 更新于2024-08-29 | 156 浏览量 | 举报

本文主要介绍了在TensorFlow中处理图像数据的三种常用方法，特别是针对大规模数据的高效读取——TFRecord文件的使用。TFRecord是TensorFlow提供的一种二进制文件格式，用于存储结构化数据，如图像、文本和其他类型的数据，它能有效地管理和加速数据的读取。首先，我们回顾一下官方提供的两种基础数据读取方式： 1. 预加载数据：这种方法是直接在TensorFlow图中定义常量或变量来存储所有数据，例如： ```python a = tf.constant([1,2,3]) b = tf.constant([4,5,6]) c = tf.add(a, b) ``` 这种方式简单易用，但当数据量较大时，可能会占用大量内存。 2. 填充数据（feed_dict）：通过定义占位符（placeholder）并在会话中通过feed_dict动态提供数据，如： ```python x = tf.placeholder(tf.int16) y = tf.placeholder(tf.int16) z = tf.add(x, y) print(sess.run(z, feed_dict={x:[1,2,3], y:[4,5,6]})) ``` 虽然feed_dict灵活，但同样面临内存消耗问题，尤其是数据量较大的时候。接着，文章的重点是讲解如何使用TFRecord文件来解决这个问题。TFRecord文件的读取通常包括以下步骤： - 保存数据：使用`tf.train.write_example()`函数将图片数据转换成TFRecord格式，如使用slim库中的功能，将Kaggle的dogvscat数据集保存为TFRecord文件： ```python import tensorflow as tf import tensorflow_datasets as tfds # 从Kaggle数据集加载图片并保存为TFRecord images, labels = tfds.load('dogs_vs_cats', split='train', with_info=True) writer = tf.io.TFRecordWriter('dogvscat_data.tfrecords') for image, label in zip(images, labels['label']): example = tf.train.Example(features=tf.train.Features(feature={ 'image': tf.train.Feature(bytes_list=tf.train.BytesList(value=[image.numpy()])), 'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[label])), })) writer.write(example.SerializeToString()) writer.close() ``` - 读取数据：在训练过程中，通过`tf.data.TFRecordDataset`从文件中按需加载数据，减少内存压力，示例代码如下： ```python dataset = tf.data.TFRecordDataset('dogvscat_data.tfrecords') def _parse_function(example_proto): features = { 'image': tf.io.FixedLenFeature([], tf.string), 'label': tf.io.FixedLenFeature([], tf.int64), } example = tf.io.parse_single_example(example_proto, features) image = tf.image.decode_jpeg(example['image'], channels=3) return image, example['label'] parsed_dataset = dataset.map(_parse_function) ``` 通过TFRecord，数据不再一次性加载到内存，而是按需读取，这在处理大型数据集时显著降低了内存使用，提高了计算效率。总结来说，本文介绍了TensorFlow中处理图像数据的三种策略：预加载、填充数据和TFRecord读取。其中，TFRecord以其高效的数据流管理和内存节省，尤其适合处理大规模图像数据集。同时，文章还提到了slim库，这是一个基于TensorFlow的高级工具包，能够简化TFRecord的使用过程，使得代码更加简洁高效。

tensorflow将图片保存为将图片保存为tfrecord和和tfrecord的读取方式的读取方式

tensorflow官方提供了官方提供了3种方法来读取数据：种方法来读取数据：

预加载数据(preloaded data)：在TensorFlow图中定义常量或变量来保存所有的数据，适用于数据量不太大的情况。填充数据

(feeding)：通过Python产生数据，然后再把数据填充到后端。

从文件读取数据(reading from file)：从文件中直接读取，然后通过队列管理器从文件中读取数据。

本文主要介绍第三种方法，通过tfrecord文件来保存和读取数据，对于前两种读取数据的方式也会进行一个简单的介绍。

项目下载github地址：https://github.com/steelOneself/tensorflow_learn/tree/master/tf_records_writer_read

一、预加载数据一、预加载数据

a = tf.constant([1,2,3])

b = tf.constant([4,5,6])

c = tf.add(a,b)

with tf.Session() as sess:

print(sess.run(c))#[5 7 9]

这种方式加载数据比较简单，它是直接将数据嵌入在数据流图中，当训练数据较大时，比较消耗内存。

二、填充数据二、填充数据

通过先定义placeholder然后再通过feed_dict来喂养数据，这种方式在TensorFlow中使用的也是比较多的，但是也存在数据量

大时比较消耗内存的缺点，下面介绍一种更高效的数据读取方式，通过tfrecord文件来读取数据。

x = tf.placeholder(tf.int16)

y = tf.placeholder(tf.int16)

z = tf.add(x,y)

with tf.Session() as sess:

print(sess.run(z,feed_dict={x:[1,2,3],y:[4,5,6]}))

#[5 7 9]

三、从文件读取数据三、从文件读取数据

通过slim来实现将图片保存为tfrecord文件和tfrecord文件的读取，slim是基于TensorFlow的一个更高级别的封装模型，通过

slim来编程可以实现更高效率和更简洁的代码。

在本次实验中使用的数据集是kaggle的dog vs cat，数据集下载地址:https://www.kaggle.com/c/dogs-vs-cats/data

1、、tfrecord文件的保存文件的保存

a、参数设置、参数设置

dataset_dir_path：训练集图片存放的上级目录(train下还有一个train目录用来存放图片)，在dog vs cat数据集中，dog和cat类

的区别是依靠图片的名称，如果你的数据集通过文件夹的名称来划分图片类标的，可能需要对代码进行部分修改。

label_name_to_num：字符串类标与数字类标的对应关系，在将图片保存为tfrecord文件的时候，需要将字符串转为整数类标0

和1，方便后的训练。

label_num_to_name：数字类标与字符串类标的对应关系。

val_size：验证集在训练集中所占的比例，训练集一共有25000张图片，用20000张来训练，5000张来进行验证。

batch_size：在读取tfrecord文件的时候，每次读取图片的数量。

#数据所在的目录路径

dataset_dir_path = "D:/dataset/kaggle/cat_or_dog/train"

#类标名称和数字的对应关系

label_name_to_num = {"cat":0,"dog":1}

label_num_to_name = {value:key for key,value in label_name_to_num.items()}

#设置验证集占整个数据集的比例

val_size = 0.2

batch_size = 1

b、获取训练集所有的图片路径、获取训练集所有的图片路径

获取训练目录下所有的dog和cat的图片路径，将它们分开保存，便于后面训练集和验证集数据的划分，保证每类图片在所占的

比例相同。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38661100

粉丝: 6

tensorflow高效数据读取：tfrecord保存与读取教程

将文件夹图片生成TFRecord类型文件

tfrecord：PyTorch的TFRecord阅读器

将自己的数据集制作成TFRecord格式教程

tensorflow高效图片存取：TFRecord格式详解及读取方法

浅谈tensorflow 中的图片读取和裁剪方式

tensorflow实现读取模型中保存的值 tf.train.NewCheckpointReader

TensorFlow实现从txt文件读取数据

cifar10的训练好的tfrecord文件

使用TensorFlow-Slim进行图像分类的实现

基于机器学习Tensorflow的胶囊表面缺陷检测项目源代码+使用说明+论文，可检测了凹陷和缺失部分

最新资源