Tensorflow实战：构建自定义图片TFrecords数据集

155 浏览量更新于2024-08-29 收藏 66KB PDF 举报

"这篇文章主要介绍了如何在TensorFlow中构建自己的图片数据集，即TFRecords格式。作者分享了从创建TFRecords文件到读取和解码数据的完整过程，以供深度学习模型使用。" 在深度学习领域，拥有自定义的数据集对于训练模型至关重要。TensorFlow是一种流行的深度学习框架，它提供了TFRecords这种数据存储格式，便于高效地处理大量数据。然而，官方文档对如何创建自定义TFRecords数据集的介绍相对较少。本文旨在填补这一空白，通过一个实例展示如何构建自己的图片数据集。首先，我们需要了解TFRecords的基本概念。TFRecords是一种二进制文件格式，用于存储序列化的TensorFlowExample对象。每个Example对象包含一系列特征（features），这些特征可以是图像数据、标签或其他与模型训练相关的元数据。创建TFRecords数据集的流程主要包括以下几个步骤： 1. **制作二进制数据**：这个过程涉及到将图片转换成适合TFRecords格式的结构。在提供的代码中，作者首先定义了一个`create_record`函数。这个函数会遍历指定目录下的子目录（代表不同的类别），对每个子目录中的图片进行处理。图片被读取并调整大小，然后转化为原始字节（`img.tobytes()`）。每个图片的标签是其所在类别的索引。将图片数据和标签编码到`tf.train.Example`对象中，然后写入到TFRecords文件。 2. **创建Example对象**： `tf.train.Example`是TFRecords文件中数据的基本单元，它包含了特征及其值。在这个例子中，有两个特征：`label`（标签）和`img_raw`（图像原始数据）。`label`特征是一个整数列表，存储类别索引；`img_raw`特征是一个字节列表，存储图像的原始字节数据。 3. **写入TFRecords文件**：使用`tf.python_io.TFRecordWriter`创建一个写入器，然后遍历所有图片，将每个Example对象序列化并写入文件。最后关闭写入器。 4. **读取二进制数据**：为了从TFRecords文件中读取数据，我们需要定义一个`read_and_decode`函数。这里创建一个文件队列，使用`tf.train.string_input_producer`来读取文件名。接着，从队列中取出文件名，使用`tf.TFRecordReader`读取记录，并解析Example对象。每个Example会被解码，提取出图像数据和标签。 5. **加入队列**：在训练过程中，通常需要将数据放入队列以便于批量处理。这可以通过`tf.train.batch`或者`tf.train.shuffle_batch`等函数实现，这些函数可以从文件队列中取出数据，进行随机化或批量化处理，以供模型训练。总结来说，创建自定义TFRecords数据集是深度学习项目中的重要环节。这个过程包括将图片数据转换成TFRecords格式，编写读取和解码的代码，以及设置数据输入流水线。理解这个过程对于任何希望使用TensorFlow处理自定义数据集的开发者都至关重要。通过这种方式，可以确保模型能够高效地处理大量图像数据，从而提升训练效果。

Tensorflow之构建自己的图片数据集之构建自己的图片数据集TFrecords的方法的方法

学习谷歌的深度学习终于有点眉目了，给大家分享我的Tensorflow学习历程。

tensorflow的官方中文文档比较生涩，数据集一直采用的MNIST二进制数据集。并没有过多讲述怎么构建自己的图片数据集

tfrecords。

流程是：制作数据集流程是：制作数据集—读取数据集读取数据集—-加入队列加入队列

先贴完整的代码：

#encoding=utf-8

import os

import tensorflow as tf

from PIL import Image

cwd = os.getcwd()

classes = {'test','test1','test2'}

#制作二进制数据

def create_record():

writer = tf.python_io.TFRecordWriter("train.tfrecords")

for index, name in enumerate(classes):

class_path = cwd +"/"+ name+"/"

for img_name in os.listdir(class_path):

img_path = class_path + img_name

img = Image.open(img_path)

img = img.resize((64, 64))

img_raw = img.tobytes() #将图片转化为原生bytes

print index,img_raw

example = tf.train.Example(

features=tf.train.Features(feature={

"label": tf.train.Feature(int64_list=tf.train.Int64List(value=[index])),

'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))

}))

writer.write(example.SerializeToString())

writer.close()

data = create_record()

#读取二进制数据

def read_and_decode(filename):

# 创建文件队列,不限读取的数量

filename_queue = tf.train.string_input_producer([filename])

# create a reader from file queue

reader = tf.TFRecordReader()

# reader从文件队列中读入一个序列化的样本

_, serialized_example = reader.read(filename_queue)

# get feature from serialized example

# 解析符号化的样本

features = tf.parse_single_example(

serialized_example,

features={

'label': tf.FixedLenFeature([], tf.int64),

'img_raw': tf.FixedLenFeature([], tf.string)

}

)

label = features['label'] img = features['img_raw'] img = tf.decode_raw(img, tf.uint8)

img = tf.reshape(img, [64, 64, 3])

img = tf.cast(img, tf.float32) * (1. / 255) - 0.5

label = tf.cast(label, tf.int32)

return img, label

if __name__ == '__main__':

if 0:

data = create_record("train.tfrecords")

else:

img, label = read_and_decode("train.tfrecords")

print "tengxing",img,label

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38677936

粉丝: 3

Tensorflow实战：构建自定义图片TFrecords数据集

tensorflow制作自己的图像数据集并训练

TensorFLow 不同大小图片的TFrecords存取实例

TensorFlow自制图片数据集TFrecords教程

TensorFlow处理不同尺寸图片的TFRecords实例与读取

VinBig TFRecords for Object Detection-数据集

TensorFlow高效读取数据的方法示例

Tensorflow实现VGG16：数据集到训练测试完整流程

基于RSNA-MICCAI的脑肿瘤放射基因组数据集TFRecords转换

TensorFlow卷积网络实现flowers5分类及tfrecords数据集制作

胸部X光TFRecords数据集：构建对象检测模型

最新资源