TensorFlow入门教程：解析tfrecord与TFRecordDataset

19 浏览量更新于2024-08-29 收藏 112KB PDF 举报

本文主要介绍了TensorFlow中的tfrecord文件格式以及如何使用tf.data.TFRecordDataset进行数据读取。在TensorFlow中，tfrecord是一种高效且方便的数据存储方式，它允许我们将各种类型的数据（如图像、音频、文本等）序列化并存储为单一的二进制文件。在创建tfrecord时，我们需要注意支持的数据类型包括字符串(string)、64位整型(int64)和32位浮点型(float32)。这些数据需要通过特定的类如tf.train.BytesList、tf.train.Int64List和tf.train.FloatList进行包装。例如，对于一个多维数组`feature`，我们需要将其转换为list，然后使用tf.train.BytesList将其值存储。同时，为了保留数组的形状信息，我们可以将`feature.shape`转换为int64列表并用tf.train.Int64List保存。对于标签`label`，可以直接使用tf.train.FloatList存储其值。下面是一个创建tfrecord示例的代码片段： ```python def get_tfrecords_example(feature, label): tfrecords_features = {} feat_shape = feature.shape tfrecords_features['feature'] = tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature.tostring()])) tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape))) tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label)) return tf.train.Example(features=tf.train.Features(feature=tfrecords_features)) ``` 在这个函数中，我们首先创建一个字典`tfrecords_features`，然后分别存储特征、形状和标签。最后，将这些特征打包到tf.train.Example对象中，这将成为tfrecord文件的基本数据单元。为了读取tfrecord文件，我们可以使用`tf.data.TFRecordDataset`。这个类提供了一个迭代器接口，可以方便地按顺序处理tfrecord文件中的每一个Example。以下是如何使用`TFRecordDataset`的示例： ```python import tensorflow as tf def parse_function(example_proto): features = { 'feature': tf.io.FixedLenFeature([], tf.string), 'shape': tf.io.FixedLenFeature([len(feature.shape)], tf.int64), 'label': tf.io.FixedLenFeature([], tf.float32) } parsed_features = tf.io.parse_single_example(example_proto, features) feature_data = tf.io.decode_raw(parsed_features['feature'], out_type=tf.float32) feature_data = tf.reshape(feature_data, parsed_features['shape']) label = parsed_features['label'] return feature_data, label dataset = tf.data.TFRecordDataset('path_to_your.tfrecord') dataset = dataset.map(parse_function) dataset = dataset.batch(batch_size) ``` 在上面的代码中，我们定义了`parse_function`来解析每个Example，提取出特征数据和标签。然后，我们创建一个`TFRecordDataset`实例，指定tfrecord文件路径。使用`map`方法将解析函数应用到每个样本上，接着可以通过设置`batch_size`调整数据加载的批次大小。通过这种方式，tfrecord和`TFRecordDataset`结合使用，我们可以有效地存储和处理大规模数据集，尤其适用于深度学习模型的训练，因为它们提供了高效的I/O性能和数据预处理流水线。在实际项目中，利用这两个工具可以优化数据加载流程，提高模型训练的速度和效率。

tensorflow入门入门:tfrecord 和和tf.data.TFRecordDataset的使用的使用

1.创建创建tfrecord

tfrecord支持写入三种格式的数据：string，int64，float32，以列表的形式分别通过tf.train.BytesList、tf.train.Int64List、

tf.train.FloatList写入tf.train.Feature，如下所示：

tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature.tostring()])) #feature一般是多维数组，要先转为list

tf.train.Feature(int64_list=tf.train.Int64List(value=list(feature.shape))) #tostring函数后feature的形状信息会丢失，把shape也写入

tf.train.Feature(float_list=tf.train.FloatList(value=[label]))

通过上述操作，以dict的形式把要写入的数据汇总，并构建tf.train.Features，然后构建tf.train.Example，如下：

def get_tfrecords_example(feature, label):

tfrecords_features = {}

feat_shape = feature.shape

tfrecords_features['feature'] = tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature.tostring()]))

tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape)))

tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label))

return tf.train.Example(features=tf.train.Features(feature=tfrecords_features))

把创建的tf.train.Example序列化下，便可通过tf.python_io.TFRecordWriter写入tfrecord文件，如下：

tfrecord_wrt = tf.python_io.TFRecordWriter('xxx.tfrecord') #创建tfrecord的writer，文件名为xxx

exmp = get_tfrecords_example(feats[inx], labels[inx]) #把数据写入Example

exmp_serial = exmp.SerializeToString() #Example序列化

tfrecord_wrt.write(exmp_serial) #写入tfrecord文件

tfrecord_wrt.close() #写完后关闭tfrecord的writer

代码汇总：

import tensorflow as tf

from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets

mnist = read_data_sets("MNIST_data/", one_hot=True)

#把数据写入Example

def get_tfrecords_example(feature, label):

tfrecords_features = {}

feat_shape = feature.shape

tfrecords_features['feature'] = tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature.tostring()]))

tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape)))

tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label))

return tf.train.Example(features=tf.train.Features(feature=tfrecords_features))

#把所有数据写入tfrecord文件

def make_tfrecord(data, outf_nm='mnist-train'):

feats, labels = data

outf_nm += '.tfrecord'

tfrecord_wrt = tf.python_io.TFRecordWriter(outf_nm)

ndatas = len(labels)

for inx in range(ndatas):

exmp = get_tfrecords_example(feats[inx], labels[inx])

exmp_serial = exmp.SerializeToString()

tfrecord_wrt.write(exmp_serial)

tfrecord_wrt.close()

import random

nDatas = len(mnist.train.labels)

inx_lst = range(nDatas)

random.shuffle(inx_lst)

ntrains = int(0.85*nDatas)

# make training set

data = ([mnist.train.images[i] for i in inx_lst[:ntrains]], \

[mnist.train.labels[i] for i in inx_lst[:ntrains]])

make_tfrecord(data, outf_nm='mnist-train')

# make validation set

data = ([mnist.train.images[i] for i in inx_lst[ntrains:]], \

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38656142

粉丝: 6
资源: 909

TensorFlow入门教程：解析tfrecord与TFRecordDataset

tensorflow入门:TFRecordDataset变长数据的batch读取详解

自己标注的TFrecord数据集

TensorFlow数据处理：tf.data.Dataset.map与interleave详解

TensorFlow入门：探索tfrecord与TFRecordDataset

tf-explain：使用Tensorflow 2.x的tf.keras模型的可解释性方法

Tensorflow：tf.contrib.rnn.DropoutWrapper函数(谷歌已经为Dropout申请了专利！)、MultiRNNCell函数的解读与理解

TensorFlow实战：tfrecord文件生成与读取解析

Java调用TensorFlow模型：保存与应用.pb文件

Tensorflow深入学习：@tf.function与自定义梯度解析

TensorFlow数据处理：tf.data API快速教程

最新资源