TensorFlow处理变长序列数据实战教程

3 浏览量更新于2024-08-31 收藏 83KB PDF 举报

"这篇教程介绍了如何在TensorFlow中处理变长序列数据，特别是将变长序列存储到TFRecord文件以及从TFRecord文件中读取。TFRecord是一种常用的 TensorFlow 数据存储格式，适合处理大规模数据集。" 在TensorFlow中，处理变长序列数据是常见的任务，尤其是在自然语言处理和时间序列分析等场景。TFRecord格式允许我们高效地存储和检索大量数据，且支持随机访问。在本实例中，作者展示了如何存储一个包含变长序列的二维NumPy数组到TFRecord文件，并使用TensorFlow的Dataset API进行读取。首先，作者定义了一个辅助函数`_int64_feature`，用于将整数值或整数列表转换为TensorFlow训练特征协议缓冲区（`tf.train.Feature`）的`int64_list`字段。这个函数是必要的，因为TFRecord文件需要这种格式的数据。接着，使用NumPy创建了一个二维数组`a`，其中每个子列表代表一个变长序列。接下来，通过`tf.python_io.TFRecordWriter`创建一个写入器来写入TFRecord文件。对于`a`中的每个序列，创建一个`tf.train.Example`实例，包含特征`'i'`（表示序列索引）和`'data'`（表示序列数据）。每个特征都使用`_int64_feature`函数转换，然后将序列化后的`Example`写入文件。在读取部分，使用`tf.data.TFRecordDataset`来创建一个数据集，它可以从TFRecord文件中生成元素。这里，文件名被存储在一个名为`filenames`的列表中。通过调用`TFRecordDataset`并传递文件名，可以创建一个数据迭代器，该迭代器能够读取TFRecord文件中的每个记录。在实际应用中，为了处理变长序列，通常还需要在读取数据时进行进一步的预处理，例如使用`tf.map_fn`或`tf.data.Dataset.map`函数将序列解码并转换为合适的张量形状。这可能包括填充序列到相同长度、截断过长的序列，或者使用编码（如one-hot编码）来准备输入到神经网络模型。这个实例展示了如何利用TensorFlow的高级数据流API（Dataset API）来处理和存储变长序列数据，这对于构建和训练处理非结构化数据的深度学习模型至关重要。理解这种存储和读取机制是高效利用TensorFlow进行大规模数据处理的基础。

tensorflow 变长序列存储实例变长序列存储实例

今天小编就为大家分享一篇tensorflow 变长序列存储实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

问题问题

问题是这样的，要把一个数组存到tfrecord中，然后读取

a = np.array([[0, 54, 91, 153, 177,1],

[0, 50, 89, 147, 196],

[0, 38, 79, 157],

[0, 49, 89, 147, 177],

[0, 32, 73, 145]])

图片我都存储了，这个不还是小意思，一顿操作

import tensorflow as tf

import numpy as np

def _int64_feature(value):

if not isinstance(value,list):

value = [value]

return tf.train.Feature(int64_list=tf.train.Int64List(value=value))

# Write an array to TFrecord.

# a is an array which contains lists of variant length.

a = np.array([[0, 54, 91, 153, 177,1],

[0, 50, 89, 147, 196],

[0, 38, 79, 157],

[0, 49, 89, 147, 177],

[0, 32, 73, 145]])

writer = tf.python_io.TFRecordWriter('file')

for i in range(a.shape[0]):

feature = {'i' : _int64_feature(i),

'data': _int64_feature(a[i])}

# Create an example protocol buffer

example = tf.train.Example(features=tf.train.Features(feature=feature))

# Serialize to string and write on the file

writer.write(example.SerializeToString())

writer.close()

# Use Dataset API to read the TFRecord file.

filenames = ["file"]

dataset = tf.data.TFRecordDataset(filenames)

def _parse_function(example_proto):

keys_to_features = {'i':tf.FixedLenFeature([],tf.int64),

'data':tf.FixedLenFeature([],tf.int64)}

parsed_features = tf.parse_single_example(example_proto, keys_to_features)

return parsed_features['i'], parsed_features['data']

dataset = dataset.map(_parse_function)

dataset = dataset.shuffle(buffer_size=1)

dataset = dataset.repeat()

dataset = dataset.batch(1)

iterator = dataset.make_one_shot_iterator()

i, data = iterator.get_next()

with tf.Session() as sess:

print(sess.run([i, data]))

报了奇怪的错误，Name: <unknown>, Key: data, Index: 0. Number of int64 values != expected. Values size: 6 but output shape: [] 这意思是我数据长度为6，但是读出来的是[]，这到底是哪里错了，我先

把读取的代码注释掉，看看tfreocrd有没有写成功，发现写成功了，这就表明是读取的问题，我怀疑是因为每次写入的长度是变化的原因，但是又有觉得不是，因为图片的尺寸都是不同的，我还是可以读

取的，百思不得其解的时候我发现存储图片的时候是img.tobytes(),我把一个数组转换成了bytes，而且用的也是bytes存储，是不是tensorflow会把这个bytes当成一个元素，虽然每个图片的size不同，但是

tobytes后tensorflow都会当成一个元素，然后读取的时候再根据(height,width,channel)来解析成图片。

我来试试不存为int64，而是存为bytes。又是一顿厉害的操作

数据转为数据转为bytes

# -*- coding: utf-8 -*-

import tensorflow as tf

import numpy as np

def _byte_feature(value):

return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def _int64_feature(value):

if not isinstance(value,list):

value = [value]

return tf.train.Feature(int64_list=tf.train.Int64List(value=value))

# Write an array to TFrecord.

# a is an array which contains lists of variant length.

a = np.array([[0, 54, 91, 153, 177,1],

[0, 50, 89, 147, 196],

[0, 38, 79, 157],

[0, 49, 89, 147, 177],

[0, 32, 73, 145]])

writer = tf.python_io.TFRecordWriter('file')

for i in range(a.shape[0]): # i = 0 ~ 4

feature = {'len' : _int64_feature(len(a[i])), # 将无意义的i改成len，为了后面还原

'data': _byte_feature(np.array(a[i]).tobytes())} # 我也不知道为什么a[i]是list（后面就知道了），要存bytes需要numpy一下

# Create an example protocol buffer

example = tf.train.Example(features=tf.train.Features(feature=feature))

# Serialize to string and write on the file

writer.write(example.SerializeToString())

writer.close()

# Use Dataset API to read the TFRecord file.

filenames = ["file"]

dataset = tf.data.TFRecordDataset(filenames)

def _parse_function(example_proto):

keys_to_features = {'len':tf.FixedLenFeature([],tf.int64),

'data':tf.FixedLenFeature([],tf.string)} # 改成string

parsed_features = tf.parse_single_example(example_proto, keys_to_features)

return parsed_features['len'], parsed_features['data']

dataset = dataset.map(_parse_function)

dataset = dataset.shuffle(buffer_size=1)

dataset = dataset.repeat()

dataset = dataset.batch(1)

iterator = dataset.make_one_shot_iterator()

i, data = iterator.get_next()

with tf.Session() as sess:

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38526612

粉丝: 7
资源: 892

TensorFlow处理变长序列数据实战教程

基于tensorflow的人工智障聊天机器人.zip

Tensorflow-seq2seq-from-scratch:该存储库包含各种seq到seq模型的示例代码

打造NLP文本分类深度学习方法库.pdf

tensorflow 一维序列分类

tensorflow采用Keras序列模型,实现波士顿房价预测问题的建模与训练

tensorflow lstm 时间序列预测代码

tensorflow采用Keras序列模型，实现波士顿房价预测问题的建模与训练

使用TensorFlow和Keras序列模型实现波士顿房价预测问题的建模与训练的完整代码

transformer tensorflow 时间序列

tensorflow采用keras序列模型，实现波士顿房价预测问题的建模与训练

最新资源