TensorFlow中shuffle, batch & repeat操作详解

189 浏览量更新于2024-08-31 收藏 53KB PDF 举报

在TensorFlow中，`dataset` 是一个核心组件，用于处理和转换输入数据，使得它们适合于训练模型。本文主要探讨了两个重要的`dataset` 方法：`shuffle` 和 `batch`，以及`repeat` 的使用注意事项。首先，`dataset.shuffle` 函数的作用是对数据集进行随机洗牌，确保在每次迭代过程中，数据的顺序是不确定的。这里的参数`shuffle(3)` 表示使用一个缓冲区大小为3的随机缓冲器，每次迭代时会从中随机选择一个样本，然后将该样本替换回缓冲器，保持数据的随机性。然而，值得注意的是，`shuffle` 会在一个周期（即`dataset.repeat` 中指定的次数）内对整个数据集进行洗牌，而非在每个epoch内部。这意味着如果你在`shuffle` 后紧接着使用`dataset.repeat`，上一个epoch的数据可能会被混入下一个epoch，影响数据的独立性。其次，`dataset.batch` 是将数据划分成大小固定的批次，方便并行计算。在这个例子中，`dataset=dataset.batch(4)` 表示每个批次有4个样本。然而，由于数据集长度不是整除batchsize，最后一个批次可能包含少于4个样本，这是正常的，因为`batch` 方法不会为不足的样本创建新的批次。 `dataset.repeat` 方法用于重复数据集的迭代，指定的次数称为epochs。在上述代码中，`dataset=dataset.repeat(2)` 表示数据集将重复两次，也就是说，在两个完整的数据集迭代后，数据流将停止。这在需要多次迭代完整个数据集以训练模型的情况下非常有用。最后，通过创建一个迭代器`iter=dataset.make_one_shot_iterator()`，我们可以使用`sess.run(el)` 来获取和处理数据集中的元素。这段代码展示了一个完整的流程，从创建数据集到使用`Session` 迭代并打印数据。理解`dataset.shuffle`、`dataset.batch` 和`dataset.repeat` 的使用对于有效地管理训练数据和优化性能至关重要。在实际应用中，根据任务需求调整这些参数，如数据增强、批量大小的选择和重复次数，能帮助提升模型的训练效果。

浅谈浅谈tensorflow中中dataset.shuffle和和dataset.batch

dataset.repeat注意点注意点

主要介绍了浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点，文中通过示例代码介绍的非

常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

batch很好理解，就是batch size。注意在一个epoch中最后一个batch大小可能小于等于batch size

dataset.repeat就是俗称epoch，但在tf中与dataset.shuffle的使用顺序可能会导致个epoch的混合

dataset.shuffle就是说维持一个buffer size 大小的 shuffle buffer，图中所需的每个样本从shuffle buffer中获取，取得一个样本

后，就从源数据集中加入一个样本到shuffle buffer中。

import os

os.environ['CUDA_VISIBLE_DEVICES'] = ""

import numpy as np

import tensorflow as tf

np.random.seed(0)

x = np.random.sample((11,2))

# make a dataset from a numpy array

print(x)

print()

dataset = tf.data.Dataset.from_tensor_slices(x)

dataset = dataset.shuffle(3)

dataset = dataset.batch(4)

dataset = dataset.repeat(2)

# create the iterator

iter = dataset.make_one_shot_iterator()

el = iter.get_next()

with tf.Session() as sess:

print(sess.run(el))

#源数据集

[[ 0.5488135 0.71518937]

[ 0.60276338 0.54488318]

[ 0.4236548 0.64589411]

[ 0.43758721 0.891773 ]

[ 0.96366276 0.38344152]

[ 0.79172504 0.52889492]

[ 0.56804456 0.92559664]

[ 0.07103606 0.0871293 ]

[ 0.0202184 0.83261985]

[ 0.77815675 0.87001215]

[ 0.97861834 0.79915856]]

# 通过shuffle batch后取得的样本

[[ 0.4236548 0.64589411]

[ 0.60276338 0.54488318]

[ 0.43758721 0.891773 ]

[ 0.5488135 0.71518937]]

[[ 0.96366276 0.38344152]

[ 0.56804456 0.92559664]

[ 0.0202184 0.83261985]

[ 0.79172504 0.52889492]]

[[ 0.07103606 0.0871293 ]

[ 0.97861834 0.79915856]

[ 0.77815675 0.87001215]] #最后一个batch样本个数为3

[[ 0.60276338 0.54488318]

[ 0.5488135 0.71518937]

[ 0.43758721 0.891773 ]

[ 0.79172504 0.52889492]]

[[ 0.4236548 0.64589411]

[ 0.56804456 0.92559664]

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38706100

粉丝: 6

TensorFlow中shuffle, batch & repeat操作详解

TensorFlow dataset.shuffle、batch、repeat的使用详解

tensorflow dataset.shuffle、dataset.batch、dataset.repeat顺序区别详解

tensorflow 中dataset.padded_batch函数的个人理解过程

如何在TensorFlow中利用dataset.shuffle、dataset.batch和dataset.repeat方法来提升模型训练的效率和效果？

在使用TensorFlow构建深度学习模型时，如何有效地应用dataset.shuffle、dataset.batch以及dataset.repeat方法来优化训练过程？

在TensorFlow中，如何结合使用dataset.shuffle、dataset.batch和dataset.repeat方法来改善深度学习模型的训练效果？

training_dataset = training_dataset.shuffle(120).batch(BATCH_SIZE)

AUTOTUNE = tf.data.experimental.AUTOTUNE train_dataset = tf.data.Dataset.from_tensor_slices((train_mat_list, train_label_list)) train_dataset = train_dataset.shuffle(buffer_size=train_num)\ .map(process_path, num_parallel_calls=AUTOTUNE)\ .repeat().batch(batch_size).prefetch(AUTOTUNE)

train_db = train_dataset.shuffle(10000).batch(batch_size) AttributeError: 'numpy.ndarray' object has no attribute 'shuffle'

tf.data.Dataset.from_tensor_slices((path)).shuffle(len(path)).batch(batch_size, drop_remainder=True)

最新资源