使用Keras批量读取HDF5文件训练技巧

57 浏览量更新于2024-09-01 1 收藏 62KB PDF 举报

在深度学习领域，Keras是一个非常流行的高级神经网络API，它构建在TensorFlow、Theano和CNTK等后端之上。在处理大量数据时，HDF5文件格式因其高效的数据存储和检索能力而被广泛使用。然而，当数据量过大，无法一次性加载到内存时，我们需要寻找策略来有效地利用多个HDF5文件进行训练。本篇将详细探讨如何在Keras中解决这个问题。首先，HDF5是一种二进制文件格式，可以存储大量的结构化数据，如图像、数组和其他多维数据。它的优点在于能够快速读取大块数据，尤其适合于大数据集的存储。但是，由于其一次性加载的特性，如果一个HDF5文件包含所有训练数据，可能会超出内存限制。因此，我们可以将数据分批存储到多个HDF5文件中。在上述问题的解决方案中，首先定义了一个`load_dataset`函数，用于从指定路径读取图片并分配标签。这个函数遍历每个类别（标签）的子目录，获取所有.jpg图片，使用OpenCV库的`imread`函数读取图片，然后调整大小以适应模型输入。图片和对应的标签分别存储到`images`和`labels`列表中。接着，使用`split_dataset`函数将每个类别的数据集划分为训练集和验证集。这里采用了`train_test_split`函数，这是Scikit-Learn库中的一个工具，可以方便地将数据集按照给定比例分割。在这个例子中，20%的数据被划分为验证集，80%作为训练集。在Keras中，当我们需要从多个HDF5文件加载数据时，可以使用`Sequence`类或者自定义数据生成器。`Sequence`类是Keras提供的一个接口，允许用户在训练过程中按需加载数据，这样可以避免一次性加载所有数据导致的内存问题。下面是一个简单的`Sequence`实现示例： ```python from keras.utils import Sequence class HDF5Dataset(Sequence): def __init__(self, hdf5_file_list, batch_size, img_shape, label_keys): self.file_list = hdf5_file_list self.batch_size = batch_size self.img_shape = img_shape self.label_keys = label_keys def __len__(self): return len(self.file_list) // self.batch_size def __getitem__(self, idx): batch_files = self.file_list[idx * self.batch_size:(idx + 1) * self.batch_size] x = [] y = [] for file in batch_files: with h5py.File(file, 'r') as f: for key in self.label_keys: x.append(f['images'][:]) y.append(f[key][:]) x = np.concatenate(x, axis=0).reshape(-1, *self.img_shape) y = np.concatenate(y, axis=0) return x, y ``` 在这个类中，`__init__`方法接收HDF5文件列表、批大小、图像形状和标签键。`__len__`方法返回序列的长度，即可以生成的批次数。`__getitem__`方法则根据索引获取一个批次的数据，从每个HDF5文件中读取图像和对应的标签，然后将它们组合成一个批次。最后，在Keras模型的`fit`方法中，可以将`HDF5Dataset`实例作为输入参数，这样在训练过程中，Keras会自动调用`__getitem__`方法获取每一批次的数据。通过这种方式，我们可以在不消耗过多内存的情况下，使用Keras有效地训练多个HDF5文件中的数据。这种方法对于处理大规模图像分类、对象检测等任务非常实用，确保了训练过程的稳定性和效率。

完美解决完美解决keras 读取多个读取多个hdf5文件进行训练的问题文件进行训练的问题

主要介绍了完美解决keras 读取多个hdf5文件进行训练的问题，具有很好的参考价值，希望对大家有所帮助。一

起跟随小编过来看看吧

用keras进行大数据训练，为了加快训练，需要提前制作训练集。

由于HDF5的特性，所有数据需要一次性读入到内存中，才能保存。

为此，我采用分批次分为2个以上HDF5进行存储。

1、先读取每个标签下的图片，并设置标签、先读取每个标签下的图片，并设置标签

def load_dataset(path_name,data_path):

images = []

labels = []

train_images = []

valid_images = []

train_labels = []

valid_labels = []

counter = 0

allpath = os.listdir(path_name)

nb_classes = len(allpath)

print("label_num: ",nb_classes)

for child_dir in allpath:

child_path = os.path.join(path_name, child_dir)

for dir_image in os.listdir(child_path):

if dir_image.endswith('.jpg'):

img = cv2.imread(os.path.join(child_path, dir_image))

image = misc.imresize(img, (IMAGE_SIZE, IMAGE_SIZE), interp='bilinear')

#resized_img = cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE))

images.append(image)

labels.append(counter)

2、该标签下的数据集分割为训练集（、该标签下的数据集分割为训练集（train images），验证集（），验证集（val images），训练标签（），训练标签（train labels），验证标签），验证标签

（（val labels））

def split_dataset(images, labels):

train_images, valid_images, train_labels, valid_labels = train_test_split(images,\

labels, test_size = 0.2, random_state = random.randint(0, 100))

#print(train_images.shape[0], 'train samples')

#print(valid_images.shape[0], 'valid samples')

return train_images, valid_images, train_labels ,valid_labels

3、分割后的数据分别添加到总的训练集，验证集，训练标签，验证标签。、分割后的数据分别添加到总的训练集，验证集，训练标签，验证标签。

其次，清空原有的图片集和标签集，目的是节省内存。假如一次性读入多个标签的数据集与标签集，进行数据分割后，会占用

大于单纯进行上述操作两倍以上的内存。

images = np.array(images)

t_images, v_images, t_labels ,v_labels = split_dataset(images, labels)

for i in range(len(t_images)):

train_images.append(t_images[i])

train_labels.append(t_labels[i])

for j in range(len(v_images)):

valid_images.append(v_images[j])

valid_labels.append(v_labels[j])

if counter%50== 49:

print( counter+1 , "is read to the memory!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")

images = []

labels = []

counter = counter + 1

print("train_images num: ", len(train_images), " ", "valid_images num: ",len(valid_images))

4、进行判断，直到读到自己自己分割的那个标签。、进行判断，直到读到自己自己分割的那个标签。

开始进行写入。写入之前，为了更好地训练模型，需要把对应的图片集和标签打乱顺序。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38631738

粉丝: 5

使用Keras批量读取HDF5文件训练技巧

使用Keras训练好的.h5模型来测试一个实例

C++ 从 HDF5 文件读取 Keras 神经网络模型和参数

hdf5-1.10.1.tar.gz

hdf5文件 模型训练

我有一份数据集，包含很多个按时间排序（每15分钟一次）的hdf5文件，hdf5文件又是包含一个二维数组，我怎么对这个建立模型预测接下来一个小时的数据结果

如何对多个keras的model系数求均值并赋值给单个model

Swin-unet在训练集上采用npz数据，测试集采用h5数据，这样的意义是什么

我预测好的数据保存为.h5，然后利用tkk 写一个界面预测结果

分类问题python模型代码

如何将自己的数据集导入RNN

最新资源

hdf5文件模型训练