如何用tf.keras.preprocessing.image_dataset_from_directory()生成训练集验证集和测试集
时间: 2024-05-12 15:17:11 浏览: 188
感谢您的提问。使用 tf.keras.preprocessing.image_dataset_from_directory() 函数生成训练集、验证集和测试集的过程如下:
1. 准备数据集,要求数据集按照类别分好文件夹,每个子文件夹中应存放该类别的图像数据。
2. 导入 tensorflow 和其他必要的库。
3. 使用 tf.keras.preprocessing.image_dataset_from_directory() 函数加载数据集,并按比例划分成训练集、验证集和测试集。
4. 对图像数据进行预处理,包括数据增强、标准化等操作。
5. 创建模型,并将训练集用于训练模型。
6. 使用验证集调整模型参数和模型架构,并根据测试集评估模型性能。
下面是使用 tf.keras.preprocessing.image_dataset_from_directory() 函数生成训练集、验证集和测试集的示例代码:
```
import tensorflow as tf
import pathlib
# 加载数据集
data_dir = pathlib.Path("path/to/dataset")
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
data_dir,
validation_split=0.2,
subset="training",
seed=123,
image_size=(img_height, img_width),
batch_size=batch_size)
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
data_dir,
validation_split=0.2,
subset="validation",
seed=123,
image_size=(img_height, img_width),
batch_size=batch_size)
# 数据预处理
data_augmentation = tf.keras.Sequential(
[
tf.keras.layers.experimental.preprocessing.RandomFlip("horizontal"),
tf.keras.layers.experimental.preprocessing.RandomRotation(0.1),
tf.keras.layers.experimental.preprocessing.RandomZoom(0.1),
]
)
normalization_layer = tf.keras.layers.experimental.preprocessing.Rescaling(1./255)
# 构建模型
model = tf.keras.Sequential([
data_augmentation,
normalization_layer,
tf.keras.layers.Conv2D(32, 3, activation='relu'),
tf.keras.layers.MaxPooling2D(),
tf.keras.layers.Conv2D(64, 3, activation='relu'),
tf.keras.layers.MaxPooling2D(),
tf.keras.layers.Conv2D(128, 3, activation='relu'),
tf.keras.layers.MaxPooling2D(),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(num_classes)
])
# 训练模型
model.compile(optimizer='adam',
loss=tf.losses.SparseCategoricalCrossentropy(from_logits=True),
metrics=['accuracy'])
model.fit(
train_ds,
validation_data=val_ds,
epochs=epochs
)
# 模型评估
test_ds = tf.keras.preprocessing.image_dataset_from_directory(
data_dir,
image_size=(img_height, img_width),
batch_size=batch_size)
model.evaluate(test_ds)
```
其中,data_dir 表示数据集所在目录,img_height 和 img_width 分别表示图像高度和宽度,batch_size 表示 batch 的大小,epochs 表示训练轮数,num_classes 表示分类数。训练集和验证集的划分比例由 validation_split 参数控制。data_augmentation、normalization_layer 分别表示数据增强和标准化的操作,model 表示构建的模型,model.compile() 函数指定了优化器、损失函数和评估指标,model.fit() 函数用于训练模型,model.evaluate() 函数用于评估模型性能。
阅读全文