利用Python OpenCV增强CNN图像样本：移动、缩放与旋转

124 浏览量更新于2024-08-30 收藏 313KB PDF 举报

"本文介绍了如何使用Python的OpenCV库为CNN模型增加图像样本，以应对深度学习中样本不足的问题。通过图像的移动、缩放、旋转和添加噪声等技术，可以有效地扩充数据集。作者提供了具体的代码示例，包括图像平移的实现。" 在深度学习中，尤其是卷积神经网络(CNN)的训练过程中，拥有足够的图像样本对于模型的泛化能力至关重要。当样本不足或分布不均衡时，模型可能会过拟合，导致在新数据上的表现不佳。为了解决这一问题，一种常见的方法是通过对现有图像进行一系列的几何和非几何变换来增加样本多样性。 OpenCV是一个强大的跨平台计算机视觉库，它提供了丰富的图像处理功能。在Python中，我们可以利用OpenCV来执行这些变换，从而生成额外的训练样本。本文主要讨论了以下几种变换： 1. **图像移动**：图像平移是将图像整体沿着x轴和y轴进行移动。在提供的代码示例中，`move_img`函数用于移动图像并保留原尺寸。函数根据指定的边界位置（如顶部、左侧、右侧或底部）添加边框，然后将原始图像移动到适当的位置。 ```python def move_img(img_file1, out_file, tunnel, border_position, border_width): img1 = cv2.imread(img_file1, cv2.IMREAD_GRAYSCALE) hight, width = img1.shape final_matrix = np.zeros((hight, width), np.uint8) # 根据border_position移动图像 if border_position == 'top': # ... ``` 这个函数可以用于创建新的图像，其中原始图像被移动到不同的位置，从而增加样本多样性。 2. **图像缩放**：通过调整图像的大小，可以生成不同比例的图像，这有助于模型学习不同尺度的特征。 3. **旋转变换**：旋转图像可以模拟不同的观察角度，这对于目标检测或识别任务尤其有用。 4. **增加噪声**：向图像添加随机噪声可以模拟现实世界中的不确定性，提高模型的鲁棒性。 5. **仿射变换**：除了基本的平移、缩放和旋转，还可以进行更复杂的仿射变换，如斜切和扭曲，这将使模型能够处理更多变的输入。通过这些技术，我们可以显著地扩大训练数据集，使得模型在训练过程中接触到更多的图像变化，从而提高其在实际应用中的性能。在实现这些变换时，需要注意保持数据的平衡，避免因为某些特定变换导致的数据倾斜。在实际操作中，这些方法通常与数据增强库（如`ImageDataGenerator` in Keras）结合使用，以实现批处理和实时数据增强，加速训练过程并优化模型性能。同时，对于图像分类任务，还需要确保变换后的图像仍然属于原有的类别，以保持数据的标签一致性。

使用使用Python OpenCV为为CNN增加图像样本的实现增加图像样本的实现

我们在做深度学习的过程中，经常面临图片样本不足、不平衡的情况，在本文中，作者结合实际工作经验，通过图像的移动、

缩放、旋转、增加噪声等图像变换技术，能快速、简便的增加样本数量。

本文所有案例，使用OpenCV跨平台计算机视觉库，在Python3.6上实现，关于Python及OpenCV安装使用，请参照本人早先

资料，详见参考内容。

1. 图片拼接及平移图片拼接及平移

1.1. 图像移动图像移动

图像平移是将图像的所有像素坐标进行水平或垂直方向移动，也就是所有像素按照给定的偏移量在水平方向上沿x轴、垂直方

向上沿y轴移动。

#移动图像，让出边缘，大小不变（此方法比较笨了）

def move_img(img_file1,out_file,tunnel,border_position,border_width):

print('file1=' + img_file1 )

img1 = cv2.imread(img_file1, cv2.IMREAD_GRAYSCALE)

hight,width = img1.shape

# 初始化空图

final_matrix = np.zeros((hight,width), np.uint8) #,tunnel), np.uint8) #高*款（y，x）20*20*1

# change

x1=0

y1=hight

x2=width

y2=0 #图片高度，坐标起点从上到下

if border_position =='top':

final_matrix[y2:y1 - border_width, x1:x2] = img1[y2 + border_width:y1, x1:x2] #左侧增加边或空白

if border_position == 'left':

final_matrix[y2 :y1, x1:x2 - border_width] = img1[y2:y1, x1 + border_width:x2]

if border_position == 'right':

final_matrix[y2 :y1, x1 + border_width:x2] = img1[y2:y1, x1:x2 - border_width] #底部增加边或空白

if border_position =='bottom':

final_matrix[y2 + border_width :y1, x1:x2] = img1[y2:y1 - border_width , x1:x2] if border_position =='copy':

final_matrix[y2 :y1, x1:x2] = img1[y2:y1 , x1:x2]

cv2.imwrite(out_file, final_matrix)

return final_matrix

样例代码，详见第5章节。

1.2. 图片拼接图片拼接

图片拼接是分别读取图片，新建一个目标像素大小的0矩阵，最后将读取的图片替换新建矩阵中目标位置上的元素即可。主要

可用于图像切换场景，例如常见的齿轮式数字仪表盘，数字进位时出现的半个数字。

#图像四周拼接边缘，大小不变

def splicing_img(img_file1,img_file2,out_file,tunnel,border_position,border_width):

print('file1=' + img_file1 + ', file2=' + img_file2)

img1 = cv2.imread(img_file1, cv2.IMREAD_GRAYSCALE)

img2 = cv2.imread(img_file2, cv2.IMREAD_GRAYSCALE)

#第二个参数为如何读取图片，包括cv2.IMREAD_COLOR：读入一副彩色图片；cv2.IMREAD_GRAYSCALE：以灰度模式读入图片；

cv2.IMREAD_UNCHANGED：读入一幅图片，并包括其alpha通道。

hight,width = img1.shape

final_matrix = np.zeros((hight,width), np.uint8) #,tunnel), np.uint8) #高*款（y，x）20*20*1

# change

x1=0

y1=hight

x2=width

y2=0 #图片高度，坐标起点从上到下

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38642864

粉丝: 2
资源: 899

利用Python OpenCV增强CNN图像样本：移动、缩放与旋转

基于python+tersonflow1+opencv+CNN车牌识别

Python opencv+svm训练 车牌识别系统

Python OpenCV图像处理：图像处理在工业领域的应用，提升工业生产效率与质量

PUBG 地图测距仪，基于OpenCV和深度学习图像分类，使用Python实现

基于OpenCV和CNN的汉字手写识别系统.zip

Python+OpenCV数字图像处理课程设计作业[车牌识别].zip

基于python和pyqt5，实现opencv图像处理，包含内容有基本的图像处理，人脸检测和识别，图像检索以及

Python与OpenCV实现简单图像分类：一步步指南

Python+OpenCV实现高准确度图像目标检测技术

驾驶员分心识别：Python+CNN+Opencv项目源码与使用指南

最新资源

Python opencv+svm训练车牌识别系统