深度学习驱动的计算机视觉：CNN、ResNet与VGG在图像处理中的应用

109 浏览量更新于2024-06-15 收藏 12.79MB PDF 举报

本文主要探讨了计算机视觉领域中深度学习技术的应用，特别是经典的网络模型，如CNN、ResNet和VGG等，它们在图像处理和识别任务中的重要作用。深度学习网络通过多层结构设计，能从图像数据中提取高级特征，从而应用于图像分类、识别、检测和分割等多个视觉任务。文章还提到了其他一些经典网络，如LeNet-5、AlexNet、ZFNet、Network in Network、VGGNet、GoogLeNet、ResNet和DenseNet，并对它们的模型介绍、结构和特性进行了简要概述。在深度学习中，CNN是最基本的模型之一，其通过卷积层、池化层和全连接层捕获图像的局部和全局特征。VGG网络以其深度和小卷积核的重复堆叠而著名，有效提升了模型的性能。ResNet引入了残差块，解决了深度网络训练时梯度消失的问题，允许网络变得更深，进一步提高识别能力。这些模型不仅在自动驾驶、医疗影像分析、安防监控等领域有广泛应用，也在智能零售和面部识别等方面发挥着关键作用。经典网络模型的发展往往是在前人基础上进行改进和优化，如现代的CNN模型经常基于GoogleNet、VGGNet或AlexNet进行调整，因为这些早期的网络为后续的创新提供了坚实的基础。LeNet-5是最早期的CNN之一，用于手写数字识别，它的卷积、池化和非线性映射的组合结构为后来的网络设计奠定了基础。 LeNet-5的结构包括几个卷积层和下采样层，每个层的参数数量和输出尺寸都有详细描述。卷积层（如$C_1$）通过卷积核提取特征，下采样层（如$S_2$）则用于减少计算量并保持模型的平移不变性。这些早期网络的设计思想在后续的VGG、ResNet等模型中得到了进一步发展和增强，从而推动了整个计算机视觉领域的进步。计算机视觉结合深度学习技术，通过不断迭代和优化的经典网络模型，实现了对图像的高效理解和处理，这些技术的广泛应用正深刻改变我们的生活和工作方式。

网络层输入尺寸核尺寸输出尺寸可训练参数量

卷积层$C_1$ $^*$ $224\times224\times3$ $11\times11\times3/4,48(\times2_{GPU})$ $55\times55\times48(\times2_{GPU})$ $(11\times11\times3+1)\times48\times2$

下采样层

$S_{max}$$^*$

$55\times55\times48(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $27\times27\times48(\times2_{GPU})$ 0

卷积层$C_2$ $27\times27\times48(\times2_{GPU})$ $5\times5\times48/1,128(\times2_{GPU})$ $27\times27\times128(\times2_{GPU})$ $(5\times5\times48+1)\times128\times2$

下采样层$S_{max}$ $27\times27\times128(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $13\times13\times128(\times2_{GPU})$ 0

卷积层$C_3$ $^*$ $13\times13\times128\times2_{GPU}$ $3\times3\times256/1,192(\times2_{GPU})$ $13\times13\times192(\times2_{GPU})$ $(3\times3\times256+1)\times192\times2$

卷积层$C_4$ $13\times13\times192(\times2_{GPU})$ $3\times3\times192/1,192(\times2_{GPU})$ $13\times13\times192(\times2_{GPU})$ $(3\times3\times192+1)\times192\times2$

卷积层$C_5$ $13\times13\times192(\times2_{GPU})$ $3\times3\times192/1,128(\times2_{GPU})$ $13\times13\times128(\times2_{GPU})$ $(3\times3\times192+1)\times128\times2$

下采样层$S_{max}$ $13\times13\times128(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $6\times6\times128(\times2_{GPU})$ 0

全连接层$F_6$ $^*$ $6\times6\times128\times2_{GPU}$ $9216\times2048(\times2_{GPU})$ $1\times1\times2048(\times2_{GPU})$ $(9216+1)\times2048\times2$

全连接层$F_7$ $1\times1\times2048\times2_{GPU}$ $4096\times2048(\times2_{GPU})$ $1\times1\times2048(\times2_{GPU})$ $(4096+1)\times2048\times2$

全连接层$F_8$ $1\times1\times2048\times2_{GPU}$ $4096\times1000$ $1\times1\times1000$ $(4096+1)\times1000\times2$

卷积层$C_1$输入为$224\times224\times3$的图片数据，分别在两个GPU中经过核为

$11\times11\times3$、步长（stride）为4的卷积卷积后，分别得到两条独立的

$55\times55\times48$的输出数据。

下采样层$S{max}$

实

际

上

是

嵌

套在卷

积

中

的

最

大

池

化

操

作

，

但

是

为了

区

分

没

有

采

用

最

大

池

化

的

卷

积

层

单

独

列出

来

。

在

$C{1-2}$卷积层中的池化操作之后（ReLU激活操作之前），还有一个LRN操

作，用作对相邻特征点的归一化处理。

卷积层$C_3$ 的输入与其他卷积层不同，$13\times13\times192\times2_{GPU}$表示汇聚了上

一层网络在两个GPU上的输出结果作为输入，所以在进行卷积操作时通道上的卷积核维度为

384。

全连接层$F_{6-8}$中输入数据尺寸也和$C_3$类似，都是融合了两个GPU流向的输出结果作为输

入。

4.2.3 模型特性

所有卷积层都使用ReLU作为非线性映射函数，使模型收敛速度更快

在多个GPU上进行模型的训练，不但可以提高模型的训练速度，还能提升数据的使用规模

使用LRN对局部的特征进行归一化，结果作为ReLU激活函数的输入能有效降低错误率

重叠最大池化（overlapping max pooling），即池化范围z与步长s存在关系$z>s$（如

$S_{max}$中核尺度为$3\times3/2$），避免平均池化（average pooling）的平均效应

使用随机丢弃技术（dropout）选择性地忽略训练中的单个神经元，避免模型的过拟合



4.3 ZFNet

4.3.1 模型介绍

ZFNet是由$Matthew$ $D. Zeiler$和$Rob$ $Fergus$在AlexNet基础上提出的大型卷积网络，在

2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军（实际上原ZFNet所在的队伍并不是真正的

冠军，原ZFNet以13.51%错误率排在第8，真正的冠军是$Clarifai$这个队伍，而$Clarifai$这个队伍所

对应的一家初创公司的CEO又是$Zeiler$，而且$Clarifai$对ZFNet的改动比较小，所以通常认为是

ZFNet获得了冠军）$^{[3-4]} $。ZFNet实际上是微调（ﬁne-tuning）了的AlexNet，并通过反卷积

（Deconvolution）的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的

原因。

4.3.2 模型结构

剩余18页未读，继续阅读

fighting的码农(zg)-GPT

粉丝: 788

深度学习驱动的计算机视觉：CNN、ResNet与VGG在图像处理中的应用

深度学习在计算机视觉领域的若干关键技术研究

计算机视觉识别简史：从 AlexNet、ResNet 到 Mask RCNN（彩色高清，强烈建议打印出纸质版细细学习）

深度学习，深度神经网络-CNN情感识别：深度学习，深度神经网络，CNN，机器学习，图像情感识别，图像识别-matlab开发

【毕业设计】基于pytorch实现CNN+VGG+resnet人脸表情识别源码+项目说明.zip

深度学习VGG网络模型

VGG-16.rar_vgg_vgg-16_vgg网络_图像识别_深度学习

是一本关于计算机视觉中深度学习技术的书籍，属于数字成像和计算机视觉系列

MATLAB实现基于深度学习的视觉场景识别【计算机视觉、深度学习实战】.zip

人脸面部表情识别系统：CNN、ResNet和VGG模型研究

深度学习课程作业：使用resnet50和vgg16网络进行猫狗图像分类

最新资源