深度学习分类网络解析：从Le-net到ResNet

需积分: 44 60 浏览量更新于2024-07-18 1 收藏 1.64MB PDF 举报

"本文主要对深度学习中的目标分类网络进行了总结，涵盖了从早期的LeNet到现代的ResNet和SE Net等一系列重要模型，包括它们的关键结构和特点。" 深度学习在图像识别领域取得了显著的成就，其中目标分类网络是核心组成部分。本文重点介绍了几个关键的卷积神经网络（CNN）模型，它们对现代计算机视觉技术的发展起到了重要作用。首先，LeNet，由Yann LeCun等人在1998年提出，是最早的CNN之一，主要用于手写数字识别。LeNet5的特点包括： 1. 使用卷积、池化和非线性激活函数（如双曲线tanh或Sigmoid）的序列结构。 2. 卷积层用于提取空间特征。 3. 使用空间下采样（如平均池化）来减少计算复杂度。 4. 多层感知机（MLP）作为最终的分类器。 5. 层间采用稀疏连接，降低了计算成本。接下来是AlexNet，由Alex Krizhevsky在2012年的ImageNet比赛中引入，它在当时的图像识别任务中表现卓越，主要特点有： 1. 深度网络结构，包含多个卷积层和全连接层。 2. 使用ReLU激活函数，提高了训练速度和性能。 3. 在卷积层后添加了局部响应归一化（LRN），增强了特征的泛化能力。 4. 通过分割数据并在两个GPU上并行处理，减小了内存需求。 5. 最大池化层用于进一步降维和增强鲁棒性。然后，我们有VGGNet，由Oxford大学的Visual Geometry Group提出，其特点是： 1. 使用小尺寸（3x3）卷积核，通过堆叠多层来增加网络深度。 2. 这种设计导致了大量的参数，但提升了特征表示的复杂性。 GoogLeNet（Inception V1-V3）则是以更高效的方式构建深层网络，通过并行的卷积块（不同大小的卷积核和池化操作）来捕获不同尺度的特征。 ResNet（残差网络）由Kaiming He等人提出，解决了深度网络中的梯度消失问题，通过引入残差块实现信息的直接传递。 1. 残差块允许网络学习“跳过”某些层，使得训练极深的网络成为可能。 SE Net（Squeeze-and-Excitation Network）引入了注意力机制，通过自适应地调整每个通道的重要性来优化特征表示。 MobileNet和ShuffleNet则针对移动设备进行了优化，使用深度可分离卷积和通道混合技术降低了计算量，保持了识别性能。这些网络模型的不断演进展示了深度学习在图像识别领域的强大能力，并推动了相关技术的进步。理解这些模型的核心设计理念和结构对于深度学习研究者和实践者来说至关重要。

处理神经网络训练时大量的矩阵运算。AlexNet 使用了两块 GTX 580 GPU 进行训

练，单个 GTX 580 只有 3GB 显存，这限制了可训练的网络的最大规模。因此作

者将 AlexNet 分布在两个 GPU 上，在每个 GPU 的显存中储存一半的神经元的参

数。因为 GPU 之间通信方便，可以互相访问显存，而不需要通过主机内存，所以

同时使用多块 GPU 也是非常高效的。同时，AlexNet 的设计让 GPU 之间的通信只

在网络的某些层进行，控制了通信的性能损耗。

（6）数据增强，随机地从 256´256 的原始图像中截取 224´224 大小的区域

（以及水平翻转的镜像），相当于增加了(256-224)2´2=2048 倍的数据量。如果没

有数据增强，仅靠原始的数据量，参数众多的 CNN 会陷入过拟合中，使用了数

据增强后可以大大减轻过拟合，提升泛化能力。进行预测时，则是取图片的四个

角加中间共 5 个位置，并进行左右翻转，一共获得 10 张图片，对他们进行预测

并对 10 次结果求均值。同时，AlexNet 论文中提到了会对图像的 RGB 数据进行

PCA 处理，并对主成分做一个标准差为 0.1 的高斯扰动，增加一些噪声，这个 Trick

可以让错误率再下降 1%。

3.4 局部响应归一化 LRN(Local Response Normalization)

参考：https://blog.csdn.net/yangdashi888/article/details/77918311

https://blog.csdn.net/hduxiejun/article/details/70570086

局部响应归一化原理是仿造生物学上活跃的神经元对相邻神经元的抑制现

象（侧抑制），然后根据论文有公式如下

这个公式中的 a 表示卷积层（包括卷积操作和池化操作）后的输出结果，这

个输出结果的结构是一个四维数组[batch,height,width,cha nnel]，这里可以简单解

释一下，batch 就是批次数(每一批为一张图片)，height 就是图片高度，width 就

是图片宽度，channel 就是通道数可以理解成一批图片中的某一个图片经过卷积

操作后输出的神经元个数(或是理解成处理后的图片深度)。ai(x,y)表示在这个输

出结构中的一个位置[a,b,c,d]，可以理解成在某一张图中的某一个通道下的某个

剩余25页未读，继续阅读

小北小白

粉丝: 35
资源: 3

深度学习分类网络解析：从Le-net到ResNet

基于深度学习的图像分类和分割网络总结

cs231n--3D目标分类

深度学习总结，包含基础知识、目标检测、目标跟踪、目标分类，深度学习八股文，相关竞赛等.zip

精品--深度学习总结，包含基础知识、目标检测、目标跟踪、目标分类，深度学习八股文，相关竞赛等.zip

基于深度卷积神经网络的弹道目标微动分类.pdf

成都市温江区垃圾分类管理网络目标分解表.docx

基于卷积神经网络的海上微动目标检测与分类方法.pdf

基于联盟博弈的多目标分类

使用PyTorch深度学习框架实现VGG网络目标分类

深度学习图像处理模型总结：分类、目标检测与语义分割

最新资源