LeNet-5:经典的卷积神经网络解析

需积分: 5 0 下载量 73 浏览量 更新于2024-08-03 收藏 30KB MD 举报
"第四章经典网络解读" 在深入探讨经典网络之前,我们首先聚焦于LeNet-5,这是卷积神经网络(CNN)的先驱,由Yann LeCun在1998年提出,主要用于识别手写数字和机器印刷字符。LeNet-5的成功在于它展示了如何利用参数共享的卷积层来捕捉图像中像素间的局部相关性,并通过下采样和非线性变换来减少计算复杂度和保持关键特征。 LeNet-5的结构分为7层,其中包括2个卷积层(C1和C3)、2个下采样层(S2和S4)以及3个全连接层。网络的架构如下: 1. **输入层**:接收$32\times32\times1$大小的图像,即32像素宽、32像素高、单通道(灰度图像)。 2. **卷积层C1**:使用$5\times5$大小的卷积核,步长为1,共有6个这样的核(特征图或滤波器)。这导致输出尺寸为$28\times28\times6$,每个特征图对应6个可训练参数(核大小乘以输入通道数加偏置项)。 3. **下采样层S2**:执行$2\times2$的最大池化操作,步长为2,这将每个特征图的尺寸减半至$14\times14$,但保留了6个特征图。由于最大池化层没有可训练参数,所以这里标注的参数量为0。 4. **卷积层C3**:使用$5\times5$大小的卷积核,步长为1,这次有16个这样的核。输出尺寸变为$10\times10\times16$,每个核有1516个可训练参数(核大小乘以输入特征图数加偏置项)。 5. **下采样层S4**:再次进行$2\times2$的最大池化,步长为2,输出尺寸减半为$5\times5\times16$。 6. **全连接层F5**:将下采样层S4的输出展平为一维向量,然后与一个连接矩阵相乘,通常用于分类任务,具体参数数量取决于输出类别数。 7. **全连接层F6**:进一步处理F5的输出,通常用于特征提取或降维。 8. **输出层**:最后的分类层,根据任务的不同,可能包含Softmax激活函数,以生成概率分布。 LeNet-5的设计理念对后续的深度学习网络有着深远的影响,例如AlexNet、VGG、ResNet等现代CNN模型,它们都在LeNet-5的基础上发展和完善。卷积层的使用减少了参数数量,提高了模型的泛化能力;下采样层则起到了降维和抗过拟合的作用;非线性激活函数(如Sigmoid或ReLU)增加了模型的表达能力。 总结来说,LeNet-5是现代深度学习技术的基石之一,它的设计原则和架构至今仍被广泛采用,为图像识别领域开辟了新的道路。