卷积神经网络详解：从LeNet到现代CNN

69 浏览量更新于2024-08-30 收藏 431KB PDF 举报

"LeNet && ModernCNN" 本文将深入探讨卷积神经网络（Convolutional Neural Networks，简称CNN）的基础知识，重点介绍经典的LeNet模型及其在现代CNN中的地位。卷积神经网络是深度学习领域处理图像识别和计算机视觉任务的重要工具，其设计灵感来源于人脑的视觉皮层。 **全连接层的局限性** 传统的全连接层（Fully Connected Layers）在处理图像数据时存在两个主要问题。首先，由于图像在同一列邻近的像素在全连接层的向量表示中可能会相距较远，这使得模型难以识别图像中的局部模式。其次，对于大尺寸的输入图像，全连接层会导致模型参数数量急剧增加，造成训练困难和内存需求过大。 **卷积层的优势** 为了解决上述问题，卷积层应运而生。卷积层保留了输入的二维结构，通过使用可学习的滤波器（也称为卷积核）对输入图像进行扫描，能够在多个位置检测到相同的特征，而无需为每个位置存储独立的权重。这种参数共享机制显著减少了模型的复杂性，同时保持了对图像空间结构的敏感性。 **LeNet模型** LeNet是Yann LeCun等人在1998年提出的早期CNN模型，主要用于手写数字识别。LeNet模型的结构分为两个主要部分：卷积层块和全连接层块。在LeNet中，超过90%的参数集中在全连接层块。卷积层块由两个基本单元组成，每个单元包含一个卷积层和一个平均池化层。卷积层使用5×5的滤波器，并应用sigmoid激活函数，第一个卷积层有6个输出通道，第二个卷积层有16个输出通道。全连接层块包含三个层，输出节点数分别为120、84和10，其中10对应于输出的类别数。 **卷积层块的基本单位** 卷积层用于识别图像中的空间模式，如线条和物体的局部特征。紧随其后的平均池化层降低了模型对位置的敏感性，提供了一定程度的平移不变性。LeNet模型通过交替使用卷积层和最大池化层，然后连接全连接层来实现图像分类。 **实现LeNet模型** 在PyTorch中，可以通过`torch.nn.Sequential`类来构建LeNet模型。示例代码创建了一个包括展平、重塑和卷积层等操作的网络结构。`Flatten`模块用于将多维输入展平为一维向量，以便输入到全连接层，而`Reshape`模块则用于将数据恢复到原始的图像尺寸，便于展示或预处理。 **现代CNN的发展** LeNet是CNN的先驱，但随着技术的进步，出现了许多更先进的模型，如AlexNet、VGG、GoogLeNet和ResNet等。这些现代CNN模型引入了更深的网络结构、更大的滤波器、批量归一化、残差连接等创新，极大地提升了模型的性能，尤其是在大型图像识别数据集上的表现。总结起来，LeNet模型展示了卷积神经网络在处理图像数据方面的强大能力，为现代CNN的发展奠定了基础。随着深度学习领域的不断进步，卷积神经网络在图像识别、语义分割、目标检测等任务中扮演着越来越重要的角色。

LeNet && ModernCNN

Convolutional Neural Networks

学而习之：Fundamentals of Convolutional Neural Networks

使用全连接层的局限性：

图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。

对于大尺寸的输入图像，使用全连接层容易导致模型过大。

使用卷积层的优势：

卷积层保留输入形状。

卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。

卷积神经网络就是含卷积层的网络。卷积神经网络就是含卷积层的网络。

LeNet 模型模型

90%以上的参数都在全连接层块

LeNet分为卷积层块和全连接层块两个部分

解释：解释：

卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中，每个卷积层都使用5×55 \times 55×5的窗口，并在输出上使用sigmoid激活函数。第一个卷积层输出通道数为6，

第二个卷积层输出通道数则增加到16。

全连接层块含3个全连接层。它们的输出个数分别是120、84和10，其中10为输出的类别个数。

卷积层块里的基本单位

是卷积层后接平均池化层

卷积层用来识别图像里的空间模式，如线条和物体局部

之后的平均池化层则用来降低卷积层对位置的敏感性。

LeNet交替使用卷积层和最大池化层后接全连接层来进行图像分类交替使用卷积层和最大池化层后接全连接层来进行图像分类

通过通过 Sequential 类实现类实现 LeNet 模型模型

#import

import sys

sys.path.append("path to FashionMNIST2065")

import d2lzh1981 as d2l

import torch

import torch.nn as nn

import torch.optim as optim

import time

#net

class Flatten(torch.nn.Module): #展平操作

def forward(self, x):

return x.view(x.shape[0], -1)

class Reshape(torch.nn.Module): #将图像大小重定型

def forward(self, x):

return x.view(-1,1,28,28) #(B x C x H x W)

net = torch.nn.Sequential( #Lelet

Reshape(),

# 公式：[(nh-kh+ph+sh)/sh]*[(nw-kw+pw+sw)/sw] nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5, padding=2), #b*1*28*28 =>b*6*28*28

nn.Sigmoid(),

# 平均池化

nn.AvgPool2d(kernel_size=2, stride=2), #b*6*28*28 =>b*6*14*14

nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5), #b*6*14*14 =>b*16*10*10

nn.Sigmoid(),

nn.AvgPool2d(kernel_size=2, stride=2), #b*16*10*10 => b*16*5*5

# 展平

Flatten(), #b*16*5*5 => b*400

# 三个全连接层

nn.Linear(in_features=16*5*5, out_features=120),

nn.Sigmoid(),

nn.Linear(120, 84),

nn.Sigmoid(),

nn.Linear(84, 10)

)

获取数据获取数据

# 数据

batch_size = 256

train_iter, test_iter = d2l.load_data_fashion_mnist(

batch_size=batch_size, root='path to FashionMNIST2065')

# 训练集批次数

print(len(train_iter))

'''

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38735119

粉丝: 7
资源: 876

卷积神经网络详解：从LeNet到现代CNN

C语言实现的完整LeNet神经网络解析

Python深度学习实践：实现LeNet5卷积网络

深度学习经典模型LeNet5的源码解析

东南大学微电子学院FPGA-DNN加速器设计和应用课程实验FPGA实现LeNet5(毕设&课设&实训&大作业&竞赛&项目)

LeNet

基于AlexNet&LeNet5模型的脑图像识别

Lenet.zip_LeNet_5_Lenet-5_lenet_lenet字符识别_卷积神经 代码

LeNet-5.rar_LeNet-5模型_LeNet模型 PPT_lenet_lenet识别_神经网络

LeNet5_LeNet5

手写数字识别——基于TensorFlow LeNet-5模型(毕设&课设&实训&大作业&竞赛&项目)

最新资源

Lenet.zip_LeNet_5_Lenet-5_lenet_lenet字符识别_卷积神经代码