LeNet深度解析：卷积神经网络进阶的5种模型

44 浏览量更新于2024-08-28 收藏 732KB PDF 举报

在《动手学习深度学习》的系列教程中，章节2专门深入探讨了卷积神经网络（CNN）的进阶知识，特别是针对LeNet、AlexNet、VGG、NiN和GooLeNet这五种经典的CNN模型。本节重点关注了LeNet模型，它是CNN早期应用的一个里程碑，用于手写数字识别。 LeNet的设计旨在解决传统全连接层在处理图像数据时的局限性。全连接层的问题在于它不保留输入图像的空间结构，导致相邻像素在向量中距离较远，模型可能难以识别出这些像素之间的模式。此外，当输入图像尺寸较大时，全连接层会显著增加模型的参数数量，导致过大的模型规模和计算复杂度。相比之下，卷积层的优势在于其局部连接和权重共享特性。卷积层通过固定大小的卷积核（如LeNet中的5*5）在输入上进行滑动计算，这样不仅保留了原始图像的尺寸，还能有效地减少参数数量。它通过检测图像的局部特征，如边缘、纹理等，使得模型对位置变化有较高的鲁棒性。在LeNet中，卷积层后面通常跟有激活函数（如sigmoid）和池化层（如平均池化），前者增强非线性表达，后者进一步减小数据维度并提高模型效率。 LeNet的结构主要由两部分组成：卷积层块和全连接层块。卷积层块包含一个基础单元，由卷积层、激活函数和池化层交替组成，用于提取和抽象图像特征。全连接层块则负责将卷积层的高维输出转换为分类决策，通过三个全连接层逐级减少节点数，最后输出层的10个节点对应于10个类别。在实现LeNet时，作者利用了PyTorch库中的Sequential类，先定义了展平和重塑操作，然后构建了卷积层、Sigmoid激活和平均池化层，确保了模型的结构清晰。这些步骤展示了如何将理论知识转化为实际代码，以便于理解和实践。 LeNet作为早期CNN模型的代表，展示了卷积层在图像处理中的核心作用，并为后续更复杂的CNN架构奠定了基础。通过学习LeNet及其工作原理，读者可以深入理解CNN如何处理空间信息，以及如何设计和优化卷积神经网络结构。后续章节可能会探讨其他模型如何在LeNet的基础上进行改进和扩展，以适应更广泛的计算机视觉任务。

《动手学习深度学习》之三：《动手学习深度学习》之三：2.卷积神经网络（卷积神经网络（CNN）进阶）进阶-5种模型（打卡种模型（打卡2.5））

卷积神经网络（卷积神经网络（CNN）进阶）进阶

2.LeNet、、AlexNet、、VGG、、NiN、、GooLeNet 5种模型种模型

2.1.LeNet

2.1.1.全连接层和卷积层的比较：

使用全连接层的局限性：

• 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。

• 对于大尺寸的输入图像，使用全连接层容易导致模型过大。

使用卷积层的优势：

• 卷积层保留输入形状。

• 卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。

2.1.2.LeNet 模型介绍

LeNet分为卷积层块和全连接层块两个部分

• 卷积层块里的基本单位是：卷积层（卷积核：5*5）后+sigmoid函数+平均池化层：卷积层用来识别图像里的空间模式，如线条和物体局部，之后的平均池化层则用来降低卷积层对

位置的敏感性。卷积层块由两个这样的基本单位重复堆叠构成。

• 全连接层块含3个全连接层。它们的输出个数分别是120、84和10，其中10为输出的类别个数

我们通过Sequential类来实现LeNet模型

#import

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

import torch

import torch.nn as nn

import torch.optim as optim

import time

#net

class Flatten(torch.nn.Module): #展平操作

def forward(self, x):

return x.view(x.shape[0], -1)

class Reshape(torch.nn.Module): #将图像大小重定型

def forward(self, x):

return x.view(-1,1,28,28) #(B x C x H x W)

net = torch.nn.Sequential( #Lelet

Reshape(),

nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5, padding=2), #b*1*28*28 =>b*6*28*28

nn.Sigmoid(),

nn.AvgPool2d(kernel_size=2, stride=2), #b*6*28*28 =>b*6*14*14

nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5), #b*6*14*14 =>b*16*10*10

nn.Sigmoid(),

nn.AvgPool2d(kernel_size=2, stride=2), #b*16*10*10 => b*16*5*5

Flatten(), #b*16*5*5 => b*400

nn.Linear(in_features=16*5*5, out_features=120),

nn.Sigmoid(),

nn.Linear(120, 84),

nn.Sigmoid(),

nn.Linear(84, 10)

)

接下来我们构造一个高和宽均为28的单通道数据样本，并逐层进行前向计算来查看每个层的输出形状。

#print

X = torch.randn(size=(1,1,28,28), dtype = torch.float32)

for layer in net:

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38648968

粉丝: 11

LeNet深度解析：卷积神经网络进阶的5种模型

最新资源