LeNet深度学习实践：解决全连接层局限性

194 浏览量更新于2024-08-28 收藏 221KB PDF 举报

本篇文章主要介绍了深度学习中的经典模型LeNet，它是应用于图像识别领域的早期卷积神经网络(CNN)之一。LeNet的设计初衷是为了解决传统全连接层在处理图像数据时的局限性。首先，文章提到了全连接层的局限性。全连接层将整个输入图像视为一个长向量，这可能导致相邻像素间的空间关系在向量中被拉伸，使得模式识别变得困难。此外，全连接层对于大尺寸图像来说，会显著增加模型参数数量，可能导致过拟合和模型复杂度过大。相比之下，卷积层的优势在于其保留了输入图像的形状，并通过滑动窗口机制，用同一个卷积核在不同位置对输入进行运算，减少了参数的数量。这不仅降低了计算成本，还使模型对位置变化更具有不变性，能够有效地捕捉图像中的局部特征。 LeNet模型自身结构上，分为两个主要部分：卷积层块和全连接层块。卷积层块包含多个卷积层和平均池化层，卷积层用于检测图像中的空间特征，而平均池化层则降低对位置的依赖性，提高模型的稳定性和效率。第一层卷积层使用5x5的卷积核，输出通道数为6，第二层增加到16，通过sigmoid激活函数增强非线性表达能力。接着，文章介绍了全连接层块，它由三个全连接层组成，输出分别为120、84和10。全连接层用于将卷积层的特征映射进一步压缩和分类，最终输出层的10个节点对应10个类别，用于识别任务。在实现方面，作者使用PyTorch库构建LeNet模型，首先导入必要的模块，然后定义了两个辅助类：Flatten用于展平输入，Reshape用于调整图像尺寸。模型主体部分是Sequential容器，依次包含Reshape层、两个卷积层（每个后面跟Sigmoid激活和2x2的平均池化），以及三个全连接层。总结来说，LeNet是深度学习中的一个重要里程碑，通过结合卷积层和全连接层，解决了图像识别任务中的关键问题，为后续的深度学习模型设计提供了基础。理解并掌握LeNet的工作原理和结构，对于深入学习深度学习和实际应用有着重要的价值。

伯禹伯禹动手学深度学习动手学深度学习打卡打卡07 之之 LeNet

Convolutional Neural Networks

使用全连接层的局限性：

图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。

对于大尺寸的输入图像，使用全连接层容易导致模型过大。

使用卷积层的优势：

卷积层保留输入形状。

卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大

LeNet 模型模型

LeNet分为卷积层块和全连接层块两个部分。下面我们分别介绍这两个模块.

卷积层块里的基本单位是卷积层后接平均池化层：卷积层用来识别图像里的空间模式，如线条和物体局部，之后的平均池化层则用来降低卷积层对位置的敏感

性。

卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中，每个卷积层都使用5×5的窗口，并在输出上使用sigmoid激活函数。第一个卷积层输出通道数为

6，第二个卷积层输出通道数则增加到16。

全连接层块含3个全连接层。它们的输出个数分别是120、84和10，其中10为输出的类别个数。

下面我们通过Sequential类来实现LeNet模型。

#import

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

import torch

import torch.nn as nn

import torch.optim as optim

import time

net

class Flatten(torch.nn.Module): #展平操作

def forward(self, x):

return x.view(x.shape[0], -1)

class Reshape(torch.nn.Module): #将图像大小重定型

def forward(self, x):

return x.view(-1,1,28,28) #(B x C x H x W)

net = torch.nn.Sequential( #Lelet

Reshape(),

nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5, padding=2), #b*1*28*28 =>b*6*28*28

nn.Sigmoid(),

nn.AvgPool2d(kernel_size=2, stride=2), #b*6*28*28 =>b*6*14*14

nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5), #b*6*14*14 =>b*16*10*10

nn.Sigmoid(),

nn.AvgPool2d(kernel_size=2, stride=2), #b*16*10*10 => b*16*5*5

Flatten(), #b*16*5*5 => b*400

nn.Linear(in_features=16*5*5, out_features=120),

nn.Sigmoid(),

nn.Linear(120, 84),

nn.Sigmoid(),

nn.Linear(84, 10)

接下来我们构造一个高和宽均为28的单通道数据样本，并逐层进行前向计算来查看每个层的输出形状。

#print

X = torch.randn(size=(1,1,28,28), dtype = torch.float32)

for layer in net:

X = layer(X)

print(layer.__class__.__name__,'output shape: ',X.shape)

Reshape output shape: torch.Size([1, 1, 28, 28])

Conv2d output shape: torch.Size([1, 6, 28, 28])

Sigmoid output shape: torch.Size([1, 6, 28, 28])

AvgPool2d output shape: torch.Size([1, 6, 14, 14])

Conv2d output shape: torch.Size([1, 16, 10, 10])

Sigmoid output shape: torch.Size([1, 16, 10, 10])

AvgPool2d output shape: torch.Size([1, 16, 5, 5])

Flatten output shape: torch.Size([1, 400])

Linear output shape: torch.Size([1, 120])

Sigmoid output shape: torch.Size([1, 120])

Linear output shape: torch.Size([1, 84])

Sigmoid output shape: torch.Size([1, 84])

Linear output shape: torch.Size([1, 10])

可以看到，在卷积层块中输入的高和宽在逐层减小。卷积层由于使用高和宽均为5的卷积核，从而将高和宽分别减小4，而池化层则将高和宽减半，但通道数则从

1增加到16。全连接层则逐层减少输出个数，直到变成图像的类别数10。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38648309

粉丝: 5
资源: 901

LeNet深度学习实践：解决全连接层局限性

伯禹 动手学深度学习 打卡09 之批量归一化和残差网络

伯禹《动手学深度学习》打卡博客：Task03+Task04

动手学深度学习打卡之二。

伯禹学习第二次打卡

伯禹AI第二次学习打卡

Datawhale&kesci&伯禹教育-深度学习-第二次打卡2梯度消失和爆炸

Datawhale&kesci&伯禹教育-深度学习-第二次打卡1 过拟合&欠拟合的解决方法

伯禹学习平台打卡（二）

伯禹学习平台第一次打卡 task05

《动手学深度学习》第二次打卡-学习小队

最新资源

伯禹动手学深度学习打卡09 之批量归一化和残差网络