PyTorch Task05: 深入理解卷积神经网络

7 浏览量更新于2024-08-30 收藏 182KB PDF 举报

"本文主要介绍了PyTorch中的卷积神经网络Task05的相关知识，包括卷积神经网络的基础概念，如二维卷积层、填充和步幅、多输入通道和多输出通道，以及卷积层与全连接层的对比。此外，还提及了一些经典的卷积神经网络模型，如LeNet-5、AlexNet、VGG、GoogLeNet (Inception) 和ResNet，讨论了卷积神经网络中的退化问题以及残差网络的解决办法。" 卷积神经网络（CNN）是深度学习领域中用于图像处理和计算机视觉任务的重要模型。在PyTorch中，我们可以构建和训练自己的卷积神经网络模型。 1. **卷积神经网络基础** - **二维卷积层**：卷积层是CNN的核心组成部分，它通过二维互相关运算处理输入数据。卷积核在输入数组上滑动，对每个位置的输入子数组进行元素乘积并求和，生成输出数组的对应元素。这有助于提取输入数据的局部特征。 - **填充（padding）**：为了保持输出尺寸与输入相似或恒定，通常会在输入的边缘添加零元素，这样卷积核可以覆盖到输入的所有区域。 - **步幅（stride）**：卷积核移动的步长决定了输出元素的间隔。步幅越大，输出尺寸越小，捕获的信息越少；反之，步幅越小，输出尺寸越大，能捕捉到更多的细节。 2. **多输入通道和多输出通道**：在彩色图像中，输入通常有三个通道（红、绿、蓝）。卷积层可以设计成处理多个输入通道，并产生多个输出通道，形成特征图。每个输出通道可以捕获不同的特征。 3. **卷积层与全连接层对比**：全连接层处理全局信息，每个神经元与前一层的所有神经元相连。而卷积层则侧重于局部信息，通过卷积操作保持输入的空间结构，减少参数数量，有效防止过拟合。 4. **经典模型** - **LeNet-5**：由Yann LeCun提出的早期CNN模型，主要用于手写数字识别。 - **AlexNet**：2012年ImageNet竞赛的获胜者，首次证明了深度CNN在大规模图像分类上的优势。 - **VGG**：由牛津大学Visual Geometry Group提出的模型，以深度和小卷积核为特点。 - **GoogLeNet (Inception)**：引入了Inception模块，通过并行不同大小的卷积来提高效率和性能。 - **ResNet**：解决了深度网络中的梯度消失问题，通过残差块实现非常深的网络训练。 5. **退化问题与残差网络**：随着网络深度增加，可能会出现性能下降的现象，称为退化问题。ResNet通过引入残差块，使得信号可以直接从输入传递到输出，解决了这个问题，使得训练极深的网络成为可能。了解这些基础知识后，你可以用PyTorch构建自己的卷积神经网络模型，解决各种图像识别、目标检测等任务。在实践中，还需要结合正则化、优化器选择、损失函数等技术，以优化模型性能。

ci×co×h×wci×co×h×w，与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是(c1,h1,w1)(c1,h1,w1)和(c2,h2,w2)

(c2,h2,w2)，如果要用全连接层进行连接，参数数量就是c1×c2×h1×w1×h2×w2c1×c2×h1×w1×h2×w2。使用卷积层可以以较

少的参数数量来处理更大的图像。

1.5池化池化

池化层主要用于缓解卷积层对位置的过度敏感性。同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗

口）中的元素计算输出，池化层直接计算池化窗口内元素的最大值或者平均值，该运算也分别叫做最大池化或平均池化。图6

展示了池化窗口形状为2×22×2的最大池化。

图6 池化窗口形状为 2 x 2 的最大池化

二维平均池化的工作原理与二维最大池化类似，但将最大运算符替换成平均运算符。池化窗口形状为p×qp×q的池化层称为

p×qp×q池化层，其中的池化运算叫作p×qp×q池化。

池化层也可以在输入的高和宽两侧填充并调整窗口的移动步幅来改变输出形状。池化层填充和步幅与卷积层填充和步幅的工作

机制一样。

在处理多通道输入数据时，池化层对每个输入通道分别池化，但不会像卷积层那样将各通道的结果按通道相加。这意味着池化

层的输出通道数与输入通道数相等。

2 经典模型经典模型

LeNet-5

1998， Yann LeCun 的 LeNet5 官网

卷积神经网路的开山之作，麻雀虽小，但五脏俱全，卷积层、pooling层、全连接层，这些都是现代CNN网络的基本组件

用卷积提取空间特征；

由空间平均得到子样本；

用 tanh 或 sigmoid 得到非线性；

用 multi-layer neural network（MLP）作为最终分类器；

层层之间用稀疏的连接矩阵，以避免大的计算成本。

输入：图像Size为3232

。这要比

mnist

数据库中最大的字母

(2828)还大。这样做的目的是希望潜在的明显特征，如笔画断续、

角点能够出现在最高层特征监测子感受野的中心。

输出：10个类别，分别为0-9数字的概率

C1层是一个卷积层，有6个卷积核（提取6种局部特征），核大小为5 * 5

S2层是pooling层，下采样（区域:2 * 2 ）降低网络训练参数及模型的过拟合程度。

C3层是第二个卷积层，使用16个卷积核，核大小:5 * 5 提取特征

S4层也是一个pooling层，区域:2*2

C5层是最后一个卷积层，卷积核大小:5 * 5 卷积核种类:120

最后使用全连接层，将C5的120个特征进行分类，最后输出0-9的概率

一下代码来自官方教程

import torch.nn as nn

class LeNet5(nn.Module):

def __init__(self):

super(LeNet5, self).__init__()

# 1 input image channel, 6 output channels, 5x5 square convolution

# kernel

self.conv1 = nn.Conv2d(1, 6, 5)

self.conv2 = nn.Conv2d(6, 16, 5)

# an affine operation: y = Wx + b

self.fc1 = nn.Linear(16 * 5 * 5, 120) # 这里论文上写的是conv,官方教程用了线性层

self.fc2 = nn.Linear(120, 84)

self.fc3 = nn.Linear(84, 10)

def forward(self, x):

# Max pooling over a (2, 2) window

x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))

剩余12页未读，继续阅读

weixin_38706455

粉丝: 5
资源: 920

PyTorch Task05: 深入理解卷积神经网络

pytorch实现task5——卷积神经网络基础；leNet；卷积神经网络进阶

pytorch_task5 卷积神经网络基础；leNet；循环神经网络进阶

深度学习Pytorch入门：卷积神经网络详解

在PyTorch中实现卷积神经网络(CNN)

动手学 task5 卷积神经网络基础；leNet；卷积神经网络进阶

《动手学深度学习Pytorch版》Task5-卷积神经网络

动手学深度学习Pytorch Task05

动手学深度学习Pytorch Task06

动手学深度学习Pytorch版Task05

ElitesAI·动手学深度学习PyTorch版Task05打卡

最新资源