深度学习基础：卷积神经网络详解

194 浏览量更新于2024-09-02 收藏 500KB PDF 举报

"动手学深度学习task05" 卷积神经网络（Convolutional Neural Networks, CNN）是深度学习中一种重要的神经网络结构，主要用于图像处理和计算机视觉任务。本学习笔记将深入探讨CNN的基础概念，包括互相关运算、特征图、感受野、填充和步幅、多通道卷积以及池化操作。一、互相关运算互相关运算是CNN中实现卷积的核心运算。它涉及两个二维数组，即输入数组和卷积核（或过滤器）。卷积核在输入数组上滑动，对每个位置上的输入子数组与卷积核做按元素乘法后求和，生成对应位置的输出元素。这种运算在图像处理中用于提取特征，而卷积层的名称来源于数学中的卷积运算，实际上使用的却是互相关运算。卷积运算则需要将核数组翻转后再进行互相关运算，但在有学习能力的卷积核中，两者效果基本相同。二、特征图和感受野特征图是由卷积运算生成的二维数组，代表输入在空间维度（宽度和高度）上的特征表示。感受野是影响特定输出元素的所有可能输入区域，它定义了输入区域如何影响卷积层的输出。三、填充和步幅填充（padding）是在输入的边缘添加元素（如0），以保持输出尺寸与输入尺寸一致或按照需求调整。步幅（stride）决定了卷积核移动的步长，影响输出的分辨率和计算量。四、多输入通道和多输出通道在多通道卷积中，输入可以有多个颜色通道（如RGB图像的三个通道），卷积核也会对应地包含多个通道。对于每个输入通道，卷积核都会执行独立的互相关运算，然后将结果相加以得到最终的输出通道值。五、1x1卷积层 1x1卷积核不考虑输入的高和宽维度，主要作用于通道维度，可以理解为对不同通道之间的特征进行混合和减少通道数。在某些情况下，1x1卷积层能够实现与全连接层类似的功能，但计算效率更高，因为减少了参数数量和计算量。六、池化池化层是CNN中另一种关键组件，它通过固定大小的池化窗口对输入进行下采样，减小数据的空间尺寸，同时保持关键特征。最大池化取窗口内的最大值，而平均池化取平均值。池化有助于模型对图像位置的不变性，降低过拟合风险。通过这些基本概念，我们可以构建出复杂的CNN架构，用于图像分类、目标检测、图像分割等多种任务。理解这些基础操作对于深入学习深度学习中的卷积神经网络至关重要。

【学习笔记】动手学深度学习【学习笔记】动手学深度学习task05

一、卷积神经网络基础一、卷积神经网络基础

1.互相关运算互相关运算

举例二维互相关运算如下：

输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。

卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，

得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算区域、核数组以及对应的

输出。

互相关运算与卷积运算互相关运算与卷积运算：卷积层得名于卷积运算，但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右

翻转，再与输入数组做互相关运算，这一过程就是卷积运算。由于卷积层的核数组是可学习的，所以使用互相关运算与使用卷积运

算并无本质区别。

2.特征图和感受野特征图和感受野

特征图特征图：二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征

感受野感受野：影响元素 x 的前向计算的所有可能输入区域（可能大于输入的实际尺寸）

3.填充和步幅填充和步幅

**填充（padding）**是指在输入高和宽的两侧填充元素（通常是0元素）

下图为在输入的高和宽两侧分别填充了0元素的二维互相关计算

在互相关运算中，卷积核在输入数组上滑动，每次滑动的行数与列数即是步幅（步幅（stride））

下图为在高上步幅为3、在宽上步幅为2的二维互相关运算

4.多输入通道和多输出通道多输入通道和多输出通道

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38732315

粉丝: 7

深度学习基础：卷积神经网络详解

深度学习优化算法探索：从病态问题到动量算法

【学习笔记】动手学深度学习 Task02

【动手学深度学习】Task05笔记汇总

动手学深度学习Pytorch版本学习笔记 Task 05

【动手学深度学习】Task03笔记汇总

动手学深度学习 Task4 笔记

动手学深度学习 Task3 笔记

伯禹公益AI《动手学深度学习PyTorch版》Task 05 学习笔记

动手学深度学习Pytorch版本学习笔记 Task4

动手学深度学习Pytorch版本学习笔记 Task3

最新资源