深度学习详解：卷积神经网络原理与应用

5星 · 超过95%的资源 155 浏览量更新于2024-08-28 收藏 237KB PDF 举报

卷积神经网络（CNN）是深度学习领域中的一种重要模型，特别适用于图像识别和处理任务。其核心在于卷积层和池化层的设计，这些层能够有效地提取图像特征，并减少计算复杂性。 1. **卷积层**：卷积层是CNN的基础，通过应用多个卷积核（滤波器）对输入图像进行二维互相关运算，生成特征图。卷积运算实质上是对输入数据的局部区域进行加权求和，这些权重即为卷积核的参数。卷积层可以捕捉输入数据的空间结构，例如边缘、纹理等低级特征。此外，通过学习不同的卷积核，CNN可以自动发现更复杂的特征。 2. **填充（padding）**：在输入数据边缘添加零值，目的是保持输出特征图的尺寸与输入相似，或者控制输出的大小。填充有助于保持特征图的空间分辨率，避免信息丢失。 3. **步幅（stride）**：卷积核在输入数据上移动的步长，调整步幅可以改变输出特征图的大小。较大的步幅可以减少计算量，但可能导致特征捕捉的粒度变大；较小的步幅则能保留更多的细节信息。 4. **池化层**：用于减小特征图的尺寸，降低模型复杂性，同时保持重要的特征。常见的池化操作有最大池化（Max Pooling）和平均池化（Average Pooling），前者保留每个区域的最大值，后者取平均值。池化层有助于实现平移不变性，即对图像微小的位移不敏感。 5. **LeNet**：LeNet是最早成功的卷积神经网络之一，由Yann LeCun等人提出，主要用于手写数字识别。它包含卷积层、池化层和全连接层，展示了卷积神经网络在图像识别上的潜力。 6. **AlexNet**：由Alex Krizhevsky等人在2012年提出，首次在ImageNet大规模分类比赛中取得显著优势。AlexNet引入了ReLU激活函数，减少了梯度消失问题，同时采用了GPU并行计算，大大加速了训练速度。 7. **VGG**：由牛津大学视觉几何组提出的VGGNet，因其深度深、卷积核小（3x3）而著名。VGG验证了增加网络深度可以提高模型性能，但也导致了大量的参数，需要大量数据和计算资源。 8. **NiN**（Network in Network）：由林嘉洋等人提出的架构，引入了微网络（Mini-Net）的概念，用多层感知机（MLP）替换传统的卷积层，增强了特征学习能力。 9. **GoogLeNet（Inception Network）**：谷歌团队设计的网络，以其Inception模块著称，该模块通过并行不同大小的卷积核和池化操作，同时捕获不同尺度的特征，有效减少了计算量，提高了模型效率。这些模型的不断进步推动了深度学习在图像识别、物体检测、语义分割等多个领域的广泛应用。卷积神经网络不仅限于图像处理，也成功应用于语音识别、自然语言处理等领域，成为了现代深度学习技术的基石。

深度学习深度学习——卷积神经网络卷积神经网络

卷积神经网络卷积神经网络

文章目录文章目录卷积神经网络一、卷积神经网络基础1.基础知识2.卷积层的简洁实现3.池化二、LeNet三、常见的一些卷积神经网络

1.AlexNet2.VGG3.NiN4.GoogLeNet

一、卷积神经网络基础一、卷积神经网络基础

1.基础知识基础知识

二维互相关(cross-correlation)运算：输入一个二维数组和核数组（卷积核或过滤器），卷积核在输入数组上滑动，在每个位

置上与输入子数组按元素相乘并求和，取得一个输出的二维数组。如图中所示：

19=0×0+1×1+3×2+4×3，25=1×0+2×1+4×2+5×3，……

二维卷积层：将输入和卷积核做互相关运算，再加上一个偏差得到输出。此外，将核数组上下翻转、左右翻转再与输入数组做

互相关运算，这个过程称为卷积运算。

特征图：二维卷积层输出的二维数组称为特征图，看作是输入在空间维度上某一级的表征。

感受野（receptive field）：影响因素的前向运算的所有可能输入区域。如上图中。输出中的阴影元素19的感受野是输入的阴

影部分的四个元素。

如果再将图中的输出部分YYY与另一个2×2的核数组做互相关运算，得到一个单元素的输出，那么这个单元素的输出在YYY上

的感受野是YYY的4个元素，在原输入数组上就是所有的9个元素。也就是说，随着卷积层的加深，单个元素的感受野更加广

阔，隐含更多特征。

卷积层的超参数：填充和步幅。

填充（padding）：在输入数组的周围填充元素（一般为0）。卷积神经网络一般使用奇数高宽的核，对于高宽为

2k+12k+12k+1的核，令步幅为1，选择两侧填充kkk行/列，可使得输入与输出维度相同。

输出形状为：(nh+ph−kh+1)×(nw+pw−kw+1)(n_h+p_h-k_h+1)×(n_w+p_w-k_w+1)(nh+ph−kh+1)×(nw+pw−kw

+1)，nw,nhn_w,n_hnw,nh分别为原输入的宽高，ppp为宽高填充的行列数，kkk为卷积核的宽高

步幅（stride)：每次卷积核在输入数组上滑动的行数与列数。

输出形状为：[(nh+ph−kh+sh)/sh]×[(nw+pw−kw+sw)/sw][(n_h+p_h-k_h+s_h)/s_h]×[(n_w+p_w-k_w+s_w)/s_w][(nh+ph−kh

+sh)/sh]×[(nw+pw−kw+sw)/sw]，sss为步幅

多输入与输出通道：将3维数组除宽高外的一维称为通道维。

多输入通道为每个输入通道各分配一个核数组，将所有输出按通道相加，得到一个二维数组作为输出。多输出通道是在输出通

道上核数组的连结。

1×1卷积层：包含1×1的卷积核的卷积层。1×1卷积核在不改变输入高宽的情况下调整通道数。如果将通道维当作特征为维，

将高宽维度上的元素作为数据样本，那么1×1卷积层的作用等价于全连接层。

2.卷积层的简洁实现卷积层的简洁实现

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38660918

粉丝: 9
资源: 926

深度学习详解：卷积神经网络原理与应用

深度学习入门：卷积神经网络详解与LeNet实践

深度学习：挑战与应用——卷积神经网络在OCR与TSR中的实践

"深度学习在特征提取和建模上的优势——卷积神经网络研究综述

深度学习——卷积神经网络算法原理与应用 pdf

深度学习（五）————卷积神经网络基础、leNet、卷积神经网络进阶

AI学习笔记——卷积神经网络（CNN）

matab——卷积神经网络代码

deeplearning学习总结（三）——卷积神经网络（CNN）

MachineLearning学习——0220——深度学习之卷积神经网络、自编码器

深度学习——循环神经网络

最新资源