深度学习笔记：卷积神经网络详解

156 浏览量更新于2024-08-30 收藏 135KB PDF 举报

"《动手学——卷积神经网络基础》笔记介绍了二维卷积层和二维互相关运算在处理图像数据中的应用。通过示例代码解释了如何实现二维互相关运算，并展示了二维卷积层的结构及其参数设定。" 在深度学习领域，卷积神经网络（Convolutional Neural Network, CNN）是处理图像数据的关键组件。本笔记主要关注二维卷积层，这是CNN中最基础且广泛使用的结构，特别是在图像识别、图像分类和图像生成任务中。二维卷积层的核心运算过程是二维互相关运算。二维互相关运算是一种计算两个二维数组之间相似度的方法，通常用于卷积网络中，将卷积核应用于输入数据上。在图像处理中，输入数组代表图像的像素值，而卷积核则作为一个滤波器，捕捉特定的特征。卷积核在输入数组上滑动，每次滑动时，它与输入的局部区域（即输入子数组）进行逐元素乘法后求和，生成输出数组的对应元素。这种操作可以理解为在图像上“扫瞄”，提取特征。例如，书中提到的corr2d函数是一个简单的二维互相关运算实现。它接受输入数组X和核数组K，返回经过卷积操作后的输出数组Y。通过实例代码，我们可以看到如何使用这个函数计算给定的输入X和核K的互相关结果。二维卷积层则在此基础上增加了更多的功能，如学习到的卷积核权重和标量偏置。在定义二维卷积层类Conv2D时，我们初始化卷积核权重self.weight和偏置self.bias。这些参数是可训练的，意味着在反向传播过程中，它们的值会根据梯度更新，从而适应不同任务的需求。卷积层的参数还包括卷积核的大小，这里由kernel_size参数指定，通常是一个包含高度和宽度的元组。卷积层的结构使得它可以检测局部特征并保持输入的空间结构，这在处理图像数据时具有显著优势。通过堆叠多个卷积层，CNN能够捕获不同层次的特征，从边缘和纹理到更复杂的形状和模式。此外，卷积层还有参数共享的特性，减少了模型的复杂性和所需的参数数量，提高了泛化能力。《动手学——卷积神经网络基础》笔记深入浅出地介绍了二维卷积层的工作原理，通过实际的Python代码和示例，帮助读者理解并掌握这一关键的深度学习概念。对于想要深入理解和应用卷积神经网络的人来说，这是一个宝贵的资源。

《动手学《动手学——卷积神经网络基础》笔记卷积神经网络基础》笔记

二维卷积层二维卷积层

本节介绍的是最常见的二维卷积层，常用于处理图像数据。

二维互相关运算二维互相关运算

二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其

中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷

积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影

部分分别是输入的第一个计算区域、核数组以及对应的输出。

图1 二维互相关运算

下面我们用corr2d函数实现二维互相关运算，它接受输入数组X与核数组K，并输出数组Y。

import torch

import torch.nn as nn

def corr2d(X, K):

H, W = X.shape

h, w = K.shape

Y = torch.zeros(H - h + 1, W - w + 1)

for i in range(Y.shape[0]):

for j in range(Y.shape[1]):

Y[i, j] = (X[i: i + h, j: j + w] * K).sum() #0*0+1*1+3*2+4*3=19

return Y

构造上图中的输入数组X、核数组K来验证二维互相关运算的输出。

X = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

K = torch.tensor([[0, 1], [2, 3]])

Y = corr2d(X, K)

print(Y)

tensor([[19., 25.],

[37., 43.]])

二维卷积层二维卷积层

二维卷积层将输入和卷积核做互相关运算，并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。

class Conv2D(nn.Module):

def __init__(self, kernel_size): #kernel_size：长度为2的元组，表示卷积核的高和宽

super(Conv2D, self).__init__()

self.weight = nn.Parameter(torch.randn(kernel_size)) #nn.Parameter传进去的就是它们的值

self.bias = nn.Parameter(torch.randn(1)) #卷积核的标量偏置

#★如果想在模型中维护一些可学习的参数，就定义为nn.Parameter，原因：

#①Parameter本身是tensor的子类，定义好的参数会被自动附上梯度，所以该参数是可学习的

#②对于nn.Parameter的子类会维护一个参数的集合，定义好后会将该参数自动注册到参数集合中

def forward(self, x):

return corr2d(x, self.weight) + self.bias

#bias长度为1，所以在基于广播机制做加法（在互相关结果上每个位置加了同样的偏置）

下面我们看一个例子，我们构造一张6×86 imes 86×8的图像，中间4列为黑（0），其余为白（1），希望检测到颜色边缘。

我们的标签是一个6×76 imes 76×7的二维数组，第2列是1（从1到0的边缘），第6列是-1（从0到1的边缘）。

X = torch.ones(6, 8)

Y = torch.zeros(6, 7)

X[:, 2: 6] = 0

Y[:, 1] = 1

Y[:, 5] = -1

print(X)

print(Y)

#Y的第i列表示的输入X的第i列到第i+1列的变化，没有变化0有变化1/-1

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38530211

粉丝: 1
资源: 970

深度学习笔记：卷积神经网络详解

卷积神经网络CNN笔记（理解CNN数学原理的指南）.pdf

MNIST_NET：一个Jupyter笔记本，记录了我构建卷积神经网络以对MNIST数据集进行分类的思考过程

TensorFlow 2 学习笔记——从底层函数解析到Keras应用（小白入门）

Al:动手学习深度学习

cs231n课程笔记

深度学习突破：AlexNet与卷积神经网络进阶

深度学习入门：卷积神经网络详解与LeNet实践

吴恩达深度学习课程V5.42中文笔记：掌握热门AI技能

深度学习笔记2：过拟合欠拟合、GRU/LSTM与Transformer详解

学生信息管理系统-----------无数据库版本

最新资源