深度学习实践：K折交叉验证与L2正则化

60 浏览量更新于2024-09-02 收藏 742KB PDF 举报

"动手学深度学习笔记，涉及K折交叉验证、L2范数正则化、二维互相关运算、特征图、感受野、1×1卷积层和卷积层与全连接层的对比" 在深度学习领域，理解和应用各种技术是至关重要的。本笔记主要关注了几个关键概念，它们在构建和优化深度学习模型时起着基础性的作用。首先，K折交叉验证是一种有效的模型验证方法，特别是在数据有限的情况下。传统的做法是将数据集分为训练集和验证集，但这样可能会浪费大量数据。K折交叉验证通过将数据集划分为K个子集，每次用一个子集作为验证集，其余的K-1个子集用于训练，重复K次，确保每个子集都有机会作为验证集。这种方法能够更全面地评估模型性能，避免因单一验证集而产生的偏差。其次，L2范数正则化是防止模型过拟合的常用手段。在损失函数中加入L2范数惩罚项，即所有权重参数的平方和乘以一个正的常数，这使得模型在训练时不仅要最小化预测误差，还要尽量减小权重的大小。这样做的结果是抑制模型复杂度，避免模型过于依赖训练数据的噪声，提高泛化能力。二维互相关运算在卷积神经网络（CNN）中扮演重要角色，它相当于卷积运算，但通常用于描述滤波器（卷积核）与输入数据的滑动匹配过程。卷积核在输入数组上滑动，计算每个位置的乘积和，生成输出特征图。这种操作允许模型捕获输入数据的空间特性。特征图是卷积层的输出，表示输入数据在特定层次的抽象表示。每个特征图的元素对应于输入的一个特定感受野，即影响该元素计算的所有输入区域。感受野的概念帮助我们理解模型如何从局部区域提取特征。 1×1卷积层是CNN中的特殊形式，它主要用于调整通道数而非改变空间尺寸。尽管卷积核大小为1×1，但它在通道维度上进行操作，可以视为全连接层的变体，尤其是在处理多通道输入时，1×1卷积能有效地减少计算量和参数数量。对比全连接层，卷积层具有显著优势。全连接层将所有输入连接到所有输出，可能导致模型过于复杂，特别是对于高分辨率图像。相反，卷积层保持输入的结构，通过共享权重和局部连接降低了模型复杂度，同时提高了模型对输入数据结构的敏感性。总结来说，这些概念构成了深度学习实践的基础，无论是K折交叉验证的模型评估策略，还是L2正则化的模型优化技术，或是卷积运算在特征提取中的应用，都是深度学习模型设计和训练过程中不可或缺的工具。深入理解并熟练运用这些概念，对于提升模型性能和解决实际问题至关重要。

[笔记笔记2]动手学深度学习动手学深度学习

资料来源：伯禹学习平台。

概念整理概念整理

K折交叉验证折交叉验证

由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证（K-fold

cross-validation）。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一

次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都

不同。最后，我们对这K次训练误差和验证误差分别求平均。

L2 范数正则化（范数正则化（regularization））

L2L2范数正则化在模型原损失函数基础上添加L2L2范数惩罚项，从而得到训练所需要最小化的函数。L2L2范数惩罚项指的是模型权重

参数每个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例

二维互相关运算二维互相关运算

二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通

常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输

入子数组按元素相乘并求和，得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算

区域、核数组以及对应的输出。

使用互相关运算与使用卷积运算并无本质区别。

特征图与感受野特征图与感受野

二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。影响元素xx的前向计

算的所有可能输入区域（可能大于输入的实际尺寸）叫做xx的感受野（receptive field）。

1×1卷积层卷积层

1×1卷积核可在不改变高宽的情况下，调整通道数。1×1卷积核不识别高和宽维度上相邻元素构成的模式，其主要计算发生在通道维上。

假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么1×1卷积层的作用与全连接层等价。

卷积层与全连接层的对比卷积层与全连接层的对比

使用全连接层的局限性：

图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。

对于大尺寸的输入图像，使用全连接层容易导致模型过大。

使用卷积层的优势：

卷积层保留输入形状。

卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。

机器翻译（机器翻译（MT））

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特

征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

CV相关网络相关网络

LeNet 模型模型

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38743054

粉丝: 8
资源: 942

深度学习实践：K折交叉验证与L2正则化

深度学习实践：李沐老师的Pytorch代码笔记

深度学习笔记2：过拟合欠拟合、GRU/LSTM与Transformer详解

深度学习AI资源合集：吴恩达学习资料精粹

【学习笔记】动手学深度学习 Task02

【学习笔记】动手学深度学习task05

动手学深度学习笔记2

动手学深度学习PyTorch版学习笔记2

动手学习深度学习_笔记5

动手学深度学习笔记二

笔记：动手学深度学习pytorch（卷积神经网络基础；leNet；卷积神经网络进阶）

最新资源