深度学习PyTorch实战：批量归一化与残差网络解析

121 浏览量更新于2024-08-30 收藏 383KB PDF 举报

"本课程主要涉及深度学习中的批量归一化和残差网络技术，以及相关的凸优化和梯度下降方法。批量归一化用于稳定深层神经网络的训练过程，而残差网络则是解决深度学习中梯度消失问题的一种有效架构。此外，还介绍了在Pytorch中实现这些技术的基本代码结构。" 批量归一化是一种在深度学习中用于优化模型训练的技术，它通过在神经网络的层间进行数据规范化，确保每一层的输入具有相似的分布。在浅层模型中，批量归一化的目的是将输入数据的特征标准化，使得每个特征在所有样本上的均值为0，标准差为1。在深度模型中，批量归一化是在小批量数据上进行，以调整神经网络内部的中间输出，减少内部协变量漂移，使得训练更加稳定。对于全连接层，批量归一化通常放在仿射变换（线性变换）和激活函数之间。而在卷积层中，批量归一化是在卷积计算后、激活函数前进行，特别是当卷积层有多个输出通道时，每个通道都需要单独进行批量归一化，并且每个通道有自己的缩放和平移参数。在预测阶段，批量归一化采用训练期间计算的移动平均值来估计整个数据集的均值和方差，以保持模型的预测一致性。残差网络（ResNet）是深度学习领域的一个重要突破，它通过引入残差块解决了深度网络中的梯度消失问题。在残差块中，输入可以直接通过跨层的“跳跃连接”传递到下一层，这样可以使得梯度更容易反向传播，同时也允许网络学习残差，即网络需要学习的是输入与期望输出之间的差值，而非原始的输出。在Pytorch中，残差块可以通过定义包含两个卷积层（带padding以保持输出尺寸不变）的类来实现，根据需要还可以选择性地添加一个1x1卷积层来改变通道数。批量归一化和残差网络的结合使用，极大地提升了深度神经网络的训练效率和性能，使得训练更深的网络成为可能，从而在图像识别等任务上取得了显著的成果。在实际编程中，可以使用Pytorch内置的`nn.BatchNorm2d`和`nn.BatchNorm1d`模块进行批量归一化，以及自定义`Residual`类来构建残差网络。

动手学深度学习动手学深度学习Pytorch Task06

本节课内容批量归一化和残差网络、凸优化、梯度下降

一、批量归一化和残差网络一、批量归一化和残差网络

1.批量归一化批量归一化

对输入的标准化（浅层模型）：处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据

使各个特征的分布相近。

批量归一化（深度模型）：利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输

出的数值更稳定。

对全连接层做批量归一化对全连接层做批量归一化

位置：全连接层中的仿射变换和激活函数之间。

对卷积层做批量归一化对卷积层做批量归一化

位置：卷积计算之后、应用激活函数之前。

如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。计

算：对单通道，batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

预测时的批量归一化预测时的批量归一化

训练：以batch为单位,对每个batch计算均值和方差。

预测：用移动平均估算整个训练数据集的样本均值和方差。

代码实现代码实现

nn.BatchNorm2d(6),

nn.BatchNorm1d(84),

2.残差网络残差网络

在残差块中，输入通过跨层的数据线路更快地向前传播。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38669729

粉丝: 7
资源: 908

深度学习PyTorch实战：批量归一化与残差网络解析

伯禹公益AI《动手学深度学习PyTorch版》Task 05 学习笔记

伯禹公益AI《动手学深度学习PyTorch版》Task 06 学习笔记

动手学深度学习Pytorch Task05

动手学深度学习Pytorch Task04

动手学深度学习Pytorch版Task05

动手学深度学习Pytorch版Task04

动手学深度学习Pytorch版Task03

ElitesAI·动手学深度学习PyTorch版Task05打卡

动手学深度学习Pytorch版本学习笔记 Task 05

动手学深度学习Pytorch版本学习笔记 Task 04

最新资源