组归一化：小批量训练误差解决方案，挑战BN地位

批量归一化

图像处理

34 浏览量更新于2024-06-20 收藏 753KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"这篇论文提出了一种新的归一化方法——组归一化（Group Normalization, GN），作为批量归一化（Batch Normalization, BN）的替代方案，旨在解决小批量训练时误差增加的问题。BN在深度学习领域中扮演着重要角色，尤其在图像处理和计算机视觉任务中，但其依赖于大批次处理，小批量时性能下降。GN通过将通道划分为组并在组内计算平均值和方差，克服了这一限制，即使在小批量情况下也能保持稳定性能。在ImageNet上的实验表明，GN在批量大小为2时的误差比BN低10.6%，并且在典型批量大小下与BN相当甚至更优。此外，GN在COCO对象检测和分割、Kinetics视频分类等任务中也展现出优势，证明了其在多种任务中的有效性。GN的实现简单，可以方便地应用于模型微调。" 详细说明：批量归一化（BN）是深度学习中一个关键的技术，它通过计算批量数据的均值和方差来进行特征归一化，帮助优化过程并提高模型的泛化能力。然而，BN在小批量训练时由于批量统计的不准确性，导致误差增加。为了解决这个问题，研究者提出了组归一化（GN）。与BN不同，GN不是按批量进行归一化，而是将特征通道划分为多个小组，然后在每个小组内分别计算均值和方差，从而减少了对批量大小的依赖。 GN的这种设计使得它在小批量训练时也能保持稳定的表现。在ImageNet数据集上，使用ResNet-50模型进行实验，当批量大小仅为2时，GN相比BN的误差降低了10.6%。在标准批量大小下，GN的性能与BN相当，甚至在某些情况下更好。这表明GN在处理内存有限、需要小批量的场景时具有显著优势。此外，GN在迁移学习和微调任务中也表现出优越性，能够在COCO对象检测和分割以及Kinetics视频分类等任务中超越基于BN的方法。这进一步证明了GN作为一种通用的归一化方法，能在不同的计算机视觉任务中有效替代BN。 GN的实现相对简单，只需要对现有模型进行少量代码修改，即可替换BN。这使得GN成为深度学习开发者的一个实用工具，特别是在资源受限的环境中，如边缘计算或者单GPU训练时。组归一化提供了一种新的视角来处理深度学习中的归一化问题，特别是对于那些无法使用大批次训练的情况。通过其独特的组内归一化策略，GN能够提高模型的稳定性和泛化性能，且易于集成到现有的深度学习框架中，为未来的深度学习研究和应用开辟了新的可能。

资源详情

资源推荐

吴和

Batch Norm

图层规范

实例规范

群体规范

图2.归一化方法。每个子图显示一个特征图张量。蓝色像素通过相同的平

均值和方差进行归一化，通过聚合这些像素的值来计算使用组编号2来说

明组范数

分组计算。

群卷积

由AlexNet提出

[28]用于将模型分布到两个GPU中。

群体

的概念作为模型设计的一个维度

最近得到了更广泛的研究。ResNeXt [7]的工作研究了深度，宽度和组之

间的权衡，以及这表明，在类似的计算成本下，更大数量的组可以

提高精度。 MobileNet [38]和Xception [39]利用

信道方式

（也

称为“dept t

h-w is e”）的共享，其中，分组共享具有与信道号相等的组号

。

ShuffleNet [40]提出了一种通道混洗操作，该操作对分组特征的轴进行排

列。这些方法都涉及将信道维度划分成组。尽管与这些方法有关，GN

不

需要群卷积。GN是一个通用层，正如我们在标准ResNets [3]中评估的那

样。

组标准化

视觉表征的通道并不是完全独立的。SIFT [14]、HOG [15]和GIST [41]的

经典特征是通过设计的分组表示，其中每组通道由某种直方图构造。这

些特征通常通过在每个直方图或每个方向

上进行分组归一化

来处理更高

级别的功能，如VLAD [42] 和Fisher向量（FV）[43]也是分组特征，其

中组可以被认为是相对于集群计算的子向量

类似地，没有必要将深度神经网络特征视为非结构化向量。例

如，对于网络的conv

如果conv

碰巧近似地学习这对滤波器，或者如

果通过设计将水平翻转（或其他变换）制成架构[44，45]，则这些滤

波器的对应通道可以一起归一化。

更高级别的层更抽象，它们的行为也不那么直观。然而，除了方向

（SIFT [14]、HOG [15]或[44，45]）之外，还有许多因素可能导致分组，

例如频率、形状、照明、纹理。它们的系数可以是相互依赖的。事实

上，在神经科学中一个广为接受的计算模型是在整个细胞中进行标准化

，

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

组归一化：小批量训练误差解决方案，挑战BN地位

层归一化：Transformer模型的稳定器

批量归一化处理 BN

网络单元分析:全连接层,bn层,批量归一化层

批量归一化（BN）层

训练集、测试集、验证集的归一化要求

lstm归一化和反归一化

批量归一化，层归一化和分组归一化的优缺点以及联系与区别

归一化反归一化matlab

批量归一化层与局部归一化层的区别

Min-Max归一化：

批量归一化层代替局部归一化层的优势

层归一化和批量归一化

给三组数据怎么归一化处理

归一化的方法包括 批量归一化 层归一化 权重归一化和局部响应归一化，请说出这四种归一化方法的含义

批量归一化与层归一化的区别

在MATLAB中怎么归一化，并反归一化

使用pytorch写出对数据进行归一化的所有方法

样本归一化：预测时的样本数据同样也需要归一化，但使用训练样本的均值和极值计算，这是为什么？

求和归一化和归一化有什么区别

最新资源

归一化的方法包括批量归一化层归一化权重归一化和局部响应归一化，请说出这四种归一化方法的含义