FRN与TLU：优化小批量训练的归一化新方法

9 浏览量更新于2024-08-29 收藏 1.34MB PDF 举报

"这篇论文提出了一种新的归一化方法——FRN（Feature-wise Recursive Normalization），以及与其配合使用的激活函数TLU（Thresholded Linear Unit），旨在解决在小batch size下训练神经网络时遇到的效率问题。传统的BN（Batch Normalization）在小batch size下效果欠佳，而FRN在不同batch size上的表现更稳定。此外，FRN不依赖batch的设置，且通过全局归一化，确保了每个通道的滤波器在模型中具有相等的重要性。论文还引入了TLU来弥补FRN未进行均值中心化可能导致的任意偏差，其中t为可学习的阈值。" 详细解释： 1. **批量归一化（Batch Normalization, BN）**：BN是深度学习中常用的正则化技术，通过规范化每一层的输入特征，加速训练并提高模型的泛化能力。然而，当batch size过小时，BN的统计估计误差增大，可能影响训练效果。 2. **组归一化（Group Normalization, GN）和批归一化重规范化（Batch Renormalization, BR）**：这两者都是为了解决BN在小batch size下的问题。GN通过将输入数据分割成多个组进行归一化，避免了batch size的影响，但可能无法达到BN在大batch上的性能。BR试图修正BN的小batch误差，但效果仍然有限。 3. **FRN（Feature-wise Recursive Normalization）**：FRN是本文的核心贡献，它不依赖batch的大小，而是对每个通道进行全局归一化，消除滤波器权重和预激活值的尺度效应。FRN的关键在于不减去均值，这使得它在小batch size下仍能保持稳定的表现。 4. **阈值线性单元（Thresholded Linear Unit, TLU）**：由于FRN没有进行均值中心化，可能会导致任意偏差。为解决这个问题，论文提出了TLU作为激活函数，其阈值t是可学习的，能够适应模型训练的需求。在某些情况下，当epsilon值较小时，TLU近似为符号函数，导致梯度接近于零，不利于模型学习。通过使epsilon成为可学习参数，可以优化这种情况，使曲线变得更平滑，有利于梯度传播和模型训练。 5. **实现与实验**：论文提供了FRN的TensorFlow实现，并通过对比实验展示了FRN在不同batch size上的优势，尤其是在小batch size下优于其他归一化方法，如BN、GN、LN（Layer Normalization）和IN（Instance Normalization）。 6. **应用前景**：FRN未来将在自然语言处理（NLP）领域继续探索，预期能为该领域的模型训练提供更高效的方法。总结来说，这篇论文提出的新方法FRN和TLU为小batch size训练提供了解决方案，改善了传统归一化方法在小batch训练时的不足，为深度学习的训练策略提供了新的思考方向。

weixin_38653602

粉丝: 6
资源: 936

FRN与TLU：优化小批量训练的归一化新方法

激活函数（ReLU、sigmoid、tanh）的简单理解

frn：对于GTSport

关于激活函数

富士变频器frn说明书

富士变频器frn075e2s-2j说明书

frn2 2c1s-2j 说明书

在USB2.0标准中，中断传输模式是如何保证数据包的实时性和服务质量的？请结合《USB2.0协议解析：中断传送机制详解》具体说明。

USB2.0协议中断传输模式如何确保实时性和服务质量？

在Java多线程编程中，封装类与基本数据类型各自的使用场景是什么？请通过代码示例详细说明。

请解释Java中封装类与基本数据类型的关系，并举例说明在多线程环境中它们的使用区别。

最新资源