FRN与TLU:优化小批量训练的归一化新方法
153 浏览量
更新于2024-08-29
收藏 1.34MB PDF 举报
"这篇论文提出了一种新的归一化方法——FRN(Feature-wise Recursive Normalization),以及与其配合使用的激活函数TLU(Thresholded Linear Unit),旨在解决在小batch size下训练神经网络时遇到的效率问题。传统的BN(Batch Normalization)在小batch size下效果欠佳,而FRN在不同batch size上的表现更稳定。此外,FRN不依赖batch的设置,且通过全局归一化,确保了每个通道的滤波器在模型中具有相等的重要性。论文还引入了TLU来弥补FRN未进行均值中心化可能导致的任意偏差,其中t为可学习的阈值。"
详细解释:
1. **批量归一化(Batch Normalization, BN)**:BN是深度学习中常用的正则化技术,通过规范化每一层的输入特征,加速训练并提高模型的泛化能力。然而,当batch size过小时,BN的统计估计误差增大,可能影响训练效果。
2. **组归一化(Group Normalization, GN)和批归一化重规范化(Batch Renormalization, BR)**:这两者都是为了解决BN在小batch size下的问题。GN通过将输入数据分割成多个组进行归一化,避免了batch size的影响,但可能无法达到BN在大batch上的性能。BR试图修正BN的小batch误差,但效果仍然有限。
3. **FRN(Feature-wise Recursive Normalization)**:FRN是本文的核心贡献,它不依赖batch的大小,而是对每个通道进行全局归一化,消除滤波器权重和预激活值的尺度效应。FRN的关键在于不减去均值,这使得它在小batch size下仍能保持稳定的表现。
4. **阈值线性单元(Thresholded Linear Unit, TLU)**:由于FRN没有进行均值中心化,可能会导致任意偏差。为解决这个问题,论文提出了TLU作为激活函数,其阈值t是可学习的,能够适应模型训练的需求。在某些情况下,当epsilon值较小时,TLU近似为符号函数,导致梯度接近于零,不利于模型学习。通过使epsilon成为可学习参数,可以优化这种情况,使曲线变得更平滑,有利于梯度传播和模型训练。
5. **实现与实验**:论文提供了FRN的TensorFlow实现,并通过对比实验展示了FRN在不同batch size上的优势,尤其是在小batch size下优于其他归一化方法,如BN、GN、LN(Layer Normalization)和IN(Instance Normalization)。
6. **应用前景**:FRN未来将在自然语言处理(NLP)领域继续探索,预期能为该领域的模型训练提供更高效的方法。
总结来说,这篇论文提出的新方法FRN和TLU为小batch size训练提供了解决方案,改善了传统归一化方法在小batch训练时的不足,为深度学习的训练策略提供了新的思考方向。
2021-01-20 上传
2021-01-07 上传
2023-10-07 上传
2023-07-16 上传
2023-09-01 上传
2023-05-27 上传
2023-09-01 上传
weixin_38653602
- 粉丝: 6
- 资源: 937
最新资源
- JavaScript DOM事件处理实战示例
- 全新JDK 1.8.122版本安装包下载指南
- Python实现《点燃你温暖我》爱心代码指南
- 创新后轮驱动技术的电动三轮车介绍
- GPT系列:AI算法模型发展的终极方向?
- 3dsmax批量渲染技巧与VR5插件兼容性
- 3DsMAX破碎效果插件:打造逼真碎片动画
- 掌握最简GPT模型:Andrej Karpathy带你走进AI新时代
- 深入解析XGBOOST在回归预测中的应用
- 深度解析机器学习:原理、算法与应用
- 360智脑企业内测开启,探索人工智能新场景应用
- 3dsmax墙砖地砖插件应用与特性解析
- 微软GPT-4助力大模型指令微调与性能提升
- OpenSARUrban-1200:平衡类别数据集助力算法评估
- SQLAlchemy 1.4.39 版本特性分析与应用
- 高颜值简约个人简历模版分享