ReLU缩放改进ViT训练稳定性与性能:理论与实践验证

0 下载量 69 浏览量 更新于2024-06-19 收藏 640KB PDF 举报
视觉变换器(ViTs)作为卷积神经网络(CNN)的一种新兴设计趋势,近年来受到了广泛关注。它们旨在通过全球自注意力机制来替代CNN对局部特征的依赖,从而实现更全局的视觉理解。然而,相比于CNN,ViTs在实际训练过程中面临着显著的挑战,如对学习率、优化器、数据增强策略以及训练时间表的敏感性(Touvron et al., 2020, 2021; Chen, Hsieh, and Gong, 2021; Xiao et al., 2021)。 Pichao Wang等人在他们的研究中深入探讨了ViT训练困难的原因,发现问题并非仅仅在于早期的卷积层,而是集中在被称为“卷积干”(conv-stem)的部分。他们指出,conv-stem中的缩放ReLU操作在训练稳定性及性能提升上起着关键作用。ReLU函数(Rectified Linear Unit)通常用于激活神经元,但在这里,通过引入缩放因子,它可以增加补丁令牌(patch tokens)的多样性,从而在保持模型参数数量相对较少的前提下,显著改善模型在训练过程中的收敛性和最终的峰值性能。 理论分析和实验证据均支持这一观点,表明早期的卷积层对训练稳定性的影响较小,而conv-stem的缩放ReLU操作能够有效地缓解训练中的不稳定性和对超参数的依赖。这项研究进一步揭示了之前ViT模型可能并未充分利用其潜力,暗示了这些模型还有很大的改进空间,有可能成为CNN的有效替代方案。 为了证实这一点,研究人员进行了大量实验,结果表明早期的ViT模型在训练策略上可能存在优化不足。这提示了对ViT模型进行更细致的调参和优化策略探索的重要性,以便充分发挥其在全球视觉处理任务中的优势。 总结来说,缩放的ReLU在视觉变换器(ViT)的conv-stem设计中扮演了至关重要的角色,它不仅提高了模型的训练稳定性,还通过增强补丁令牌的多样性促进了性能提升。这项研究强调了对ViT模型训练深层次理解的重要性,同时也为优化ViT架构和训练策略提供了新的视角。未来的研究将继续探索如何进一步优化ViT模型,使之更好地适应各种视觉识别任务,挑战并超越CNN的现状。