TokenMix:提升Transformer视觉模型性能的新数据增强方法

1 下载量 139 浏览量 更新于2024-06-19 收藏 1.58MB PDF 举报
"TokenMix是一种针对视觉转换器的新数据增强技术,旨在提升模型性能,特别是对于基于Transformer的视觉网络。此技术通过在令牌级别混合两个图像的区域,促进模型关注前景区域并增强对遮挡的鲁棒性。同时,TokenMix质疑了CutMix中的混合学习目标的准确性,并提出依据神经激活图分配目标得分,以利用预先训练的教师模型。实验结果显示,TokenMix在多种视觉Transformer架构上表现出一致的性能提升,特别是在DeiT-T/S/B上提高了ImageNet top-1准确率。此外,经过长时间训练,TokenMix在ImageNet上达到81.2%的top-1准确率。该方法的源代码已在GitHub上公开。" 详细解释: 数据增强是深度学习中的一种关键技术,用来增加模型的泛化能力,防止过拟合。传统的数据增强方法包括旋转、裁剪、翻转等。近年来,CutMix等新型数据增强技术因其显著效果而受到广泛关注。CutMix通过在图像中随机切割一部分并将其粘贴到另一张图像上,同时调整标签以反映混合图像的类别概率。 然而,对于视觉转换器(如Transformer)这样的模型,CutMix的效果并不理想。这是因为Transformer天然具备全局视野,其注意力机制可以捕获图像的全局信息,而CutMix可能无法有效刺激这种全局理解。 TokenMix是为了解决这一问题而提出的新方法。它不是简单地将图像区域混合,而是将混合区域细分为多个独立的部分,然后在令牌级别进行混合。这样,Transformer可以更好地处理这些混合的令牌,从而更专注于图像的前景区域,提高对遮挡的识别能力。 此外,TokenMix还挑战了CutMix中的直接线性混合标签的做法,指出这种方法可能会导致不准确甚至违背直觉的标签分配。因此,TokenMix提出根据预先训练的教师模型的神经激活图来分配目标得分,以更精确地指导模型学习。 实验证明,TokenMix不仅在多种视觉Transformer架构(如DeiT)上提高了分类性能,而且在长时间训练后,能够在ImageNet上实现更高的准确率。这表明TokenMix是一种有效的增强策略,有助于提升基于Transformer的视觉模型的性能。研究人员已将相关代码开源,便于其他研究者和开发者使用。