TokenMix：提升Transformer视觉模型性能的新数据增强方法

95 浏览量更新于2024-06-19 收藏 1.58MB PDF 举报

"TokenMix是一种针对视觉转换器的新数据增强技术，旨在提升模型性能，特别是对于基于Transformer的视觉网络。此技术通过在令牌级别混合两个图像的区域，促进模型关注前景区域并增强对遮挡的鲁棒性。同时，TokenMix质疑了CutMix中的混合学习目标的准确性，并提出依据神经激活图分配目标得分，以利用预先训练的教师模型。实验结果显示，TokenMix在多种视觉Transformer架构上表现出一致的性能提升，特别是在DeiT-T/S/B上提高了ImageNet top-1准确率。此外，经过长时间训练，TokenMix在ImageNet上达到81.2%的top-1准确率。该方法的源代码已在GitHub上公开。" 详细解释：数据增强是深度学习中的一种关键技术，用来增加模型的泛化能力，防止过拟合。传统的数据增强方法包括旋转、裁剪、翻转等。近年来，CutMix等新型数据增强技术因其显著效果而受到广泛关注。CutMix通过在图像中随机切割一部分并将其粘贴到另一张图像上，同时调整标签以反映混合图像的类别概率。然而，对于视觉转换器（如Transformer）这样的模型，CutMix的效果并不理想。这是因为Transformer天然具备全局视野，其注意力机制可以捕获图像的全局信息，而CutMix可能无法有效刺激这种全局理解。 TokenMix是为了解决这一问题而提出的新方法。它不是简单地将图像区域混合，而是将混合区域细分为多个独立的部分，然后在令牌级别进行混合。这样，Transformer可以更好地处理这些混合的令牌，从而更专注于图像的前景区域，提高对遮挡的识别能力。此外，TokenMix还挑战了CutMix中的直接线性混合标签的做法，指出这种方法可能会导致不准确甚至违背直觉的标签分配。因此，TokenMix提出根据预先训练的教师模型的神经激活图来分配目标得分，以更精确地指导模型学习。实验证明，TokenMix不仅在多种视觉Transformer架构（如DeiT）上提高了分类性能，而且在长时间训练后，能够在ImageNet上实现更高的准确率。这表明TokenMix是一种有效的增强策略，有助于提升基于Transformer的视觉模型的性能。研究人员已将相关代码开源，便于其他研究者和开发者使用。

+v：mala2255获取更多论

文

4 Liu et al.

我们的标记切割策略和ReLabel或TokenLabeling验证了我们的评分策

略。结果表明，该方法的目标更加合理，不仅提高了性能，而且稳定

了我们提出的 TokenMix和原始 CutMix的训练。用我们的方法替换

CutMix中生成目标分数的方法，我们在ImageNet上使用DeiT-S获得了

+0.7%的top-1准确率增益。此外，由于生成的目标分数对学习更友

好，我们表明我们的方法具有更长的训练时间。具体来说，我们在

ImageNet上使用DeiT-S训练400个epochs时达到了81.2%的top-1准确率

我们的贡献概括如下：

–

我们提出了TokenMix，一个令牌级的增强技术，以及在各种基于

transformer的架构推广。

–

我们建议用基于内容的神经激活图来分配混合图像的目标分数，

这可以使TokenMix和CutMix增强都受益

–

实验结果表明， TokenMix 提高了 Transformer 我们将 DeiT-S 在

ImageNet上的top-1准确率从79.8%提高到80.8%。

相关作品

基于裁剪的数据扩充。基于

切割的

方法背后的动机[11，39，26，6]是让

网络从整个图像中学习信息表示。通过从输入图像中屏蔽一些区域，

它可以缓解过拟合问题并提高遮挡鲁棒性[11]。Cutout [11]是这一想法

的先驱，并提出随机选择图像的一个正方形块，并将输入设置为某种

一致性。手动设计掩蔽贴片的形状和大小。随机擦除[39]与Cutout的

工作方式类似，但在增强中引入了更多的随机性。在每次迭代中，擦

除操作都是在一定概率下执行的，并且大小和纵横比是在预定义的限

制下随机选择的捉迷藏

[26]与前两种方法的不同之处在于掩蔽补丁的数量。它将图像划分为网

格，并随机独立地对每个网格进行遮罩。

基于混合的数据增强。基于

混合的

数据扩充[38，32，17，14]

是另一种流行的正则化方法，可以帮助优化深度

神经网络。Mixup [38]建议根据混合因子混合两个随机选择的图像的RGB

值，该混合因子来自beta分布。

混合图像的目标也是原始图像的目标的线性组合。Manifold Mixup [32]

将混合信息从输入图像扩展Co-Mixup [17]和Puzzle Mix [18]将混合过程

视为优化问题，并提出最大化混合图像中的显着性。AugMix [14]从原

始图像及其变换后的图像生成混合图像。

切割和混合的接合处。

基于切割的增强的一个问题是切割区域中的信息

丢失，因此最近的研究[36，28，24，5]提出

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

TokenMix：提升Transformer视觉模型性能的新数据增强方法

(源码)基于JavaWeb的饮品销售管理系统.zip

BitmapFunc.rar

c++课程设计-产品入库管理操作系统.zip

c语言火车票订票管理源码.rar

仿新浪微博下拉刷新继承FrameLayout.zip

浮动搜索框（SearchManager）.zip

(源码)基于ParticleTracker框架的传感器浮标系统.zip

python《树莓派使用OpenCV库实现人脸识别》+项目源码+文档说明

毕业设计&课设_基于 UserCF 与 CB 后融合的网络电视节目推荐系统（含多种技术，有详细实现步骤及数据处理）.zip

PHP基于Linux的远程管理系统服务器端的实现(源代码+论文).rar

最新资源