TokenMix:提升Transformer视觉模型性能的新数据增强方法
95 浏览量
更新于2024-06-19
收藏 1.58MB PDF 举报
"TokenMix是一种针对视觉转换器的新数据增强技术,旨在提升模型性能,特别是对于基于Transformer的视觉网络。此技术通过在令牌级别混合两个图像的区域,促进模型关注前景区域并增强对遮挡的鲁棒性。同时,TokenMix质疑了CutMix中的混合学习目标的准确性,并提出依据神经激活图分配目标得分,以利用预先训练的教师模型。实验结果显示,TokenMix在多种视觉Transformer架构上表现出一致的性能提升,特别是在DeiT-T/S/B上提高了ImageNet top-1准确率。此外,经过长时间训练,TokenMix在ImageNet上达到81.2%的top-1准确率。该方法的源代码已在GitHub上公开。"
详细解释:
数据增强是深度学习中的一种关键技术,用来增加模型的泛化能力,防止过拟合。传统的数据增强方法包括旋转、裁剪、翻转等。近年来,CutMix等新型数据增强技术因其显著效果而受到广泛关注。CutMix通过在图像中随机切割一部分并将其粘贴到另一张图像上,同时调整标签以反映混合图像的类别概率。
然而,对于视觉转换器(如Transformer)这样的模型,CutMix的效果并不理想。这是因为Transformer天然具备全局视野,其注意力机制可以捕获图像的全局信息,而CutMix可能无法有效刺激这种全局理解。
TokenMix是为了解决这一问题而提出的新方法。它不是简单地将图像区域混合,而是将混合区域细分为多个独立的部分,然后在令牌级别进行混合。这样,Transformer可以更好地处理这些混合的令牌,从而更专注于图像的前景区域,提高对遮挡的识别能力。
此外,TokenMix还挑战了CutMix中的直接线性混合标签的做法,指出这种方法可能会导致不准确甚至违背直觉的标签分配。因此,TokenMix提出根据预先训练的教师模型的神经激活图来分配目标得分,以更精确地指导模型学习。
实验证明,TokenMix不仅在多种视觉Transformer架构(如DeiT)上提高了分类性能,而且在长时间训练后,能够在ImageNet上实现更高的准确率。这表明TokenMix是一种有效的增强策略,有助于提升基于Transformer的视觉模型的性能。研究人员已将相关代码开源,便于其他研究者和开发者使用。
2024-11-15 上传
2024-11-15 上传
2024-11-15 上传
2024-11-15 上传
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常