BootMAE:提升视觉BERT预训练的自举掩蔽自编码器
89 浏览量
更新于2024-06-19
收藏 868KB PDF 举报
"自举掩蔽自编码器:视觉BERT预训练方法改进"
本文提出了一种新的视觉BERT预训练方法——自举掩蔽自编码器(BootMAE),它针对原始的掩码自编码器(MAE)进行了两项关键改进,以优化视觉Transformer模型的预训练效果。视觉BERT预训练的主要目标是学习能够捕捉图像语义信息的表示,这在后续的下游任务如图像分类、语义分割和目标检测中至关重要。
首先,BootMAE引入了动量编码器(Momentum Encoder)。这个设计是基于一个观察,即使用预训练的MAE提取的特征作为BERT预测目标能提高预训练性能。动量编码器与原始的MAE编码器并行运行,通过持续更新其表示并将其用作预测目标,进一步增强模型的学习能力。
其次,为了减轻编码器在记忆目标特定信息上的负担,BootMAE采用了目标感知解码器(Target-Aware Decoder)。在传统的MAE中,编码器可能需要存储未掩蔽区域的信息,这可能会分散其对语义建模的注意力。目标感知解码器则直接将这些目标特定信息(如未掩蔽像素的值)传递给解码器,使得编码器可以更加专注于捕获图像的全局语义,而无需保留细节信息。
实验证明,BootMAE在多个视觉任务上都表现出了显著的提升。使用ViT-B作为基础架构,在ImageNet-1K图像分类任务上,BootMAE的Top-1准确率比MAE提高了2%。在ADE20K语义分割任务上,BootMAE实现了+1.0 mIoU的提升,而在COCO数据集的目标检测和分割任务中,分别提高了1.3 box AP和1.4 mask AP。
自监督学习是机器学习领域的一个重要研究方向,尤其是对于视觉Transformer模型,预训练阶段的表现直接影响到模型在无标注数据上的学习效果和在各种下游任务中的应用性能。BootMAE通过巧妙的机制优化了这一过程,展示了其在提升模型泛化能力和学习效率方面的潜力。此研究的代码已经开源,可供研究人员和开发者进一步探索和使用。
2022-09-18 上传
2024-11-05 上传
2024-11-05 上传
2024-11-05 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- 俄罗斯RTSD数据集实现交通标志实时检测
- 易语言开发的文件批量改名工具使用Ex_Dui美化界面
- 爱心援助动态网页教程:前端开发实战指南
- 复旦微电子数字电路课件4章同步时序电路详解
- Dylan Manley的编程投资组合登录页面设计介绍
- Python实现H3K4me3与H3K27ac表观遗传标记域长度分析
- 易语言开源播放器项目:简易界面与强大的音频支持
- 介绍rxtx2.2全系统环境下的Java版本使用
- ZStack-CC2530 半开源协议栈使用与安装指南
- 易语言实现的八斗平台与淘宝评论采集软件开发
- Christiano响应式网站项目设计与技术特点
- QT图形框架中QGraphicRectItem的插入与缩放技术
- 组合逻辑电路深入解析与习题教程
- Vue+ECharts实现中国地图3D展示与交互功能
- MiSTer_MAME_SCRIPTS:自动下载MAME与HBMAME脚本指南
- 前端技术精髓:构建响应式盆栽展示网站