BootMAE:提升视觉BERT预训练的自举掩蔽自编码器

0 下载量 89 浏览量 更新于2024-06-19 收藏 868KB PDF 举报
"自举掩蔽自编码器:视觉BERT预训练方法改进" 本文提出了一种新的视觉BERT预训练方法——自举掩蔽自编码器(BootMAE),它针对原始的掩码自编码器(MAE)进行了两项关键改进,以优化视觉Transformer模型的预训练效果。视觉BERT预训练的主要目标是学习能够捕捉图像语义信息的表示,这在后续的下游任务如图像分类、语义分割和目标检测中至关重要。 首先,BootMAE引入了动量编码器(Momentum Encoder)。这个设计是基于一个观察,即使用预训练的MAE提取的特征作为BERT预测目标能提高预训练性能。动量编码器与原始的MAE编码器并行运行,通过持续更新其表示并将其用作预测目标,进一步增强模型的学习能力。 其次,为了减轻编码器在记忆目标特定信息上的负担,BootMAE采用了目标感知解码器(Target-Aware Decoder)。在传统的MAE中,编码器可能需要存储未掩蔽区域的信息,这可能会分散其对语义建模的注意力。目标感知解码器则直接将这些目标特定信息(如未掩蔽像素的值)传递给解码器,使得编码器可以更加专注于捕获图像的全局语义,而无需保留细节信息。 实验证明,BootMAE在多个视觉任务上都表现出了显著的提升。使用ViT-B作为基础架构,在ImageNet-1K图像分类任务上,BootMAE的Top-1准确率比MAE提高了2%。在ADE20K语义分割任务上,BootMAE实现了+1.0 mIoU的提升,而在COCO数据集的目标检测和分割任务中,分别提高了1.3 box AP和1.4 mask AP。 自监督学习是机器学习领域的一个重要研究方向,尤其是对于视觉Transformer模型,预训练阶段的表现直接影响到模型在无标注数据上的学习效果和在各种下游任务中的应用性能。BootMAE通过巧妙的机制优化了这一过程,展示了其在提升模型泛化能力和学习效率方面的潜力。此研究的代码已经开源,可供研究人员和开发者进一步探索和使用。