MAE深度解析:从Transformer到高效视觉学习

需积分: 3 4 下载量 190 浏览量 更新于2024-08-04 1 收藏 660KB PDF 举报
"MAE论文分享,MAE:Masked Autoencoders Are Scalable Vision Learners" 在计算机视觉(CV)领域,Transformer模型逐渐崭露头角,MAE(Masked Autoencoders)便是其中的一个重要突破。MAE是受到BERT在自然语言处理(NLP)领域成功经验的启发,将其应用到视觉任务中,通过自我监督学习的方式提升模型对图像特征的理解能力。 首先,让我们回顾一下Transformer的发展历程。Transformer最初由Vaswani等人在2017年提出,它摒弃了传统的RNN和CNN,转而采用自注意力机制,主要应用于机器翻译。随后,BERT(Bidirectional Encoder Representations from Transformers)将Transformer引入到NLP,利用掩码语言模型(MLM)进行预训练,使模型能预测被遮蔽的词语,从而学习到丰富的语言上下文信息。 接着,Vision Transformer (ViT)将Transformer的架构引入到CV领域,将图像分割成小块(patches),每个patch作为一个序列元素输入到Transformer中,实现对图像内容的理解。然而,相比于NLP领域,CV领域的自监督学习发展相对较慢,这主要是因为: 1. 架构差异:卷积神经网络(CNN)在CV中占据主导地位,而直接将掩码令牌或位置编码应用于CNN并不直观。ViT的出现打破了这一局面,它以更直接的方式处理图像序列。 2. 信息密度:语言具有高语义和信息密度,而图像则包含大量空间冗余。因此,MAE通过遮挡大部分随机patch,降低了这种冗余,使得模型能更专注于关键信息。 3. 解码器任务差异:在NLP中,解码器预测的是高语义级别的单词,而在CV中,解码器需要重建像素级别的图像,其输出层次较低。MAE的轻量级解码器设计是为了在保持效率的同时,尽可能地恢复图像的语义信息。 MAE的核心操作流程如下: 1. 图像被分割成14x14个16x16的patch,每个patch加上位置信息。 2. 随机选择75%的patch进行mask,只保留25%的未mask patch。 3. 未被mask的patch送入encoder,提取特征。 4. encoder的输出与原始位置信息结合,恢复mask的patch。 5. 使用轻量级解码器,基于encoder的输出,重构原始输入图像,实现对mask部分的恢复。 MAE的非对称encoder-decoder架构是其独特之处。encoder仅对未mask的patch进行编码,这样减少了计算量,有利于模型的扩展性和效率。同时,decoder通过少量未mask的信息来重建整个图像,这要求它必须学习到更丰富的全局信息,从而增强了模型的表示能力。 在实验部分,MAE展示出了优异的性能和可扩展性,能够在大型数据集如ImageNet上进行训练,并在各种下游任务中取得良好的表现。此外,MAE的预训练模型可以迁移到其他视觉任务,如物体检测和实例分割,显示出其广泛的应用潜力。 MAE是Transformer架构在CV领域的一次创新尝试,通过自我监督的masking策略,实现了高效且强大的视觉表征学习,为CV领域的自监督学习开辟了新的路径。