Transformer在视觉识别中的预训练进展

需积分: 45 20 下载量 19 浏览量 更新于2024-08-05 收藏 1.7MB PPTX 举报
"这篇资源主要讨论的是在计算机视觉领域中,Vision Transformer的预训练方法,特别是自监督学习的应用。文章提到了多个研究工作,包括如何有效地训练Transformer模型,以及利用知识蒸馏和数据效率优化的方法。" 在计算机视觉(CV)领域,Transformer模型的引入是一个重大的突破。传统上,卷积神经网络(CNNs)是处理图像任务的主要工具,但Google的研究人员在ICLR 2021发表的文章《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中,首次大规模地展示了纯Transformer在CV任务中的潜力。他们证明了Transformer不仅能够处理序列数据,同样也能有效处理图像数据,尤其是在大规模数据集JFT-300M上的表现。 然而,Transformer模型在CV领域的训练通常需要大量的数据,这带来了训练的困难。为了解决这个问题,Facebook AI在ICML 2020年提出了Data-efficient image Transformers (DeiT)。DeiT通过引入类标记(class token)和蒸馏标记(distillation token),并应用知识蒸馏技术,使得模型能在相对较小的数据集如ImageNet上进行训练,减少了对大量数据的依赖。 另一篇ICML 2020的工作《Generative Pretraining from Pixels》探讨了从像素级别进行生成式预训练的可能性。研究者通过k-means聚类将像素值离散化,然后使用自回归或BERT目标函数进行无监督训练。这种方法降低了图像分辨率,将二维图像转换为一维输入,创新性地探索了无监督学习的路径。 在ICLR 2022年的BEiT(BERT Pre-Training of Image Transformers)中,研究人员转向了图像补丁(patches)级别的预训练,通过类似BERT的预训练策略,为图像Transformer建立了一个像素级别的编码框架。与之对比,另一篇由Kaiming等人提出的工作,采用了不同的图像处理方式,通过移除部分补丁来节省计算资源。 此外,PeCo(Perceptual Codebook for BERT Pre-training of Vision Transformers)是由中国科学技术大学和微软合作的研究,其出发点是传统的像素级方法难以捕捉到语义信息。因此,PeCo引入了感知码本(perceptual codebook),以捕获更高级别的语义特征,从而改进了Vision Transformer的预训练效果。 这些研究都集中在提升Transformer在计算机视觉任务中的性能,通过自监督学习、数据效率优化、像素或补丁级别的编码等策略,逐步克服了Transformer在CV领域的训练难题,并为后续的模型设计提供了新的思路和方向。