Transformer在视觉识别中的预训练进展
需积分: 45 31 浏览量
更新于2024-08-05
收藏 1.7MB PPTX 举报
"这篇资源主要讨论的是在计算机视觉领域中,Vision Transformer的预训练方法,特别是自监督学习的应用。文章提到了多个研究工作,包括如何有效地训练Transformer模型,以及利用知识蒸馏和数据效率优化的方法。"
在计算机视觉(CV)领域,Transformer模型的引入是一个重大的突破。传统上,卷积神经网络(CNNs)是处理图像任务的主要工具,但Google的研究人员在ICLR 2021发表的文章《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中,首次大规模地展示了纯Transformer在CV任务中的潜力。他们证明了Transformer不仅能够处理序列数据,同样也能有效处理图像数据,尤其是在大规模数据集JFT-300M上的表现。
然而,Transformer模型在CV领域的训练通常需要大量的数据,这带来了训练的困难。为了解决这个问题,Facebook AI在ICML 2020年提出了Data-efficient image Transformers (DeiT)。DeiT通过引入类标记(class token)和蒸馏标记(distillation token),并应用知识蒸馏技术,使得模型能在相对较小的数据集如ImageNet上进行训练,减少了对大量数据的依赖。
另一篇ICML 2020的工作《Generative Pretraining from Pixels》探讨了从像素级别进行生成式预训练的可能性。研究者通过k-means聚类将像素值离散化,然后使用自回归或BERT目标函数进行无监督训练。这种方法降低了图像分辨率,将二维图像转换为一维输入,创新性地探索了无监督学习的路径。
在ICLR 2022年的BEiT(BERT Pre-Training of Image Transformers)中,研究人员转向了图像补丁(patches)级别的预训练,通过类似BERT的预训练策略,为图像Transformer建立了一个像素级别的编码框架。与之对比,另一篇由Kaiming等人提出的工作,采用了不同的图像处理方式,通过移除部分补丁来节省计算资源。
此外,PeCo(Perceptual Codebook for BERT Pre-training of Vision Transformers)是由中国科学技术大学和微软合作的研究,其出发点是传统的像素级方法难以捕捉到语义信息。因此,PeCo引入了感知码本(perceptual codebook),以捕获更高级别的语义特征,从而改进了Vision Transformer的预训练效果。
这些研究都集中在提升Transformer在计算机视觉任务中的性能,通过自监督学习、数据效率优化、像素或补丁级别的编码等策略,逐步克服了Transformer在CV领域的训练难题,并为后续的模型设计提供了新的思路和方向。
7233 浏览量
1326 浏览量
3862 浏览量
207 浏览量
754 浏览量
217 浏览量
343 浏览量
154 浏览量
![](https://profile-avatar.csdnimg.cn/3167bd62dd894cae901bf484d6e8b5b5_qq_21157073.jpg!1)
DeepWWJ
- 粉丝: 97
最新资源
- Paw实践2课程核心内容精讲
- 数学建模中Matlab源程序的应用
- Fedora14环境下的hello模块Linux驱动开发
- Java性能优化与监控:全面JVM和应用性能管理指南
- OBS多路推流插件0.2.5版支持多RTMP直播
- HipChat:开发团队优选的即时通讯工具
- React JS代码笔克隆实战指南
- Laravel环境管理神器:laravel-envloader功能解析
- Android购物车动画效果及代码分享
- 将FTP默认打开方式修改为资源管理器的方法
- 核主成分分析KPCA在Matlab中的应用与例程
- Java程序员必备:LeetCode算法题解与技巧
- 学生信息管理系统的简易实现
- MapMagic_World_Generator_1.9.4:Unity3D地图编辑插件
- C#编程实现压缩解压功能技巧详解
- Laravel封装SwiftAPI实现Minecraft Bukkit远程调用