首页Vision Transformers

Vision Transformers

时间: 2023-11-14 17:06:23 浏览: 115

vision_transformer

视觉变压器作者：Alexey Dosovitskiy *†，Lucas Beyer *，Alexander Kolesnikov *，Dirk Weissenborn *，翟小华*，Thomas Unterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Sylvain Gelly，Jakob Uszkoreit和Neil Houlsby *†。（*）等于技术贡献，（†）等于建议。由Andreas Steiner准备的开源发行版。注意：此存储库是从分支和修改的。介绍在此存储库中，我们从论文释放模型，这些模型已在（ imagenet21k ）数据集上进行了预训练。我们提供用于微调 / 已发布模型的代码。模型概述：我们将图像分割成固定大小的块，线性地嵌入每个块，添加位置嵌入，然后将所得的矢量序列馈送到标

Vision Transformers是一种用于图像分类的模型，它采用了Transformer架构，并将其应用于计算机视觉任务。其中，ViT（Vision Transformer）是最早提出的一种Vision Transformer模型。ViT通过将图像分割成小的图块（patches），然后将这些图块转换为序列数据，再通过进行自注意力机制的计算得到图像特征表示。这种基于自注意力机制的Transformer模型在图像分类任务中取得了很好的效果。近期还有一些相关的研究工作提出了改进的Vision Transformer模型。例如，《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》提出了一种基于Shifted Windows的分层Vision Transformer模型，通过引入窗口位移的方式使得模型能够更好地处理不同尺度的特征。另外，《Visual Transformers: Token-based Image Representation and Processing for Computer Vision》也提出了一种基于Token的图像表示和处理方法，通过将图像像素转换为Token序列来构建Vision Transformer模型。

阅读全文