Vision Transformers
时间: 2023-11-14 17:06:23 浏览: 115
vision_transformer
Vision Transformers是一种用于图像分类的模型,它采用了Transformer架构,并将其应用于计算机视觉任务。其中,ViT(Vision Transformer)是最早提出的一种Vision Transformer模型。ViT通过将图像分割成小的图块(patches),然后将这些图块转换为序列数据,再通过进行自注意力机制的计算得到图像特征表示。这种基于自注意力机制的Transformer模型在图像分类任务中取得了很好的效果。
近期还有一些相关的研究工作提出了改进的Vision Transformer模型。例如,《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》提出了一种基于Shifted Windows的分层Vision Transformer模型,通过引入窗口位移的方式使得模型能够更好地处理不同尺度的特征。另外,《Visual Transformers: Token-based Image Representation and Processing for Computer Vision》也提出了一种基于Token的图像表示和处理方法,通过将图像像素转换为Token序列来构建Vision Transformer模型。
阅读全文