视觉transformer原理
时间: 2023-11-17 13:02:21 浏览: 104
transformer在视觉中的应用
ViT(Vision Transformer)是Google在2020年提出的一种基于Transformer的图像分类模型。它的基本思路是将图像分成固定大小的patch,然后通过线性变换得到patch embedding,这就类比NLP的words和word embedding。由于Transformer的输入是一个token序列,因此将图像的patch embeddings送入Transformer后就能够进行特征提取从而分类了。ViT模型只使用了Transformer的Encoder来提取特征,而原始的Transformer还有Decoder部分,用于实现sequence to sequence,比如机器翻译。Detection Transformer是ViT的一种改进,它将ViT应用于目标检测任务中,通过在Transformer中引入位置编码和多尺度特征融合等技术,取得了很好的效果。
阅读全文