visio transformer
时间: 2023-09-06 15:14:30 浏览: 108
transformertection-mai笔记
Vision Transformer是一个基于Transformer的图像识别模型,由Google在2020年的CVPR会议上发表的论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中提出。Transformer设计中一个具有挑战性的问题是,全局自注意力的计算成本非常高,而局部自注意力通常会限制每个词向量的交互域。为了解决这个问题,作者提出了CSWin Transformer,它在常见的视觉任务上取得了很好的效果。
Vision Transformer的网络结构主要包括多个Transformer Encoder块的堆叠。在Encoder Block中,首先通过Layer Norm对Embedding层的输出进行归一化,然后经过Mutli-Head Attention得到的输出与捷径分支的输出进行相加操作。接着再次通过Layer Norm操作,然后经过MLP Block得到输出。MLP Block包括全连接层、GELU激活函数、Dropout、全连接层和最后的Dropout层。整个Transformer Encoder的输出形状与输入形状保持不变,例如在ViT-B/16模型中,输入和输出的形状都是[197, 768]。最后,通过MLP Head将输出分类。
总之,Vision Transformer是一种基于Transformer的图像识别模型,通过堆叠多个Transformer Encoder块来提取图像特征并进行分类。它在图像识别任务中取得了很好的效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *3* [Vision Transformer(ViT) 1: 理论详解](https://blog.csdn.net/weixin_38346042/article/details/126341262)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* [CSWin Transformer](https://download.csdn.net/download/qq_36758270/88233972)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文