bottleneck transform
时间: 2023-10-15 20:29:28 浏览: 99
Bottleneck Transformer是一种结合了Multi-Head Self-Attention和1×1卷积的结构。它与ViT中的Transformer block有一定的相似性,可以被视为带有bottleneck结构的Transformer block。作者指出,具有MHSA层的ResNet bottleneck块可以被视为具有bottleneck结构的Transformer块,除了残差连接、归一化层的选择等细微差异外。
BoTNet是由UC Berkeley和谷歌团队合作发布的,在2021 CVPR会议上发布的一篇文章,其中一作为Transformer的作者Ashish Vaswani。BoTNet原始论文名为"Bottleneck Transformers for Visual Recognition"。BoTNet是一种将CNN和Attention进行融合的网络结构。在CV领域的Self-Attention模型中,可以分为纯Attention模型(如ViT)和结合了CNN的Attention模型。将CNN与Attention进行融合的原因之一是纯ViT类型的结构对输入尺寸非常敏感,无法灵活变动输入尺寸。然而,目标检测、实例分割等任务的输入可能是大尺寸的图像,如1024×1024。如果直接使用纯Transformer进行训练,计算量会非常大。因此,将CNN与Attention进行融合的Attention结构可以采用Transform形式或Non-Local形式。而BoTNet将Attention模块嵌入到CNN原有的block中。
所以,Bottleneck Transformer和BoTNet是两个相关的概念,Bottleneck Transformer是指具有bottleneck结构的Transformer block,而BoTNet是一种将Attention模块融合到CNN中的网络结构。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [深度学习之图像分类(十九)-- Bottleneck Transformer(BoTNet)网络详解](https://blog.csdn.net/baidu_36913330/article/details/120218954)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
阅读全文