transformer in transformer解读
时间: 2023-09-06 15:08:35 浏览: 181
Vision Transformer 源码解读
Transformer in Transformer是一种用于处理图像的神经网络架构。在这个架构中,有两个层级的Transformer块,分别是Outer Transformer和Inner Transformer。Outer Transformer处理图像的Patch级别信息,即将图像切分成多个Patch,并将每个Patch作为输入进行处理。而Inner Transformer则处理更细粒度的信息,即将每个Patch再次切分成更小的Patch,并将其与Outer Transformer的输出进行融合。这样,Transformer in Transformer能够同时捕捉到图像的整体特征和局部细节,提高了对图像的理解能力。
需要额外说明的是,Transformer模型最初是应用于自然语言处理领域的,但最近在计算机视觉领域也得到了广泛应用。因此,在涉及Transformer的图像处理论文中,可能会省略一些在自然语言处理领域已经形成共识的内容,这可能会使计算机视觉领域的研究人员感到困惑。但是,对于理解Transformer in Transformer这一概念,可以将其视为一种在图像领域应用Transformer的方法,通过组合Outer Transformer和Inner Transformer来提高图像处理的性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [TNT-Transformer in Transformer](https://blog.csdn.net/MengYa_Dream/article/details/124591473)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [一文读懂transformer(CV专享)](https://blog.csdn.net/KANG157/article/details/111499713)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文