vision transformer 用于图像分割
时间: 2023-09-08 17:12:01 浏览: 117
Vision Transformer(ViT)用于图像分割的过程如下所述。首先,将图像分割成固定大小的小块。然后,对每个小块进行线性嵌入。接下来,添加位置编码以保留图像中不同小块之间的空间关系。最后,将得到的向量序列输入标准的Transformer编码器,通过Transformer Encoder进行处理。这个编码器包括嵌入层、Transformer Encoder和MLP Head。其中,嵌入层的作用是将图像格式[H, W, C]转化为Transformer输入格式[num_token, token_dim],Transformer Encoder则负责对序列进行编码和特征提取,而MLP Head则是最终用于分类的层结构。通过这样的过程,Vision Transformer实现了图像分割的功能。 <span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *3* [Transformer论文解读二(Vision Transformer)](https://blog.csdn.net/weixin_44579633/article/details/121078153)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* [【解析】Vision Transformer 在图像分类中的应用](https://blog.csdn.net/ViatorSun/article/details/115586005)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文