ViT-B16网络图
时间: 2023-10-04 08:12:47 浏览: 219
ViT-B16网络图包括两个主要组成部分:Patch Embeddings和class token。Patch Embeddings是将输入图像切分成一系列大小为P*P的patch,并通过线性映射将每个patch映射到一个长度为768的一维向量,得到一个2D的序列[196,768]。这一过程通过一个kernel=16*16,stride=16的卷积层实现,使得Transformer的各层输入为二维矩阵。class token是一种特殊的token,它代表整个图像的全局信息。在ViT-B16中,特征图被拆分成大小为patch_size x patch_size的若干个patch,每个patch对应着一个形状为(C, patch_size, patch_size)的三维张量,其中C代表通道数,patch_size为16。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [Vision Transformer](https://blog.csdn.net/Evan_qin_yi_quan/article/details/131405409)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
阅读全文