首页ViT-B16网络图

ViT-B16网络图

时间: 2023-10-04 11:12:47 浏览: 244

ViT-B16网络图包括两个主要组成部分：Patch Embeddings和class token。Patch Embeddings是将输入图像切分成一系列大小为P*P的patch，并通过线性映射将每个patch映射到一个长度为768的一维向量，得到一个2D的序列[196,768]。这一过程通过一个kernel=16*16，stride=16的卷积层实现，使得Transformer的各层输入为二维矩阵。class token是一种特殊的token，它代表整个图像的全局信息。在ViT-B16中，特征图被拆分成大小为patch_size x patch_size的若干个patch，每个patch对应着一个形状为(C, patch_size, patch_size)的三维张量，其中C代表通道数，patch_size为16。123 #### 引用[.reference_title] - *1* *2* *3* [Vision Transformer](https://blog.csdn.net/Evan_qin_yi_quan/article/details/131405409)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

阅读全文