首页Vit position embedding

Vit position embedding

时间: 2024-03-08 14:16:32 浏览: 31

在ViT（Vision Transformer）中，position embedding是用来为每个patch分配一个位置信息的。在NLP中，不同的词汇之间是有顺序的，因此需要位置编码来表示它们的相对位置。而在视觉领域，图像与图像之间是没有顺序的，但是ViT将图像划分为一个个patch，每个patch对应于NLP中的一个Token，并且每个patch都有一个位置。因此，在ViT中，为了引入位置信息，每个特征维度都加入了一个position embedding模块。这个position embedding模块会为每个patch生成一个位置向量，用来表示该patch在图像中的位置。在高分辨率图像做微调时，作者建议保持patch size不变，直接对position embedding向量进行插值处理，以适应不同分辨率的图像。具体来说，就是对position embedding向量进行插值，使其与新的图像分辨率相匹配。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [【ViT 微调时关于position embedding如何插值（interpolate）的详解】](https://blog.csdn.net/qq_44166630/article/details/127429697)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [关于ViT中pos embed的可视化](https://blog.csdn.net/weixin_41978699/article/details/122404192)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]