vision_transformer
时间: 2023-07-30 11:04:08 浏览: 46
Vision Transformer(ViT)是一种将Transformer模型引入到计算机视觉领域的方法。ViT模型通过将图像转换成一维的序列表示,以改成标准的文本形式,然后使用Transformer的Encoder模块对图像进行处理和分类。这种方法的优势在于能够利用Transformer在自然语言处理领域的成功经验,并将其应用于计算机视觉任务中。ViT模型的详细解释和应用可以参考引用\[1\]和引用\[3\]中提到的相关论文和博客文章。
#### 引用[.reference_title]
- *1* *2* [【深度学习】详解 Vision Transformer (ViT)](https://blog.csdn.net/qq_39478403/article/details/118704747)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [Vision Transformer(ViT)](https://blog.csdn.net/google19890102/article/details/128298751)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]