变压器(Transformer)是一种深度学习模型架构
时间: 2023-12-20 14:42:08 浏览: 294
变压器(Transformer)是一种深度学习模型架构,最初是为自然语言处理(NLP)任务设计的。它引入了Multi-Head Self Attention(MHSA)机制,允许网络对长期依赖进行建模,并且易于并行化。Transformer架构的简化版本如论文“Attention is all you need”中所述。\[1\]
在自然语言处理领域的成功之后,一些研究人员开始探索将Transformer应用于计算机视觉任务。其中一个重要的应用是视觉转换器(Vision Transformer,ViT)。ViT将输入图像划分为不重叠的补丁,并通过MHSA学习补丁之间的表示。相比于传统的卷积神经网络(CNN),ViT在计算机视觉任务上表现出了有希望的结果。\[2\]
然而,Transformer模型通常比竞争对手的CNN慢几倍,这是它的一个缺点。这是因为Transformer模型具有大量的参数、计算复杂度随着令牌长度的增加而呈二次递增、不可折叠的归一化层以及缺乏编译器级别的优化。这些因素限制了ViT在资源受限的硬件上的实际应用,例如移动设备和可穿戴设备上的增强或虚拟现实应用。因此,在实时推理的场景下,轻量级CNN仍然是默认的选择。\[3\]
#### 引用[.reference_title]
- *1* [【人工智能】LLM 大型语言模型和 Transformer 架构简介](https://blog.csdn.net/universsky2015/article/details/130846866)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [EfficientFormer: Vision Transformers at MobileNet Speed,运用纯transformer架构对比卷积模型在终端上...](https://blog.csdn.net/weixin_43424450/article/details/129355152)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文