稠密稀疏Transformer
时间: 2023-10-15 18:24:44 浏览: 204
Transformer架构下的稠密NRSfM网络实现.docx
稠密稀疏Transformer是一种改进的Transformer模型,旨在解决移除下采样带来的感受野问题。传统的Transformer模型在计算全局自注意力时的计算成本较高,而局部自注意力又会限制每个词向量的交互域。为了兼顾计算效率和全局信息的捕捉,研究人员提出了稠密稀疏Transformer的方法。
稠密稀疏Transformer采用了基于自注意力机制的单步长稀疏Transformer(SST)的思想。该方法通过减少注意力头的数量,来降低计算复杂度。这样可以在一定程度上缓解全局自注意力计算成本过高的问题。另外,稠密稀疏Transformer还引入了局部自注意力机制,以增加词向量之间的交互范围,从而提高模型在处理长序列任务时的性能。
由于Transformer模型在深度学习领域具有广泛的应用和影响力,因此对其进行改进和优化的研究工作也很活跃。稠密稀疏Transformer是其中的一种变体,通过减少注意力头的数量和引入局部自注意力机制,来平衡计算效率和模型性能。这种模型在常见的视觉任务上已经取得了一定的成果。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [CVPR 2022 | 基于稀疏 Transformer 的单步三维目标识别器](https://blog.csdn.net/Yong_Qi2015/article/details/124054589)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *2* [谷歌研究院出品:高效 Transformer 模型最新综述](https://blog.csdn.net/weixin_42137700/article/details/112345715)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *3* [CSWin Transformer](https://download.csdn.net/download/qq_36758270/88233972)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
[ .reference_list ]
阅读全文