self attention multimodal
时间: 2023-08-24 15:06:48 浏览: 122
多模态的自注意力机制是指在多模态数据中,每个模态内部使用自注意力机制来提取模态内部的信息,并使用跨模态的注意力机制来融合不同模态之间的信息。通过将多模态融合推迟到模型的后期,可以更充分地提取单个模态内部的信息,因为不同模态的数据结构和分布差异很大,使用相同的处理方式可能不合理。在单个模态内部,仍然使用原始的自注意力机制,但在跨模态的融合中,使用各个模态的部分信息来进行跨注意力。除此之外,还可以限制层内不同模态注意力的流动,通过引入一组潜在的融合单元,形成"注意力瓶颈",跨模态的交互必须通过这些单元进行。这样既可以降低计算量,处理部分冗余信息,也可以使模型集中处理每个模态中最相关的输入,并只与其他模态共享必要的输入。因此,多模态自注意力机制在模型中起到了重要的作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [【多模态】《Attention Bottlenecks for Multimodal Fusion》论文阅读笔记](https://blog.csdn.net/qq_36643449/article/details/124968439)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *2* [【论文阅读】Attention Bottlenecks for Multimodal Fusion---多模态融合,音视频分类,注意力机制](https://blog.csdn.net/me_yundou/article/details/121070837)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *3* [Attention is all you need:关于transformer中的self-attention](https://blog.csdn.net/hands_up_down/article/details/122022802)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"]
[ .reference_list ]
阅读全文