门控多模态单元(GMU)融合策略
时间: 2023-09-21 12:09:12 浏览: 184
门控多模态单元(GMU)是一种用于多模态学习的新模型,旨在融合图像、音频和文本等不同模态的特征。GMU模型使用了类似于LSTM中的gate机制,通过乘法门来决定每个模态对单元激活的影响。这种融合策略可以增强文本和特定视频帧、音频特征之间的匹配作用,提高多模态分类任务的性能。\[1\]\[2\]
#### 引用[.reference_title]
- *1* *3* [【多模态】多模态特征融合策略——门控多模态融合方法](https://blog.csdn.net/zfhsfdhdfajhsr/article/details/129556918)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [多模态视频分类_副本](https://blog.csdn.net/m0_63642362/article/details/123030540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文