meta-transformer
时间: 2023-08-26 21:06:42 浏览: 176
Meta-Transformer是一个框架,用于处理不同模态(例如自然语言、2D图像、3D点云、音频、视频、时间序列、表格数据)的多模态任务。它的核心思想是利用一个固定的编码器在没有任何成对的多模态训练数据的情况下执行多模态感知。
在Meta-Transformer中,来自各种模态的原始输入数据被映射到一个共享的令牌空间,这允许一个具有固定参数的后续编码器提取输入数据的高级语义特征。Meta-Transformer由三个主要组件组成:一个统一的数据令牌化器、一个模态共享的编码器和用于下游任务的任务特定头部。
Meta-Transformer是第一个能够在12种模态上执行统一学习并使用非配对数据的框架。实验结果显示,Meta-Transformer在各种基准任务上表现良好,包括基本感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、超光谱和IMU)和数据挖掘(图、表格和时间序列)等广泛任务。
总的来说,Meta-Transformer展示了使用变换器开发统一的多模态智能的潜力,并在不同领域中显示出多功能性和有效性。 您可以在https://github.com/invictus717/MetaTransformer 上找到Meta-Transformer的代码。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [Meta-Transformer 多模态学习的统一框架](https://blog.csdn.net/m0_46510245/article/details/131992397)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [Meta-Transformer:多模态学习的统一框架](https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131886687)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文