Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models所提出的模型没有使用trasformer中的自注意力机制吗?
时间: 2023-12-06 19:42:53 浏览: 146
多特征时序块多输出预测未来60秒股价CNN-bilstm-attention
根据论文中的描述,Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models中提出的模型确实使用了transformer中的自注意力机制。具体地,该论文中使用了一个双向Transformer Encoder来对视频和文本进行编码,其中包括了自注意力机制。此外,该模型还使用了跨注意力机制,将视频和文本的编码进行交互,以便更好地探索跨模态知识。
阅读全文