首页Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models所提出的模型没有使用trasformer中的自注意力机制吗？

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models所提出的模型没有使用trasformer中的自注意力机制吗？

时间: 2023-12-06 19:42:53 浏览: 146

多特征时序块多输出预测未来60秒股价CNN-bilstm-attention

有问题请关注然后私聊我，包此代码的答疑服务，基本秒回，不满意加球球包退款，可接受定制服务此文件多输出代码示例： x = Conv1D(filters=64, kernel_size=1, activation='relu')(inputs) # , padding = 'same' x = Dropout(0.3)(x) lstm_out = Bidirectional(CuDNNLSTM(64, return_sequences=True))(x) lstm_out = Dropout(0.3)(lstm_out) attention_mul = attention_3d_block(lstm_out) attention_mul = Flatten()(attention_mul) output = Dense(60, activation='linear')(attention_mul) model = Model(inputs=[inputs], outputs=output) return model

根据论文中的描述，Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models中提出的模型确实使用了transformer中的自注意力机制。具体地，该论文中使用了一个双向Transformer Encoder来对视频和文本进行编码，其中包括了自注意力机制。此外，该模型还使用了跨注意力机制，将视频和文本的编码进行交互，以便更好地探索跨模态知识。

阅读全文