vidtr与vivit这两个模型的不同
时间: 2024-03-04 08:52:38 浏览: 200
VIDTR (Video Transformer with Recurrent Memory Update) 和 ViViT (Video Vision Transformer) 都是基于 Transformer 的视频模型,它们之间的主要不同点如下:
1. 模型结构:VIDTR 是一种基于编码器-解码器结构的模型,其中编码器使用 Transformer 编码器,解码器则使用循环神经网络。而 ViViT 则是一种单纯的 Transformer 模型,没有使用解码器。
2. 帧间关系的建模:VIDTR 使用循环神经网络来建模帧间的时序关系,以便更好地捕捉视频中的动态变化和运动信息。而 ViViT 则使用一种新颖的空间注意力机制,将空间特征和时间特征进行关联,以捕捉视频中的动态变化和运动信息。
3. 训练方式:VIDTR 使用自回归方式训练模型,即每一时刻的预测都依赖于前面时刻的预测。而 ViViT 则采用了一种无监督训练方式,即使用视频数据自身来学习特征表示。
4. 模型性能:VIDTR 在一些视频分类和动作识别任务上取得了很好的效果,但是模型结构比较复杂,计算量较大。而 ViViT 目前在一些视频分类和动作识别任务上也取得了很好的效果,模型结构比较简单,计算量较小。
综上所述,VIDTR 和 ViViT 都是基于 Transformer 的视频模型,它们的主要不同点在于模型结构、帧间关系的建模、训练方式和模型性能等方面。
阅读全文