video Transformer
时间: 2023-11-14 07:58:57 浏览: 165
video_transformer
video Transformer是一种用于视频理解任务的模型架构。它通过引入Transformer的思想,将视频序列作为输入,并使用自注意力机制来建立视频中不同帧之间的关系。相比于传统的基于CNN的方法,video Transformer具有更好的表征学习能力和潜力。其中,ViT是一种经典的video Transformer模型,它将纯Transformer应用于图像patch序列,并在图像分类任务上取得了领先水平的性能。此外,video Transformer还可以应用于其他计算机视觉任务,如目标检测、语义分割、图像处理和视频理解等。
阅读全文