首页swin transformer vedio

swin transformer vedio

时间: 2023-11-07 12:04:19 浏览: 182

Swin-Transformer

Swin-Transformer是2021年微软研究院发表在ICCV上的一篇文章，并且已经获得ICCV 2021 best paper的荣誉称号。虽然Vision Transformer (ViT)在图像分类方面的结果令人鼓舞，但是由于其低分辨率特性映射和复杂度随图像大小的二次增长，其结构不适合作为密集视觉任务或高分辨率输入图像的通过骨干网路。为了最佳的精度和速度的权衡，提出了Swin-Transformer结构。

Swin Transformer是一种用于视频领域的变形注意力模型，也被称为Video Swin Transformer。它是基于Swin Transformer模型的扩展，主要针对视频数据进行建模。在Video Swin Transformer中，相比于传统的Swin Transformer模型，它需要增加一个时间维度，以处理视频中的时间序列数据。在构建attention和window时，也会有一些细微的区别。这样设计的目的是为了更好地捕捉视频序列中的时空相关性。引用资料： 1. Video Swin Transformer 2. Swin-Transformer网络结构详解 3. Swin Transformer论文精读 4. Swin Transformer从零详细解读 5. https://github.com/SwinTransformer/Video-Swin-Transformer

阅读全文