首页swin transformer和vit

swin transformer和vit

时间: 2023-06-05 18:47:21 浏览: 159

Swin-Transformer

Swin-Transformer是2021年微软研究院发表在ICCV上的一篇文章，并且已经获得ICCV 2021 best paper的荣誉称号。虽然Vision Transformer (ViT)在图像分类方面的结果令人鼓舞，但是由于其低分辨率特性映射和复杂度随图像大小的二次增长，其结构不适合作为密集视觉任务或高分辨率输入图像的通过骨干网路。为了最佳的精度和速度的权衡，提出了Swin-Transformer结构。

Swin Transformer和ViT都是基于Transformer架构的模型，用于图像分类任务。 Swin Transformer是一种新型的Transformer架构，它通过分层的方式来减少计算量和内存消耗，同时保持了较高的准确率。Swin Transformer在ImageNet数据集上取得了SOTA的结果。 ViT（Vision Transformer）是一种将图像转换为序列的方法，它将图像分成若干个小块，然后将每个小块的特征向量串联起来，作为输入序列。ViT在ImageNet数据集上也取得了很好的结果，并且在一些特定的任务上表现出色，比如对小样本数据的分类。

阅读全文