Swin Transformer：基于移位窗口的分层视觉 Transformer 模型

需积分: 5 22 浏览量更新于2024-06-17 1 收藏 13.71MB PPTX 举报

Swin Transformer的PPT知识点总结 Swin Transformer是一种基于Transformer的视觉模型，它可以应用于图像分类、目标检测、语义分割等多种视觉任务。该模型的提出是为了解决Transformer在视觉领域中的两个主要挑战：视觉实体变化大和图像高分辨率带来的计算量问题。 **Swin Transformer的主要贡献** 1. 引入了层次化设计和移位窗口方法，解决了视觉Transformer在计算量和视觉实体变化大方面的问题。 2. 证明了Transformer可以在视觉领域取得广泛应用，包括图像分类、目标检测和语义分割等任务。 **Swin Transformer的架构** Swin Transformer的架构主要包括四个阶段，每个阶段都会缩小特征图的分辨率，像CNN一样逐层扩大感受野。每个阶段由PatchMerging模块和多个Block组成，其中PatchMerging模块主要在每个阶段一开始降低图片分辨率（下采样），而每个Block为自注意力计算模块，分为窗口自注意力模块和滑窗自注意力模块。 **Swin Transformer的优点** 1. 通过层次化设计和移位窗口方法，解决了视觉Transformer在计算量和视觉实体变化大方面的问题。 2. 具有线性计算复杂度，可以应用于大规模图像数据集。 3. 可以作为图像分类和密集识别任务的通用骨干。 **Swin Transformer与ViT的比较** 相比之下，ViT产生单一大小的特征图，由于全局自注意力的计算，有二次的计算复杂度。Swin Transformer则通过合并更深层次的patch来构建分层特征，并且仅在每个window计算自注意力，因此对输入图像大小具有线性计算复杂度。 **Swin Transformer在视觉任务上的应用** Swin Transformer在多种视觉任务上都有很好的表现，包括图像分类（ImageNet-1K上的精度为87.3 top-1）、目标检测（COCO数据集上58.7 box AP和51.1 mask AP）和语义分割（ADE20K上有53.5 mIoU）。这证明了基于Transformer的模型作为视觉骨干的潜力。 **Swin Transformer在NLP任务上的应用** 层次化设计和移位窗口方法也被证明对NLP任务有用。这证明了Swin Transformer的泛化能力和灵活性。