全局令牌的多分辨率Transformer用于语义分割

168 浏览量更新于2023-10-15 收藏 13.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

32240全上下文注意力在多分辨率Transformer中的语义分割中的应用0Loic Themyr 1 , 2 Clement Rambour 1 Nicolas Thome 1 , 3 Toby Collins 20Alexandre Hostettler 201 法国国家艺术学院，巴黎，法国 2IRCAD，斯特拉斯堡，法国 3 SorbonneUniversit´e，CNRS，ISIR，F-75005巴黎，法国0loic.themyr@lecnam.net0摘要0Transformer已经证明在视觉识别任务中非常有效。特别是，视觉Transformer通过自注意力和可学习的类令牌构建压缩的全局表示。多分辨率Transformer在语义分割方面取得了最近的成功，但只能捕捉高分辨率特征图中的局部相互作用。本文将全局令牌的概念扩展到构建GLobal AttentionMulti-resolution（GLAM）Transformer。GLAM是一个通用模块，可以集成到大多数现有的Transformer主干中。GLAM包括可学习的全局令牌，与以前的方法不同，它可以模拟所有图像区域之间的相互作用，并在训练过程中提取强大的表示。大量实验证明，GLAM-Swin或GLAM-Swin-Unet在ADE20K和Cityscapes上的性能明显优于它们的基准模型。此外，GLAM可以用于分割大型3D医学图像，GLAM-nnFormer在BCV数据集上实现了新的最先进性能。01. 引言0在各种自然语言处理（NLP）任务中，Transformer已经取得了最先进的性能[35]。最近，基于Transformer的完全模型在视觉任务（如图像分类[12]和语义分割[46]）上取得了出色的性能。Transformer的主要优点是能够抓住长距离的相互作用，这对于语义分割来说是至关重要的。然而，由于Transformer的注意力模块的二次复杂度，这种策略在涉及大量补丁的高分辨率图像上不容易扩展。解决这个限制的一种简单有效的策略是依赖于多分辨率。0方法，其中高分辨率特征图上的注意力是在子窗口上计算的。最近在这个方向上有了各种尝试[24, 38, 44, 37,2]。然而，它们将高分辨率特征的相互作用限制在每个窗口内部。我们引入了一种在多分辨率Transformer中结合全局注意力的语义分割方法（GLAM）。GLAM模块使得在多分辨率Transformer的所有尺度上能够建模全范围的相互作用。如图1所示，将GLAM集成到Swin架构[24]中，能够同时捕捉高分辨率特征图中的细粒度空间信息和全局上下文，这两个元素对于复杂场景中的正确分割至关重要。这个概念在图1中有所说明，图1a）显示了一个输入图像，图1b）显示了GLAM在最高分辨率特征图中为图1a）中黄色十字指向的行人区域提供的自注意力图。我们可以看到，注意力图涉及其他视觉结构（汽车、建筑物）之间的长距离相互作用，与Swin基线相比，高分辨率特征图上的窗口注意力仅限于图1a）中的小矩形区域。因此，GLAM利用了更长距离的相互作用成功地对图像进行了分割，如图1d）所示。为了实现这一目标，我们做出了以下创新贡献：0•我们引入了GLAM变换器，能够表示所有局部特征在所有分辨率级别上的全范围交互。GLAM变换器基于可学习的全局令牌，在所有视觉特征之间进行交互。为了充分考虑全局上下文，我们还设计了一种非局部上采样方案（NLU）。0•GLAM是一个通用模块，可以纳入任何多分辨率变压器中。它由一系列应用于全局和视觉令牌以及全局令牌之间的合并序列的两个变压器组成。我们强调GLAM变压器可以表示所有尺度上图像区域之间的全范围交互，同时保持内存和计算效率。除了空间交互，全局令牌还可以模拟预期的场景组成。Multi-resolution transformers. Several recent approachesproposed adaptations of the vanilla ViT architecture.Inparticular, some architectures rely on multi-resolution pro-cessing.T2T ViT [42] constructs richer semantic fea-ture map through token aggregation while TnT [15] andcrossViT [4] uses two transformers for fine and coarse res-olution. PvT [38] is the first backbone with a fully pyra-midal architecture that is based on windowed transform-ers, allowing to process the images at fine resolution andto build rich feature maps, while reducing the spatial com-plexity.Other methods kept this hierarchical approachwhile improving information sharing between the windows.Swin [24] and its variant [2, 48] proposed to used shiftedwindows, Twins [9] uses interleaved fine and coarse resolu-32250图1. 当使用最先进的多分辨率变压器（例如Swin[24]）对高分辨率图像进行分割时，最高分辨率特征图中的注意力仅限于一个小的空间区域，即黄色十字行人的蓝色方框。我们的方法将全局注意力引入多分辨率变压器（GLAM）。行人的GLAM注意力图如b）所示：它捕捉到了细粒度的空间信息和长程交互，实现了成功的分割，如d）所示。02. 相关工作0•在各种通用（ADE20K）、自动驾驶（Cityscape）和医学（Synapse）数据集上的实验证明，将GLAM纳入现有的最先进的多分辨率变压器（包括Swin、Swin-Unet和nn-Former）中可以带来重要且系统性的收益。我们还展示了GLAM在Synapse上超越了最先进的方法。最后，我们提供了消融研究、模型分析和可视化来评估GLAM的行为。0语义分割。在深度学习时代，全卷积神经网络（FCNs）[25,33, 45, 6,40]主要在语义分割方面取得了最先进的性能。例如，DeepLab[6]是一种基于编码器-解码器架构的模型，U形网络[32]和3D变体[26,18]在医学图像分割中非常流行。然而，这些模型仅限于小的局部感受野，对于高分辨率图像来说是不够的。最近，变压器[35]取得了很大的进展。0多分辨率变压器。最近的几种方法提出了对原始ViT架构的改进。特别是，一些架构依赖于多分辨率处理。T2T ViT[42]通过令牌聚合构建更丰富的语义特征图，而TnT [15]和crossViT[4]使用两个变压器进行细粒度和粗粒度的处理。PvT[38]是第一个具有完全金字塔结构的骨干，它基于窗口变换器，可以在细粒度上处理图像并构建丰富的特征图，同时降低了空间复杂度。其他方法保持了这种分层方法，同时改进了窗口之间的信息共享。Swin [24]及其变体[2,48]提出使用了平移窗口，Twins [9]使用交错的细粒度和粗粒度分辨率。0视觉变压器骨干。在基于变压器的自回归推断取得强大性能的基础上，已经提出了完全基于变压器的图像生成模型[7]。其他早期的工作提出了将CNN和注意力结合用于视觉任务，如目标检测[49]、视差估计[23]或语义分割[16]。最近，完全变压器架构在图像分类中超过了FCN基线。ViT[12]是第一个纯变压器骨干，在图像分类方面实现了最先进的性能，但它需要非常大的训练数据库。DeiT[34]通过数据高效的训练策略和蒸馏成功地减少了这个要求。32260图2. GLAM模块用于建模多分辨率变压器中的全范围交互。GLAM包含在任何多分辨率变压器架构的每个分辨率级别中，例如Swin-Unet[24]或Swin-UperNet[24]。GLAM包括可学习的全局令牌，这些令牌在两个注意力步骤中被利用。我们展示了这种设计可以间接表示所有尺度上所有图像区域之间的长程交互，同时保持分割所需的有效性。我们还引入了一种非局部上采样方案（NLU），以扩展全变压器U形架构中的全局上下文建模，例如[2, 48]。0变压器和CvT[39]将线性嵌入替换为卷积。高效自注意。长序列对于变压器来说一直是一个挑战，因为原始的自注意机制在序列长度上具有二次复杂度。为了解决这个问题，许多方法都专注于设计高效的自注意机制。其中大部分是为NLP任务开发的，并可以分为四类。第一类使用注意力矩阵的稀疏近似[30,20,28]。在这些方法中，基于窗口的补丁提取视觉变压器最近提供了一种简单而高效的计算注意力的方法[24, 37,13]。第二类是基于注意力矩阵的低秩近似的方法，例如Linformer[36]。第三类（基于内存的变压器）构建额外令牌的缓冲区，用作静态内存[31,22]。第四类（基于核的方法）提供了softmax核的线性近似[8, 29,19]。一些视觉变压器结合了多种高效的注意力机制。最近的受ViT启发的骨干PvT[38]基于窗口化的自注意和接近Linformer的注意力近似。ViL[43]通过使用一组减少的全局令牌（通常是一个）来平衡稀疏注意力，以提取输入图像的全局表示。本文介绍的GLAM方法是一种基于窗口和内存的变压器，非常适合现有的多分辨率视觉骨干。与大多数其他多分辨率骨干不同，GLAM通过在窗口级别引入全局令牌，以及通过设计...0使用特定的GLAM变换器级联窗口（W-MSA）和全局（G-MSA）注意力。我们强调GLAM使得全局通信跨越所有图像区域，并且还编码了来自所有训练集的学习信息。03. GLAM方法0GLAM中的主要思想是提供一种在所有特征图分辨率上表示全范围交互的方法，这在传统模型中是不可能的，特别是在高分辨率特征图中，由于注意力变换器的二次复杂度。0GLAM在图2中进行了说明，它已经添加到Swin-Unet架构[24]中。请注意，GLAM可以包含在各种多分辨率架构中，例如Swin [2]或PvT[38]，并且也适用于3D分割，例如nn-Former[48]。GLAM的核心思想是设计全局令牌（图2中的红色），这些令牌被用于两个注意力步骤的连续应用：首先，在每个窗口中的视觉令牌之间，其次，在不同窗口之间的全局令牌之间。我们在图3.2中展示了这种设计如何能够在所有尺度上表示所有图像区域之间的全范围交互，以及对分割有用的外部信息，同时保持效率。我们还引入了非局部上采样方案（NLU），以扩展U形架构中的全上下文建模，并在相关解码器中提供丰富的语义特征图的高效插值。∀k ∈ [1. . Nr], zlk =�glkwlk�∈ R(Ng+Np)×C.(1)ˆzl = W-MSA(zl−1) ,gl = G-MSA(ˆgl) ,zl = glTk ˆwlTkT(2)Alr =�Alr,ggAlr,gwAlr,wgAlr,ww�.(3)ˆgr = Alr,gggl−1r+ Alr,gwwl−1r.(4)322703.1. 多分辨率变压器架构0如图2所示，GLAM可以包含在任何多分辨率变压器架构[24,38, 44, 37, 2,48]中。变压器。在每个分辨率级别s上，给定一系列视觉令牌，变压器通过自注意力（SA）学习表示。SA是通过每个令牌与它们共享相同嵌入的概率的期望值给出的。多头自注意力（MSA）是从m个并行SA操作的线性组合中获得的。最后，通过将MSA的输出插入多层感知机（MLP）中，得到完整的变压器模块。在MSA和MLP模块之前和之后分别添加了层归一化操作和残差连接。窗口化注意力。由于注意力矩阵的计算具有二次内存复杂度，因此无法将MSA应用于长序列，例如高分辨率图像的补丁。为了允许高分辨率处理，从而处理小补丁的长序列，窗口化变压器将图像视为一批非重叠的窗口[24, 38, 37, 44]。这种方法与池化策略[2, 24, 38,44]相结合，非常适合构建多分辨率编码器，能够生成丰富的语义地图。多分辨率骨干是通过链接窗口化变压器块和下采样来构建的。这些分层架构能够在更深的层中构建更大的感受野，类似于CNN。然而，这并不能保证全局感受野，最大感受野取决于模型的深度。更重要的是，这种处理对变压器模块进行了重大修改。在更细的分辨率上，只考虑局部交互。通过这种修改，通过自注意力处理孤立的补丁可能不如在整个图像上进行的全局自注意力有效。03.2. 全局注意力多分辨率transformers0我们展示了GLAM模块如何在多分辨率transformers的所有特征图中提供全局注意力。GLAMtransformer如图3所示，由一系列L个transformer块组成，处理多分辨率地图中每个区域的视觉令牌（图3中的蓝色）和全局令牌（图3中的红色）。GLAM的基本思想是将全局令牌与每个窗口关联起来，负责封装局部信息并通过计算所有全局令牌之间的MSA将其传递给其他图像区域。因此，当在窗口尺度上处理信息时，视觉令牌嵌入会包含有用的远程信息。0全局令牌。全局令牌是全局注意力（GA）的核心。它们是特定的令牌，与每个窗口连接在一起。0每个窗口都与其他窗口之间进行通信，并负责通信。我们定义N r为特征图中窗口的数量，N p为每个窗口的补丁数，{w l k } 1 ≤ k ≤ N r为经过l thGLAM-transformer块处理后的窗口序列。我们定义{ g l k }1 ≤ k ≤ N r为与每个窗口关联的Ng维全局令牌序列。全局令牌的初始化{ g 0 k } 1 ≤ k ≤ Nr对于所有窗口都是相同的，并由模型学习。第l个transformer块的输入zl定义为每个窗口的一批令牌与相应的全局令牌连接在一起，即z l ∈ R N r × ( N g + N p ) ×C，其中C是令牌的维度。因此，批次中的元素具有以下形式：0GLAM-Transformer。在给定层次级别上，窗口之间的通信是通过全局令牌的相互作用获得的。在GLAM-transformer的每个块l中，有两个步骤：i)视觉令牌通过局部窗口变换器（W-MSA）获取其局部统计信息，ii)全局令牌通过全局变换器（G-MSA）重新嵌入，其中来自不同窗口的全局令牌相互作用。形式上，第l个GLAM-transformer块通过W-MSA和G-MSA步骤的连续性将输入z l − 1转换为输出z l：0我们定义A lr为transformer块l中窗口r的注意力矩阵。我们引入以下分解来表示相对于全局和局部令牌的注意力:0方阵A l r,gg ∈ R N g × N g和A l r,ww ∈ R N p × Np分别给出全局令牌和空间令牌对自身的注意力。矩阵A lr,gw ∈ R N g × N p和A l r,wg ∈ R N p × Ng是局部和全局令牌之间的交叉注意力矩阵。我们将全局令牌序列的全局注意力矩阵从所有全局令牌序列定义为B l ∈R ( N r ∙ N g ) × ( N r ∙ N g)，将给出窗口i和j之间全局令牌的注意力的子矩阵定义为B lij ∈ R N g × Ng。GLAM-Transformer的特性。除了值矩阵之外，W-MSA还给出了从g l − 1 r得到的以下嵌入ˆ g l r：Blrnˆgln=Blrn(Alr,gggl−1r+ Alr,gwwl−1r) .(5)aj,r′,izl−1i,r′=aj,r′,igl−1i,r′+aj,r′,i+Ngwl−1i,r′bk,r,j,r′ aj,r′,(i+Ng) wl−1i,r′+bk,r,j,r′aj,r′,i gl−1i,r′32280图3. GLAM-Transformer：与多分辨率方法一样，每个输入特征图被分成Nr个不重叠的窗口（蓝色）。GLAM的核心思想是设计可学习的全局令牌（红色）。来自每个窗口的视觉令牌与全局令牌连接在一起，并通过局部窗口变换器（W-MSA）进行处理。每个W-MSA后面都是一个全局变换器（G-MSA），其中不同窗口之间的全局令牌相互作用，为每个窗口提供全局表示。这两个步骤给出了GLAM-Transformer块；在典型的多分辨率transformer骨干网络的每个层次级别上都会链式连接多个块。我们展示了从GLAM-Transformer中学习到的全局令牌间接地对所有窗口中的所有视觉令牌进行全局交互建模。全局令牌还能够表示单个图像中除了补丁交互之外的额外可学习知识。0G-MSA，即全局令牌序列上的MSA，给出了以下嵌入：0N r是窗口的数量0N r是窗口的数量。0从公式（5）中，我们得到了在第 l 个G-MSA块变换器中处理的窗口 r 的全局令牌的表达式：0N r是窗口的0r ′ =10j =1 b k,r,j,r ′ � N g + N p是从窗口 r 中的全局令牌 j到窗口 r ′ 中的全局令牌 j的注意力系数。0�0N r是窗口的。0r ′ =10j =1 b k,r,j,r ′ � N g是从窗口 r中的全局令牌 j 到窗口r ′ 中的全局令牌 j力系数。0N p是视觉令牌的数量。0� . (6)0变量 z i,r ， g i,r 和 w i,r 分别对应于窗口 r中的视觉、全局或通用令牌 i 。 a j,r,i 是令牌 j 对窗口 r中的令牌 i 的注意力系数。 b j,r,i,r ′ 是窗口 r 中的全局令牌j 对窗口 r ′ 中的全局令牌 j的注意力系数。重新排列方程式（6）的指标得到了第 r个窗口中的第 k 个全局令牌的以下表达式：0N r是窗口的0r ′ =10N p是视觉令010�0�0N g是全局令牌的数量。0�0�0N r是窗口的0r ′ =10�0�0N g是全局令牌的数量0N g是全局令牌的数量0�0� (7)0这导致了一个全局注意力矩阵 G k ∈ R ( N r ∙ N p ) × ( N r∙ N p )，与第 k 个全局令牌相关，由 [ G k ] r ′ ,i = � N g j=1 b k,r,j,r ′ a j,r ′ , ( i + N g ) + � N g j =1 b k,r,j,r ′ � N g i=1 a j,r ′ ,i 给出。公式（7）给出了第 l 个GLAM-transformer块中全局令牌 g l k,r的嵌入，与所有特征图窗口 w l − 1 i,r′（第一行）中的所有视觉令牌和所有全局令牌 g l − 1 i,r′（第二行）相关。这种重写表明，全局嵌入 g l k,r捕捉到了所有图像区域之间的相互作用，独立于分辨率。分解中的不同项被解释为与每个图像区域相关的注意力图。这是图1中显示的可视化效果：第一项的行对应于基于补丁的注意力，它依赖于特征图的所有令牌，而第二行表示基于窗口的注意力。总的来说，使用GLAM-transformer嵌入的全局令牌提供了一种在所有窗口之间进行信息传播的方式（图7中的第一行），但也提供了超越单个图像中匹配视觉特征的全局信息（第二行）。特别地，这代表了数据集中的全局和学习信息，并且可以作为SA中的稳定效果利用，因为这些信息不仅来自输入，还来自数据集中的所有窗口。这使它们成为解释孤立令牌和利用数据中冗余结构的强大工具。Swin-Unet [2]Tiny42.75GLAM-Swin-UnetTiny44.19Swin-UNet [2]Small47.49GLAM-Swin-UNetSmall47.90Swin-Unet [2]Base47.85GLAM-Swin-UnetBase49.10Swin-UperNet[24]Tiny43.69GLAM-Swin-UperNetTiny44.16Swin-UperNet [24]Small47.72GLAM-Swin-UperNetSmall47.75Swin-UperNet [24]Base47.99ADE20KGLAM-Swin-UperNetBase48.44Swin-UperNet [24]Tiny78.24GLAM-Swin-UperNetTiny78.64Swin-UperNet [24]Base80.79GLAM-Swin-UperNetBase81.47Swin-Unet [2]Tiny77.43CityscapesGLAM-Swin-UnetTiny78.29nnFormer [48]Tiny87.40SynapseGLAM-nnFormerTiny88.6032290非局部上采样。我们为完全变换器解码器引入了非局部上采样（NLU）模块，例如[2,48]。NLU旨在根据来自跳跃连接的所有令牌对语义特征进行上采样，借鉴了非局部均值[1]。所提出的NLU在补充材料中有所说明。为了进行上采样，跳跃连接被嵌入到大小为 (4N p ) × C的查询矩阵中，而语义低分辨率特征被嵌入到大小为 N p× C 的键和值中。在结果注意力矩阵上的值的投影的大小为(4 N p ) × C 。04. 实验04.1. 实验设置0数据集。我们在三个不同的语义分割数据集上进行了评估：ADE20K [47]、Cityscapes [11]和Synapse[21]。ADE20K是一个包含150个对象类的场景解析数据集，由20,210张图像组成。Cityscapes包含驾驶场景，由5,000张带有19个不同类别标注的图像组成。Synapse是一个包含30个计算机断层扫描（CT）扫描的腹部器官分割数据集，这些扫描是带有8个腹部器官标注的3D体积。实现细节。GLAM模型是在mmseg[10]代码库中实现的，并在8个Tesla V100GPU上进行训练。使用了预训练的ImageNet-1K图层和标准的数据增强方法：随机裁剪、旋转、平移等。更多细节请参见补充材料。我们使用Adam优化器，权重衰减为0.01，多项式学习率调度器从0.00006开始，因子为1.0。报告的分割性能为ADE20k和Cityscapes的平均交并比（mIoU），以及Synapse的Dice相似性分数（DSC）。04.2. GLAM性能0多分辨率变压器中的GLAM。GLAM非常适合与窗口变压器（如PvT [38, 37]或Swin [24]及其变种[2,48]）一起使用。由于Swin的出色性能，我们将GLAM集成到该骨干中，以计算2D数据集的分割，从而得到两个模型：GLAM-Swin-UperNet和GLAM-Swin-Unet。第一个是混合模型，结合了变压器骨干和CNN头部[2,40]，而第二个是具有与编码器对称的解码器的完整变压器模型[2]。对于3D图像，GLAM被插入到设计类似于Swin-Unet的nnFormer[48]中，用于3D医学图像分割。表1中展示了Swin和GLAM模型的性能。与其原始对应物相比，GLAM模型表现出重要且一致的性能提升。0表1.GLAM在各种多分辨率变压器上的改进。性能评估基于ADE20k和Cityscapes的mIoU，以及Synapse的平均DSC。0数据集方法大小得分0部分，无论是在小型还是大型模型上：例如，在ADE20K上使用Swin-Unet（Base或Tiny）获得了�+1.5pt的增益，在最新的nn-Former模型上在Synapse上获得了+1.2pt。0与现有方法在ADE20K [47]、Cityscapes [11]和Synapse[21]上进行最先进的比较。0ADE20K和Cityscapes。表2总结了我们的结果。为了公平起见，我们比较了最多�150M参数的模型，并报告了所有方法在mmseg[10]基准上的最佳性能，所有方法均进行了160K次训练迭代。此外，我们仅比较在Cityscapes上使用768×768分辨率图像训练的方法。在这个设置下，GLAM-Swin-Unet在ADE20K上的mIoU为49.10%，至少比其原始的Swin版本高出1.10%的mIoU。GLAM-Swin-UperNet在Cityscapes上达到81.47%的mIoU，比其Swin-Upernet对应物好1.58%。0Synapse.表3报告了我们的结果和最近的基线，用于3D医学分割。GLAM-nnFormer至少比所有其他现有方法平均Dice高1.2%。据我们所知，GLAM-nnFormer在Synapse数据集上超过了最先进的方法。FCN [33]ResNet-10141.4077.34CCNet [17]ResNet-10143.7179.45DANet [14]ResNet-10143.6480.47UperNet [40]ResNet-10143.8280.10DNL [41]ResNet-10144.2579.41PSPNet [45]ResNet-10144.3979.08DeepLabV3+ [6]ResNet-10145.4779.41Trans2Seg [38]PVT-S42.60-FPN [38]PVT-L42.10-TNT [15]TNT-S43.60-SETR-PUP [46]DeiT-L46.3479.21Swin-Unet [2]Swin-B47.85-Swin-UperNet [24]Swin-B47.9980.79Twins-SVT-L [9]Twins-SVT48.80-GLAM-Swin-UnetSwin-B49.10-GLAM-Swin-UperNetSwin-B48.4481.47VNet [26]68.81U-Net [32]76.85Att-UNet [27]77.77R50-Deeplabv3+ [6]75.73TransUNet [5]77.48Swin-Unet [2]79.13TransClaw U-Net [3]78.09nnUNet (3D) [18]86.99nnFormer [48]87.40GLAM-nnFormer88.60Swin-Unet-T42.75Swin-Unet-T✓43.20Swin-Unet-T✓✓44.20GLAM-nogmsa-Swin-Unet B47.90GLAM-Swin-Unet B49.10GLAM-nogmsa-Swin-UperNet B47.95GLAM-Swin-UperNet B48.4432300表2.在ADE20K和Cityscapes上与最先进方法的比较。所有实验都是使用单尺度推理进行的。0ADE20K Cityscapes 方法 Backone mIoU mIoU0表3. 在Synapse上与最先进方法的比较。0方法平均Dice分数（%）04.3. 模型分析0在这部分中，我们分析了GLAM的各个重要方面。全局标记的数量。全局标记的数量直接影响GLAM模型窗口之间的全局交互能力。图4显示了这个超参数对分割性能的影响。我们可以看到使用更多的全局标记可以提高性能。然而，这也增加了参数和内存成本，从而需要进行权衡。我们保持了10个全局标记的合理值，在Swin-Unet模型的小型和基础版本中都提供了重要的性能提升，分别为+1.4个百分点。NLU的影响。GLAM通过全局注意力和非局部上采样（NLU）改进了多分辨率变换器中的上下文建模。表4提供了这两个组件的消融研究。我们可以看到，与使用补丁扩展操作的原始Swin-Unet相比，NLU提供了0.45个百分点的改进。0图4. 全局标记数量对ADE20k性能（mIoU）的影响。0表4. NLU和GLAMtransformer对小型Swin-Unet在ADE20k上的影响，使用10个全局标记。0方法 NLU GLAM mIoU0上采样。GLAM为基线带来了另一个大幅改进，总增益为+1.44个百分点。为了突出G-MSA的影响，表5显示了仅使用W-MSA步骤而没有G-MSA的GLAM骨干的性能。与没有G-MSA的对应骨干相比，GLAM骨干显示出一致的增益。这个消融研究突出了这一步骤在利用长程交互方面的关键作用，GLAM所取得的性能提升不仅可以通过参数开销来解释。0表5. G-MSA阶段对不同模型的GLAMtransformer在ADE20k上的影响，使用10个全局标记。GLAM-nogmsa是没有G-MSA阶段的GLAM。0方法 mIoU0参数和FLOPs开销。全局标记导致的开销受GLAM变换器块数量的控制，并与可学习参数的数量成比例。这种开销带来的性能增益高于增加骨干网络大小，从而验证了模型架构的有效性。表6说明了GLAM-SwinBase骨干相对于其基准Large版本在额外可学习参数方面具有更高的mIoU增加。FLOPs开销也可以进行相同的分析，GLAM-Swin Base相对于SwinLarge每个额外FLOP的mIoU增加更高。可视化。图5显示了GLAM方法的定性可视化结果。在图5a）中，我们展示了最高分辨率特征的GLAM注意力图。backbone#param.↑ rel. mIoU / #param×10−2FLOPs↑ rel. mIoU / FLOPs×10−2Swin-UperNet B121081G0Swin-UperNet L2340.4180G0.4GLAM-Swin-UperNet B1970.699G2.532310a) ADE20K上GLAM的分割结果和全局注意力.0b) Synapse上的分割结果. 图5. GLAM的定性可视化.我们展示了GLAM在ADE20K上建模高分辨率特征图中的全局上下文信息的能力（第一行），以及GLAM-nn-Former准确分割胃（粉色）的能力.0表6.相对mIoU增加的分析，相对于标准的Base和Large骨干网络的额外可学习参数和FLOPs.0图6. 三维中的平均GLAM注意力图. 蓝色窗口内的信息是模糊的.为了分割红色十字上的体素，模型利用了包括相邻器官在内的远程依赖关系. 胰腺为绿色，主动脉为红色，胃为蓝色.0GLAMSwin-Unet模型的地图。回应Cityscape中图1的观察，我们可以看到GLAM可以在这个空间细层中建模全范围的相互作用。这使得它能够利用与其他重要结构（例如其他沙发、拱廊）的空间关系，而基线Swin-Unet由于其有限的窗口注意力而无法实现。我们可以注意到GLAM的相关性0分割.此外，图6显示了红色十字（胰腺）的GLAM注意力在轴向上的平均值.我们可以看到涉及到了远程依赖关系，其空间范围比局部窗口（蓝色）大得多，其中注意力被给予相邻器官（胃和主动脉）.完整的上下文对于正确分割具有视觉局部模糊性的复杂器官（如胰腺）至关重要.在图5b）中，我们展示了GLAM-nn-Former在3D医学图像分割中的分割结果. 我们展示了给定2D切片上的结果.我们可以注意到，与nn-Former相比，GLAMnn-Former在分割胃（粉色）方面的质量要好得多.这可以通过我们的模型的全局交互来解释，它使其能够更好地表示器官之间的特定相互作用.05. 结论0本文介绍了GLAM，一种用于建模多分辨率变换器模型中的全局上下文交互的方法.GLAM变换器在模型的每个分辨率级别上利用可学习的全局标记，允许标记在图像区域之间进行完全交互，并配备了非局部上采样模块.实验证明，将GLAM纳入多个多分辨率变换器（Swin-Unet、nn-Former、Swin）中可以获得大量且一致的收益，适用于各种医学、街景或更一般的图像.未来的工作包括将GLAM思想应用于对非常高分辨率图像或3D医学体积进行建模的全局上下文信息.[13] Haoqi Fan, Bo Xiong, Karttikeya Mangalam, YanghaoLi, Zhicheng Yan, Jitendra Malik, and Christoph Feicht-32320参考文献0[1] Antoni Buades, Bartomeu Coll, and Jean-Michel Morel.用于图像去噪的非局部算法.在2005年IEEE计算机学会计算机视觉和模式识别会议（CVPR'05）- 第2卷 -第2卷中的论文集，CVPR'05，华盛顿，美国，2005年，IEEE计算机学会.0[2] Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xi-aopeng Zhang, Qi Tian, and Manning Wang. Swin-unet:类似于纯变换器的UNET用于医学图像分割, 2021.0[3] Yao Chang, Hu Menghan, Zhai Guangtao, and ZhangXiao- Ping. Transclaw u-net:使用变换器的爪状u-net进行医学图像分割, 2021.0[4] Chun-Fu Chen, Quanfu Fan, and Rameswar Panda.Crossvit: 跨注意力多尺度视觉变换器用于图像分类. 2021.0[5] Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, EhsanAdeli, Yan Wang, Le Lu, Alan L. Yuille, and Yuyin Zhou.Transunet: 变换器为医学图像分割提供强大的编码器.arXiv预印本arXiv:2102.04306, 2021.0[6] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.具有空洞可分离卷积的编码器-解码器用于语义图像分割。在ECCV上，2018年。0[7] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever.用稀疏变压器生成长序列。arXiv预印本arXiv:1904.10509，2019年。0[8] Krzysztof Marcin Choromanski, Valerii Likhosherstov,David Dohan, Xingyou Song, Andreea Gane, Tamas Sar- los,Peter Hawkins, Jared Quincy Davis, Afroz Mohiuddin, LukaszKaiser, et al.用表演者重新思考注意力。在国际学习表示会议上，2020年。0[9] Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haib-ing Ren, Xiaolin Wei, Huaxia Xia, and Chunhua Shen.双胞胎：重新审视视觉变压器中的空间注意力设计。在NeurIPS2021上，2021年。0[10] MMSegmentation贡献者.MMSegmentation：Openmmlab语义分割工具箱和基准。https://github.com/open-mmlab/ mmsegmentation，2020年。0[11] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集。在IEEE计算机视觉和模式识别会议上，页码3213-3223，2016年。0[12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Th

下载后可阅读完整内容，剩余1页未读，立即下载