基于级联注意解码的医学图像分割

160 浏览量更新于2023-10-15 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6222基于级联注意解码的医学图像分割Md Mostafijur Rahman Radu Marculescu德克萨斯大学奥斯汀{mostafijur.rahman，radum} @ utexas.edu摘要变形金刚在医学图像分割中表现出了巨大的潜力，因为它们能够通过自我关注来捕获长距离依赖关系然而，它们缺乏学习像素之间的局部（上下文）关系的能力。以前的工作试图克服这个问题，通过嵌入卷积层，无论是在编码器或解码器模块的变压器，因此最终有时与不一致的功能。为了解决这个问题，我们提出了一种新的基于注意力的解码器，即CASCadedAttention Decoder（CASCADE），它利用了分层视觉变换器的多尺度特征。CAS-CADE由i）将特征与跳过连接融合的注意力门和ii）通过抑制背景信息来增强远程和局部上下文的卷积注意力我们使用一个多阶段的特征和损失聚合框架，因为它们的收敛速度更快，性能更好我们的实验证明，具有CASCADE的变压器的性能显著优于最先进的CNN和基于变压器的方法，DICE和mIoU分数分别提高了5.07%和6.16%。CASCADE开辟了设计更好的基于注意力的解码器的新方法。1. 介绍医学图像分割是各种疾病的治疗前诊断、治疗计划和治疗后评估的关键步骤之一。医学图像分割可以用公式表示为密集预测问题，该问题执行逐像素分类并创建病变或器官的分割图卷积神经网络（CNN）已广泛用于医学图像分割任务[24，37，15，22，23，10]。具体而言，UNet [24]在医学图像分割方面表现出了卓越的性能，因为它使用跳过连接生成了聚合多级特征的高分辨率分割图由于UNet复杂的编码器-解码器体系结构，UNet的一些变体，如UNet++ [37]，UNet3+ [15]，DC-UNet [22]已经证明了它的改进。在医学图像分割中有着良好的性能。尽管基于CNN的方法具有令人满意的性能，但由于卷积操作的空间背景，它们在学习像素之间的长程依赖性方面具有局限性[2]。为了克服这一限制，一些作品[23，6，10]在其架构中加入了注意力模块，以增强特征图，从而更好地对医学图像进行像素级尽管这些基于注意力的方法实现了改进的性能（由于捕获显著特征），但是它们仍然遭受捕获不足的长程依赖性。视觉变换器[9]的最新进展克服了上述在捕获远程依赖性方面的限制，特别是对于医学图像分割[3，2，8，30]。变形金刚依靠基于注意力的网络架构;它们首先被引入用于自然语言处理（NLP）中的序列到序列预测[28]。转换器使用自我注意力来学习所有输入标记之间的相关性，从而使它们能够捕获长范围依赖性。继NLP中的变换器成功之后，视觉Transformer [9]将图像划分为非重叠的块，这些块被馈送到具有位置嵌入的变换器模块中。最近，分层视觉变换器，例如Swin变换器，[20]具有基于窗口的注意力和具有空间缩减注意力的金字塔视觉这些分层视觉变换器对于医学图像分割任务是有效的[2，8，30]。然而，变压器中使用的自我注意力限制了它们学习像素之间的局部（上下文）关系的能力[7，16]。最近，SegFormer [35]，UFormer [33]和PVTv2[32] 试图通过在变压器中嵌入卷积层来克服这种限制。尽管这些架构可以部分地学习像素之间的局部（上下文）关系，但是它们i）由于在前馈网络的完全连接的层之间直接嵌入卷积层而考虑到这些问题，我们引入了一种新的 CASCAded Attention Decoder（CASCADE），它6223利用视觉变换器的分层表示。CASCADE分别使用注意力门（AG）和卷积注意力模块（CAM）融合（使用跳过连接）和细化特征由于使用基于注意力的卷积模块作为骨干网络和聚合多级特征我们的贡献总结如下：• 新颖的网络架构：本文提出了一种新的基于注意力的分层级联解码器（CAS-CADE）用于二维医学图像分割，它利用视觉变换器的多级特征表示，同时学习多尺度和多分辨率的空间表示。我们建立我们的解码器使用一种新的卷积atten- tion模块，抑制不必要的信息。此外，我们将跳过连接与注意力门控融合，这也抑制了不相关区域并突出了显著特征。据我们所知，我们是第一个提出这种类型的解码器的医学图像分割。• 多阶段损耗优化和特征聚合：我们聚合和优化多个损失从不同阶段的分层解码器。我们的实证分析表明，多级损失，使更快的收敛模型的准确性和提高解码器的性能。我们还生成了最终的分割图，其中包含多分辨率特征，这对突出特征有更多的信心。• 多功能和改进的性能：我们经验表明，CASCADE可以与任何层次视觉编码器（例如，PVT [32]，TransUNet [3]），同时显著提高了2D医学图像分割的性能。当与多个基线进行比较时，CASCADE在ACDC、Synapse多器官和息肉分割基准上产生新的最先进（SOTA）结果。2. 相关工作我们将相关工作分为三个部分，即，视觉转换器、注意力机制和医学图像分割;下面描述这些。2.1. 视觉转换器Dosovitskiy等人[9]首先介绍视觉变换器（ViT），由于捕获像素之间的长距离依赖性，它实现了出色的性能。虽然早期的视觉转换器在计算上是昂贵的，但最近的工作试图以几种方式进一步增强ViT。Touvron等人[27]第27话：尝试使用数据有效的训练策略来最小化ViT的计算成本Liu等人[20]使用滑动窗口注意机制开发在SegFormer中，Xie et al.[35]介绍了一种用于编码更好的位置信息的Mix-FFN模块和一种用于降低计算成本的有效的自注意机制。SegFormer也是一个分层的Transformer，其中图像块被合并以保持块之间的局部连续性。Wang等人[31]提出了一种金字塔视觉Transformer（PVT），其中使用空间减少注意力机制来降低计算在PVTv2中，Wang et al.[32]通过合并线性复杂度注意层、重叠补丁嵌入和卷积前馈网络来提高PVT的性能。虽然视觉转换器已经显示出很好的前景，但在小数据集上训练时，它们的性能有限这种限制使得transformer很难训练应用程序，如具有少量数据的医学图像分割我们试图通过在大型数据集（如ImageNet）中使用预训练的Transformer骨干来克服这一限制;事实上，以前的研究[8，30]发现，在其他非医学大型数据集上预训练的Transformer权重可以提高医学图像分割任务的性能。2.2. 注意机制Oktay等人[23]为U形架构引入一个低成本的注意力门模块，以融合具有跳过连接的特征;这有助于模型专注于图像中的相关信息。Chen等人。[6]提出了一个反向注意模块来探索丢失的细节信息，从而获得高分辨率和准确的输出。Hu等人。[14]介绍了一种使用全局平均池化特征来计算通道衰减的挤压和激励块;这识别用于学习的重要特征图，然后增强它们。虽然通道注意力可以识别关注哪个特征图，但它缺乏识别关注哪里的能力。为了补充通道注意力块，Chen et al.[4]提出了一个空间注意力块，以更好地关注特征图。Woo等人。[34]介绍了一种卷积块注意力模块（CBAM），它利用信道和空间注意力来捕获在特征图中关注的位置和特征。他们的实验表明，通道注意其次是空间注意产生最好的结果。由于CBAM的附加优势，可忽略的开销，我们将信道注意力，然后在我们的CAM空间注意力。CAM与CBAM的不同之处在于模块本身的设计以及模块的使用方式。首先，我们的CAM由信道注意力、空间注意力和卷积块组成，而CBAM仅由信道注意力和空间注意力组成6224−−图1.PVT-CASCADE网络架构。（a）具有四级的PVTv 2-b2编码器主干，（b）级联解码器，（c）注意门（AG），（d）卷积注意模块（CAM），（e）信道注意（CA），（f）空间注意（SA），（g）ConvBlock，（h）UpConv.X1、X2、X3和X4是分级编码器主干的四个阶段的输出特征p1、p2、p3和p4是来自我们的解码器的四个阶段的输出特征紧张其次，CBAM被放置在编码器和解码器的每个卷积块中，而CAM模块仅出现在解码器中。2.3. 医学图像分割医学图像分割是对给定医学图像中的器官或病变的像素进行CT、MRI、内窥镜检查、OCT等）[3、8]。UNet [24]及其变体[37，15，22，23]因其更好的性能和复杂的架构而广泛用于医学图像分割任务。UNet[24]是一种编码器解码器架构，其中来自编码器的特征与解码器的上采样特征使用跳过连接进行聚合，以产生高分辨率分割图。 Zhou 等人。 [37] 介绍了UNet++，其中编码器-解码器子网络使用嵌套和密集跳跃连接进行链接。Huang等人[15]提出UNet 3+利用包括解码器块之间的内部连接的满量程跳过连接。Lou等人[22]介绍了一种双通道UNet（DC UNet）架构，该架构利用多分辨率卷积块和跳过连接中的残差路径。随着计算机视觉的发展，ResNet架构[13]已经被通常用作医学图像分割的主干。金字塔合并和扩张卷积[5]也用于病变和器官分割[12，11]。如今，基于变换的方法在医学图像分割中也取得了巨大成功[3，2，19，8，30]。Chen等人[3]提出了TransUNet，它使用混合CNN- Transformer编码器来捕获长程依赖性，并使用级联CNN上采样器作为解码器来捕获像素之间的局部上下文关系相比之下，我们提出了一个新的注意力为基础的级联解码器，显示了显着的性能提升时，使用的编码器。Li等人。[19]通过结合Transformer和完全卷积的DenseNet来引入TFCN，以传播语义特征并过滤掉非语义特征。Cao等人[2]提出了Swin-Unet，这是一种基于Swin Transformer [20]的纯Transformer架构。Swin-Unet在编码器和解码器中都使用了变压器，这并没有导致性能的提高。最近的研究将不同的注意力机制与CNN [23，10，36]和基于变换器的架构[8，30]结合起来，用于医学图像分割。 Fan等人[10]采用反向注意[6]进行息肉分割。Zhang等人[36]第三十六话6225××[14]用于分割视网膜图像中的血管Dong等人[8]在解码器中采用CBAM [34]注意块;它们仅将CBAM块与来自PVTv 2的第一层的低级特征一起使用，这限制了细化所有多级特征的能力。相比之下，我们incorpo率的AG融合功能与跳过连接，并使用CAM模块在我们所有的解码器块。3. 方法我们首先介绍了Transformer骨干和我们提出的级联解码器。然后，我们描述了两个不同的- ent变换为基础的架构（TransCASCADE和PVT-cascade），将我们提出的解码器。3.1. Transformer主干为了确保医学图像分割具有足够的泛化能力和多尺度特征处理能力，我们使用金字塔Transformer以及混合CNN- Transformer（而不仅仅是CNN）作为编码器。具体而言，我们采用PVTv2 [32]（图1（a））和TransUNet [3]的编码器设计。PVTv2使用卷积运算而不是传统 Transformer 的补丁嵌入模块来一致地TransUNet利用CNN顶部的Transformer来捕获特征之间的全局和空间关系。我们提出的解码器是灵活的，易于采用与其他层次骨干网络。3.2. 注意力解码器（CASCADE）现有的基于transformer的模型具有有限的（局部）像素之间的上下文信息处理能力。因此，基于变换器的模型在定位更具鉴别力的局部特征方面面临困难。为了解决这个问题，我们提出了一种新的基于注意力的cas-caded多级特征聚合解码器，级联，金字塔功能。如图1（b）所示，CASCADE由上采样特征的上转换块、用于级联特征融合的AG和用于鲁棒地增强特征图的CAM组成我们有四个CAM块用于来自编码器主干的四个阶段的金字塔特征，以及三个AG用于三个跳过连接。为了聚合多尺度特征，我们首先使用AG将来自先前解码器块的上采样特征与来自跳过连接的特征然后，我们将融合的特征与前一层的上采样特征之后，我们使用我们的CAM模块进行像素分组并使用通道和空间注意力抑制背景信息来处理级联特征最后，我们将每个CAM层的输出发送到预测头，并聚合四个不同的预测以生成最终的分割图。3.2.1注意门（AG）AG用于通过采用网格注意力技术逐步抑制不相关背景区域中的特征更具体地，用于聚集每个跳过连接的选通信号融合了多级特征，这增加了查询信号的空间分辨率。与Attention UNet [23]一样，我们使用加法注意力来获得门控系数，因为它比乘法注意力具有更好的性能。加法注意门AG（·）在等式1和2中给出：qatt（g，x）=σ1（BN（Cg（g）+BN（Cx（x）（1）AG（g，x）=x<$σ2（BN（C（qatt（g，x）（2）其中σ1（·）和σ2（·）分别对应于ReLU和Sigmoid激活函数。Cg（·）、Cx（·）和C（·）表示逐通道11卷积运算。BN（·）是批量归一化操作。g和x分别是上采样和跳过连接特征3.2.2卷积注意模块我们使用卷积注意力模块来细化特征图。CAM由信道注意力[14]（CA（·））、空间注意力[4]（SA（·））和卷积块（ConvBlock）组成，如等式3所示：CAM（x）=ConvBlock（SA（CA（x）（3）其中x是输入张量，CAM（·）表示卷积注意力模块。渠道注意（CA）：通道注意力确定要关注哪些特征图（然后对其进行优化）。使用等式4定义信道注意CACA（x）=σ2（ C2（σ 1（ C1（Pm（x）+ C2（σ 1（ C1（Pa（x）<$x（四）其中σ2（·）是Sigmoid激活。Pm（·）和Pa（·）分别表示自适应最大池化和自适应平均池化.Cl（·）是具有11内核大小的卷积层，以将信道维度减小16倍。σ1是ReLU激活层，C2（·）是另一个卷积层，用于恢复原始通道维度。是Hadamard乘积。空间注意力（SA）：空间注意力决定了在特征图中关注的位置，然后增强这些特征。空间注意力SA（·）在等式5中给出：SA（x）=σ（C（Cm（x）+Ca（x）<$x（5）其中σ（·）是Sigmoid激活函数。Cm（·）和Ca（·）表示沿6226××××××通道尺寸，分别。C（·）是具有填充3的7 × 7卷积层，以增强空间上下文信息（如[8]中所示）。ConvBlock：ConvBlock用于进一步增强使用我们的CA和SA操作生成的功能。ConvBlock由两个3 3卷积层组成，每个卷积层后面是一个批处理规范化层和一个ReLU激活层。ConvBlock（·）被公式化为等式6：ConvBlock（x）=σ（BN（C（σ（BN（C（x）（6）其中σ是ReLU激活层，BN（·）表示批量归一化，C（·）是3×3卷积层。3.2.3上转换UpConv逐步对当前图层的特征进行上采样，以使尺寸与下一个跳过连接相匹配。每个UpConv层由比例因子为2的UpSamplingUP（·）、3 × 3卷积Conv（·）、批量归一化BN（·）和ReLU激活层组成UpConv（·）可以公式化为等式7：UpConv（x）=ReLU（BN（Conv（Up（x）（7）3.3. 多阶段丢失和特征聚合我们使用四个预测头的四个阶段的histical编码器。我们使用加法聚合来计算最终的预测图，如公式8所示：输出=w×p1+x×p2+y×p3+z×p4（8）其中P1、P2、P3和P4是四个预测头的特征图，W、x、y和z是各个预测头的权重。在我们的实验中，我们将w、x、y和z都设置为1.0。我们通过将Sigmoid激活用于二进制分割和Softmax激活用于多类分割来获得最终的预测输出。然而，我们分别计算每个预测头的损失，然后使用等式9将它们聚合：损失=α×损失p1+β×损失p2+γ×损失p3+γ×损失p4（9）其中lossp1、lossp2、lossp3和lossp4是四个不同预测头的损失，α、β、γ和β是各个预测头损失的权重。在我们的实验中，我们将所有α、β、γ和λ设置为1.0。3.4. 整体架构我们利用两种不同的分层骨干编码器网络，如PVTv2 [32]和TransUNet [3]进行实验。在TransUNet的情况下，我们只使用他们的混合CNN变压器骨干编码器网络。通过使用PVTv 2-b2（标准）编码器，我们创建了PVT-CASCADE架构。为了采用PVTv 2-b2，我们首先从四个层中提取特征（X1，X2，X3和X4）并将它们馈送（即，上采样路径中的X4和跳过连接中的X3、X2、X1）输入到我们的级联解码器中，如图1（a-b）所示。然后，我们的级联解码器处理它们，并为编码器网络的四个阶段产生四个预测特征图。之后，我们使用等式8对预测特征图进行聚合，以产生最终的预测特征图。最后，我们将Sigmoid激活用于二进制分割，将Softmax用于多类分割任务。此外，采用TransUNet的骨干编码网络，引入了Tran- sCASCADE体系结构在我们的Tran- sCASCADE架构中，我们遵循类似的步骤这两种架构在Synapse多器官分割、ACDC和几种息肉分割基准上实现了SOTA性能。实验部分给出了详细的实验结果.4. 实验在这一节中，我们首先将我们提出的CASCADE解码器的结果与SOTA方法进行比较，以证明我们提出的方法的优越性。然后，我们进行消融研究，以评估我们的级联解码器的有效性。4.1. 数据集和评价指标Synapse多器官数据集。Synapse多器官数据集1有30个腹部CT扫描，3779个轴向对比增强腹部CT图像。每次CT扫描由85-198个512 512像素的切片组成，体素空间分辨率为（[0：54-0：54] [0：98-0：98] [2：5- 5：0]）mm3。在TransUNet [3]之后，我们将数据集随机分为18个扫描用于训练（2212个轴向切片），12个用于验证。我们分割了主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃等8个解剖结构。ACDC数据集。ACDC数据集2由从不同患者收集的100个心脏MRI扫描组成。每次扫描包含三个器官：右心室（RV）、左心室（LV）和心肌（Myo）。在TransUNet [3]之后，我们使用70个病例（1930个轴向切片）进行训练，10个用于验证，20个用于测试。息肉数据集。 CVC-ClinicDB [1]包含612幅图像，这些图像是从31个结肠镜检查视频中提取的。Kvasir包括1，000个息肉图像，这些图像是从Kvasir-SEG数据集中的息肉类中收集的[17]。根据PraNet [10]中的设置，我们采用来自CVC-ClinicDB和Kvasir数据集的相同900和548张图像作为训练集，其余64和100张图像作为相应的测试集。为了评估泛化性能，我们在三个看不见的数据集上测试了该模型，即EndoScene [29]，ColonDB [26]和ETIS-LaribDB [25]。收集这三个测试集1https：//www.synapse.org/#！Synapse：syn3193805/wiki/2177892https://www.creatis.insa-lyon.fr/Challenge/acdc/6227↑↓××--×架构平均主动脉GB KL KR肝脏PC SPSM DICE↑HD95↓ mIoU↑ ASD↓UNet [24] 70.11 44.69 59.39 14.41 84.00 56.70 72.41 62.64 86.98 48.73 81.48 67.96AttnUNet [23] 71.70 34.47 61.38 10.00 82.61 61.94 76.07 70.42 87.54 46.70 80.67 67.66R50+UNet [3] 74.68 36.87− −84.18 62.84 79.19 71.29 93.35 48.23 84.41 73.92R50+AttnUNet [3] 75.57 36.97− −55.92 63.91 79.20 72.71 93.56 49.37 87.19 74.95[30]第三十话78.01 25.72 67.23 4.56 82.78 63.74 80.72 78.11 93.53 61.53 87.07 76.61PolypPVT [8]78.08 25.61 67.43 4.89 82.34 66.14 81.21 73.78 94.37 59.34 88.05 79.4TFCN [19]75.63 30.63 64.69 5.2988.2359.18 80.99 73.12 92.02 54.24 88.36 68.9TransUNet [3]77.61 26.9 67.32 4.66 86.56 60.43 80.54 78.53 94.33 58.47 87.06 75SwinUNet [2]77.58 27.32 66.88 4.7 81.76 65.95 82.32 79.22 93.73 53.81 88.04 75.79PVT-CASCADE（我们的）81.06 20.23 70.88 3.61 83.0170.5982.23 80.37 94.08 64.43 90.183.69TransCASCADE（我们的）82.68 17.34 73.48 2.8386.63 68.4887.66 84.56 94.43 65.33 90.79 83.52改进TransUNet5.07 9.56 6.16 1.83 0.07 8.05 7.12 6.03 0.1 6.86 3.73 8.52表1. Synapse多器官分割的结果。仅报告单个器官的DICE评分。R50+UNet和R50+AttnUNet采用预先训练的ResNet50骨干网络。我们使用默认实验设置TransUNet重现UNet、AttnUNet、SSFormerPVT、Polyp-PVT、TFCN、TransUNet和SwinUNet的结果。表示越高越好，表示越低越好。所有CASCADE结果均为五次运行的平均值。最佳结果以粗体显示。架构Avg DICE RV Myo LVR50+UNet [3]87.5587.1080.6394.92R50+AttnUNet [3]86.7587.5879.2093.47ViT+CUP [3]81.4581.4670.7192.18R50+ViT+CUP [3]87.5786.0781.8894.75TransUNet [3]89.7186.6787.2795.18SwinUNet [2]88.0785.7784.4294.03PVT-CASCADE（我们的）91.4688.989.9795.50TransCASCADE（我们的）91.6389.1490.2595.50表2. ACDC数据集上的结果。报告单个器官的DICE评分。我们重现了SwinUNet的结果。所有CASCADE结果均为五次运行的平均值。来自不同的医疗中心换句话说，来自这三个来源的数据不用于训练我们的模型。EndoScene、ColonDB和ETIS-LaribDB分别包含60、380和196张图像。评估指标。我们使用DICE，平均交集（mIoU），95% Hausdorff距离（95HD）和平均表面距离（ASD）作为我们在Synapse多器官数据集上进行实验的评估指标按照现有的方法，我们只使用ACDC数据集的DICE分数。对于息肉分割的实验，我们使用DICE和mIoU作为评估指标。4.2. 实现细节我们所有的实验都在Pytorch 1.11.0中实现。我们在一个具有48GB内存的NVIDIA RTX A6000 GPU上训练所有模型。我们将ImageNet上的预训练权重用于骨干网络。我们使用AdamW优化器[21]，学习率和权重衰减为1 e-4。Synapse多器官数据集。在TransUNet [3]之后，我们使用 24 的批量大小，并训练每个模型最多 150 个epoch。我们使用的输入分辨率和补丁大小P为224 224和16，分别。我们采用随机翻转和旋转的数据增强。将交叉熵和DICE损失结合起来作为损失函数。ACDC数据集。对于ACDC数据集，我们训练每个模型最多150个epoch，批量大小为12。我们将输入分辨率和补丁大小P分别设置为224 224和16。随机翻转和旋转应用于数据扩充。我们使用组合交叉熵和DICE损失函数。息肉数据集。在Polyp-PVT [8]之后，我们使用16的批量大小，并训练每个模型最大100个epoch。我们将图像大小调整为352 352，并使用类似的多尺度0.75，1.0，1.25训练策略，梯度剪辑限制为0.5作为Polyp-PVT。我们使用组合加权IoU和加权BCE损失函数。4.3. 结果我们比较我们的架构（即， PVT-CASCADE 和TransCASCADE）与SOTA CNN和基于变换器的分割方法对Synapse多器官、ACDC和息肉（即，Endoscene[29]，CVC-ClinicDB [1]，Kvasir [17]，ColonDB [26]，ETIS-LaribDB [25]）数据集。更多结果可在补充材料中获得。4.3.1Synapse数据集我们在表1中展示了不同CNN和基于变换器的方法的性能。如表1所示，与基于CNN的模型相比，基于变压器的模型具有更优越的我们提出的级联解码器提高了平均DICE，mIoU和HD956228架构EndoScene CVC-ClinicDB Kvasir ColonDB ETIS-LaribDB表3.息肉分割数据集的结果。在Kvasir [17]和CVC-ClinicDB [1]组合列车上进行培训。UNet、UNet++和PraNet的结果摘自[10]。我们使用PolypPVT、SSFormerPVT和UACANet的公共源代码和默认设置重现了它们的结果。所有PVT-CASCADE结果均为5次运行的平均值。最佳结果以粗体显示。组件EndoScene CVC-ClinicDB Kvasir ColonDB ETIS-LaribDB级联AG凸轮骰子Miou骰子Miou骰子Miou骰子Miou骰子Miou没有没有没有88.4181.4791.8287.1291.0986.1377.8669.4377.0468.47是的没有没有89.1182.3293.5488.9591.9887.0581.3073.2178.1669.97是的是的没有89.2582.5793.6189.0492.4587.5781.7273.6779.2771.38是的没有是的89.3982.7993.8889.3192.2087.2882.1174.0979.5771.73是的是的是的90.4783.7994.3489.9892.5887.7682.5474.5380.0772.58表4.具有PVTv 2-b2骨架的CASCADE的不同组分的定量结果。在组合的Kvasir和CVC- ClinicDB训练集上进行训练，并在五个测试集上进行测试（即，Endoscene、CVC-ClinicDB、Kvasir、ColonDB、ETIS-LaribDB）。所有结果在五次运行中取最佳结果以粗体显示。TransUNet 评分分别提高 5.07% 、 6.16% 和 9.56 。TransCASCADE实现了最佳平均DICE（82.67%）、mIoU（73.48%）、HD95（17.34）和ASD（2.83）在所有其他方法中得分。此外，TransCAS-CADE在小器官和大器官分割方面都表现出显著的性能对于小器官，胆囊、左肾和右肾分别改善 8.05%、 7.12%和6.03% 。对于大器官，胃、胰腺和脾脏分别改善8.52%、6.86%和3.73%。这是因为CASCADE捕获像素之间的长期依赖性和局部上下文关系。由于使用atten-tion，CASCADE更好地细化特征图，并产生比其他解码器更强的特征表示。较低的HD95分数表明我们的CASCADE解码器可以更好地定位器官的边界。4.3.2ACDC数据集我们评估我们的方法的性能的MRI图像的ACDC数据集。表2 列出了我们的PVT-CASCADE和TransCAS-CADE以及其他SOTA方法的平均DICE评分。我们的TransCAS-CADE 达到了 91.63% 的最高平均 DICE 分数，比TransUNet提高了约2%，尽管我们分享了相同的编码器。我们的PVT-CASCADE获得了91.46%的DICE评分，也优于所有其他方法。此外，我们的TransCASCADE在具有挑战性的器官RV和Myo分割方面的DICE评分提高了2.5 - 3%4.3.3在Polyp数据集我们在五个不同的息肉分割测试集上评估了我们的CASCADE解码器的性能和通用性，其中三个是从不同实验室收集的完全看不见的数据集。表3显示了SOTA方法的DICE和mIoU分数以及我们的CAS-CADE解码器。从表3中，我们可以表明，CAS-CADE显著优于所有其他方法，与使用相同的预训练Transformer主干的先前最佳模型相比，在未见过的测试集中，CAS-CADE在DICE和mIoU得分值得注意的是，CASCADE在看不见的数据集（即，ETIS-LaribDB和ColonDB中DICE评分分别提高16.2%和10%因此，我们可以得出结论，由于使用transformers作为骨干网络和我们基于注意力的CASCADE解码器，PVT-CASCADE继承了transformers，CNN和注意力的优点，这使得它们对于看不见的数据集具有高度的可推广性骰子Miou骰子Miou骰子Miou骰子Miou骰子MiouUNet [24]71.062.782.375.581.874.651.244.439.833.5UNet++[37]70.762.479.472.982.174.348.341.040.134.4PraNet [10]87.179.789.984.989.884.071.264.062.856.7UACANet-L [18]88.2180.8491.0786.790.8385.9572.5765.4163.8956.87[30]第三十话89.4682.6892.8888.2791.1186.0179.3470.6378.0370.1PolypPVT [8]88.7181.8993.0888.2891.2386.380.7571.8578.6770.97PVT-CASCADE（我们的）90.4783.7994.3489.9892.5887.7682.5474.5380.0772.58改进SSFormerPVT1.011.111.461.711.471.753.23.92.042.48改善PolypPVT1.761.91.261.71.351.461.792.681.41.616229图2. CASCADE与级联上采样器（CUP）功能。第一行和第二行分别表示CASCADE和CUP特征。为了公平比较，我们只为我们的CASCADE解码器放置了相似的层功能图层根据其对应的Transformer图层编号进行编号在这两种情况下，我们都使用ImageNet预训练的PVTv 2-b2主干作为编码器。9080706050403020100 5 10 15 20 25 30历元图3.多级损耗和输出聚合与单损耗和输出。我们绘制了五个测试集的平均DICE分数（即，Endoscene、CVC-ClinicDB、Kvasir、ColonDB、ETIS-LaribDB）与在六种不同的损失和输出聚合设置中的# epochs。4.4. 消融研究功能的有效增强 / 细化我们在图2中可视化了CASCADE以及级联上采样器（CUP）[3]的功能。我们计算特征图中所有通道的平均值，然后使用OpenCV-Python生成热图。从图2中可以明显看出，在我们的CASCADE中使用的注意力机制比CUP更好地帮助识别、增强和分组像素CASCADE不同部分的有效性。我们对息肉数据集进行消融研究，以评估我们提出的CASCADE解码器的不同组件的有效性。我们使用在ImageNet上预训练的相同PVTv 2- b2主干，并在所有实验中使用相同的息肉数据集实验设置。我们删除不同的模块，如AGs和CAM的级联解码器，并比较结果。从表4中可以明显看出，解码器的级联结构相对于非级联解码器提高了性能。AG和CAM模块也有助于提高性能。然而，使用AG和CAM模块在所有测试数据集中产生最佳性能。更快地学习多级损失和输出融合。我们把CAS四个阶段的损失和输出CADE解码器得到整体损失和最终分割图。图3绘制了每个时期的五个数据集的平均DICE分数。该图包含六种不同的损失和输出聚合设置，例如(add)4输出从图中可以明显看出，“4-损失（添加），4个输出”和“4-损失（平均），4个输出”在第一个时期获得74 - 75%的DICE分数，并且这些设置在5个时期内获得超过82%的另一方面，其他损失和输出聚合的DICE得分约为35 - 53%，并且这些设置在5个时期内达到71%的DICE得分我们还可以从图中看到因此，我们可以得出结论，多级损失和输出的聚合利用了有助于产生准确和高分辨率分割输出的多尺度特征。5. 结论本文提出了一种新的基于注意力的分层特征聚合解码器，它具有鲁棒的泛化能力和学习能力;这些对于医学图像分割是至关重要的。我们相信，CAS-CADE具有很大的潜力，可以提高其他医学图像分割任务中的深度学习性能。此外，实验表明，级联有效地增强了Transformer特征，并结合了像素之间的空间在Synapse多器官分割中将基线实验结果表明，CAS-CADE可以很好地定位器官或病变（例如，将HD95分数提高了9.56）。因此，我们的解码器可以进一步用于增强Transformer功能，用于一般的计算机视觉和高度概括的医疗应用。确认这项工作得到了NSF资助CNS 2007284的部分支持。1- 损耗， 1- 输出 1- 损耗， 4-输出4-损耗（添加），4-输出 4- 损耗（添加），1-输出4-损耗平均骰子分数（%）6230引用[1] 乔·格·伯纳尔，FJa vierSa'nchez，GloriaFer na´ ndez-Esparrach ， Debora Gil ， Cristina Rodr´ıguez ， andFernando Vilar in´ o.Wm-D ov a图用于结肠镜检查中准确的息肉突出显示：验证与来自物理学家的显著性图。计算机化医学成像和图形，43：99[2] 曹虎、王悦悦、陈悦、姜东升、张晓鹏、田奇、王曼宁.Swin-unet：用于医学图像分割的Unet类纯Transformer。arXiv预印本arXiv：2105.05537，2021。[3] Jieneng Chen，Yongyi Lu，Qihang Yu，Xiangde Luo，Ehsan Adeli，Yan Wang，Le Lu，Alan L Yuille，andYuyin Zhou. Transunet：Transformers为医学图像分割提供了强大的编码器。arXiv预印本arXiv：2102.04306，2021。[4] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议

下载后可阅读完整内容，剩余1页未读，立即下载