没有合适的资源?快使用搜索试试~ 我知道了~
36600全卷积变压器用于医学图像分割0Athanasios Tragakis 1 � Chaitanya Kaul 2 � Roderick Murray-Smith 2 Dirk Husmeier 101 数学和统计学,英国格拉斯哥大学,G12 8QW 2计算机科学学院,英国格拉斯哥大学,G12 8RZ0摘要0我们提出了一种新颖的变压器,能够分割不同模态的医学图像。医学图像分析的细粒度特性带来的挑战意味着变压器在其分析方面的应用仍处于初级阶段。UNet的巨大成功在于其能够理解分割任务的细粒度特性,而现有的基于变压器的模型目前还不具备这种能力。为了解决这个缺点,我们提出了全卷积变压器(FCT),它建立在卷积神经网络学习有效图像表示的已证明能力的基础上,并将其与变压器捕捉输入中的长期依赖关系的能力相结合。FCT是医学成像文献中第一个完全卷积的变压器模型。它通过两个阶段处理输入,首先从输入图像中学习提取长距离的语义依赖关系,然后学习捕捉特征的分层全局属性。FCT紧凑、准确且稳健。我们的结果表明,在多个医学图像分割数据集上,FCT在不同数据模态下的表现优于所有现有的变压器架构,而无需任何预训练。在ACDC数据集上,FCT在dice指标上的性能优于其直接竞争对手1.3%,在Synapse数据集上优于其4.4%,在Spleen数据集上优于其1.2%,在ISIC2017数据集上优于其1.1%,并且参数数量最多只有其五分之一。在ACDCPost-2017-MICCAI-Challenge在线测试集上,我们的模型在未见过的MRI测试案例上取得了新的最先进成果,优于大型集成模型以及具有更少参数的nnUNet。我们的代码、环境和模型将通过GitHub提供†。0* 相等贡献 †https://github.com/Thanos-DB/FullyConvolutionalTransformer01. 简介0医学图像分割是计算机辅助诊断的关键工具。它有助于检测和定位图像中的病变边界,从而帮助快速识别潜在的肿瘤和癌症区域。这有潜力加快诊断速度,提高检测肿瘤的可能性,并使临床医生能够更有效地利用时间,从而有助于患者的治疗结果[15]。传统上,现代医学图像分割算法被构建为对称的自上而下的编码器-解码器结构,首先将输入图像压缩(编码)成潜在空间,然后学习解码图像中感兴趣区域的位置。将中间信号的水平传播(跳跃连接)添加到这个垂直信息流中,我们得到了UNet架构,这在最近的分割算法中可能是最具影响力的飞跃。当今大多数现代分割系统要么在其流程中包含UNet,要么包含其变体之一。UNet成功的关键在于其完全卷积的特性。UNet的结构中没有估计任何非卷积可训练参数。基于卷积神经网络(CNN)的UNet模型在医学图像分割任务中在准确性和性能方面取得了巨大成功。然而,它们仍然需要进一步的改进,以真正帮助临床医生进行早期疾病诊断。卷积操作符的本质局部性是CNN的一个关键问题,因为它阻止了它们从输入图像中利用长距离的语义依赖关系。已经提出了各种方法来向CNN添加全局上下文,其中最著名的是引入注意机制,并通过扩大卷积核来增加卷积核的感受野。然而,这些方法也有各自的缺点。变压器在语言学习任务中取得了巨大的成功[31],因为它们能够处理非常长的序列依赖关系。36610它们最近被成功应用于各种视觉任务[7, 18, 21,22]。最近提出的架构,如ViT[7]在基准图像任务上超越了CNN的性能,而对ViT的许多最新改进,如CvT [36]、CCT [10]和Swin Transformer[25]则展示了Transformer模型不需要臃肿、需要大量数据,甚至可以在少量数据下超越CNN的性能。传统上,ViT风格的模型首先从图像中提取离散的、不重叠的补丁(在NLP中称为标记)。然后通过位置编码为这些补丁注入空间位置,并将该表示通过标准的Transformer层传递,以建模数据中的长距离语义依赖关系。鉴于CNN和Transformer的明显优点,我们认为医学图像分割的下一步是具有利用医学图像中长距离语义依赖关系的全卷积编码器-解码器深度学习模型。为了实现这个目标,我们提出了第一个用于医学图像分割的全卷积Transformer。我们的新颖的全卷积Transformer层是我们模型的主要构建模块。它包含两个关键组件,一个卷积注意力模块和一个全卷积宽焦点模块(见第3节)。我们将我们的贡献形式化如下:0•我们提出了第一个用于医学图像分割的全卷积Transformer,它在多个二进制和语义分割数据集上超越了所有现有的基于卷积和Transformer的架构的性能。0•我们提出了一种新颖的全卷积Transformer层,它采用卷积注意力模块学习长距离的语义上下文,然后通过多分辨率膨胀卷积和宽焦点模块创建分层的局部到全局上下文。0•通过广泛的消融研究,我们展示了我们模型的各个构建模块对模型性能的影响。02. 文献综述0早期的CNN和注意力模型:UNet[29]是第一个用于医学图像分割的CNN模型。最早将注意力模型引入医学图像分割的工作之一是通过将门控函数应用于特征从编码器传播到解码器的过程中的特征传播。0UNet [26]。像FocusNet[17]这样的方法采用了双编码器-解码器结构,其中注意力门控学习将一个UNet的解码器中的相关特征传播到下一个UNet的编码器中。将注意力机制整合到分组卷积的各个滤波组中的最早的工作之一是FocusNet++[19]。还存在许多变体的UNet,它们采用不同的残差块来增强特征提取[32, 28, 33, 20, 16]。UNet++[43]创建了嵌套的分层稠密跳跃连接路径,以减小编码器和解码器之间的语义差距。在最近的一些最有影响力的UNet变体中,nnUNet[14]能够自动适应预处理数据并选择最适合任务的最佳网络架构,无需手动干预。0Transformer模型:原始的Transformer架构[31]在自然语言处理任务中引起了革命,并迅速成为视觉理解任务的事实标准模型[7]。Transformer在视觉任务中表现良好,因为它们能够创建长距离的视觉上下文,但与CNN相比,它们无法利用图像中的空间上下文。最近的研究致力于寻找解决这一缺点的可能方法。CvT [36]、CCT [10]和SwinTransformers[25]都是为了将足够的空间上下文整合到transformers中而进行的尝试。在医学图像分割中,大多数现有研究都致力于创建混合的Transformer-CNN模型进行特征处理。类似于Attention UNet [26],UNet Transformer[27]在跳跃连接中使用多头注意力增强了CNN。第一个提出的用于医学图像分割的Transformer-CNN混合模型之一,TransUNet[5]使用一个transformer编码器馈入级联卷积解码器。类似于TransUNet,UNETR [12]和Swin UNETR[11]在编码器上使用Transformers和一个卷积解码器来构建分割图。Transfuse[40]运行双分支编码器,一个使用卷积层,另一个使用transformer层,并使用新颖的BiFusion模块组合它们的特征。然而,该模型的解码器是卷积的。0并行工作最近从创建混合Transformer-CNN模型转向改进Transformer块本身,以处理医学图像的细微差别。SwinUNet[3]是第一个提出使用纯Transformer处理医学图像的架构。这里的纯指的是图像特征仅通过Transformer层提取和处理,而无需预训练的骨干架构。DS-TransUNet[24]引入了Transformer交互融合模块以获得更好的表示。Convolutional ProjectionMulti-Head AttentionQKVPatch Embedding36620完全卷积Transformer块0卷积注意力0宽焦点0层归一化02D卷积0深度卷积02D卷积02D最大池化0扩张0卷积0FCT块0平均池化0跳跃和0连接0输出0深度监督多尺度输入0图1:用于医学图像分割的完全卷积Transformer。网络(底部)遵循标准的UNet形状,与之不同的是它完全基于卷积-Transformer。FCT层的第一个组件(顶部)是卷积注意力。在投影层中,深度卷积去除了位置编码的需求,使模型更简单。我们创建重叠的补丁,补丁重叠程度由卷积投影层的步幅控制。为了利用图像的空间上下文,我们的MHSA块将线性投影替换为深度卷积。宽焦点模块对MHSA输出应用线性增加的感受野的扩张卷积。0全局依赖性。这些模型的计算核心都是SwinTransformer块。nnFormer [42]和D-Former[37]等并行工作试图通过特殊设计的多头自注意力块在医学图像中同时利用局部和全局上下文来完成这个任务。这些模型的主要缺点是它们的注意力投影和特征处理的线性特性,而FCT旨在缓解这一问题。目前,在医学成像中,现有的分割模型都存在至少以下三个限制之一。它们要么基于CNN骨干,要么使用卷积层创建,从而限制了它们超出感受野范围获取更好的能力。0早期CNN方法尝试通过建模图像的语义上下文(早期CNN方法)来集成Transformer到它们的特征处理流程中,以利用Transformer创建长程语义上下文的能力,但同时使模型庞大和计算复杂(Transformer-CNN混合模型)。它们试图通过创建纯Transformer模型来减少这种计算负担,而不试图在低级特征提取阶段对局部空间上下文进行建模(并行工作)。与现有方法不同,我们的完全卷积Transformer在医学图像分割中不会受到这些缺点的困扰,同时仍然保持了纯Transformer架构。请参阅补充材料中的表4。The encoder of our model contains four FCTlayers responsible for feature extraction and prop-agation.For the lth transformer layer, the out-put of the Convolutional Attention module is givenas,z′l=MHSA(zl−1) + zq/k/vl−1where,zq/k/vl−1=Flatten(DepthConv(Reshape(zl−1))). The multi-headself attention (MHSA) is denoted by, MHSA(z) =softmax(36630此外,还总结了FCT与现有工作的主要区别。03. 完全卷积Transformer0给定一个数据集{X,Y},其中X是我们模型的输入图像,Y是相应的语义或二进制分割图。对于每个图像xi∈RH×W×C,其中H和W是图像的空间分辨率,C={3,...,N}是输入通道的数量,我们的模型产生一个输出分割图yi∈RH×W×K,其中K∈{1,...,D}。FCT的输入是从输入3D图像的每个切片中采样的2D补丁。我们的模型遵循熟悉的UNet形状,其中FCT层是其基本构建块。与现有方法不同,我们的模型既不是CNN-Transformer混合模型,也不是使用现成的Transformer层来编码或改进输入特征的Transformer-UNet结构。它通过首先从图像中提取重叠的补丁,然后创建基于补丁的扫描嵌入,并在这些补丁上应用多头自注意力来构建特征表示。然后,通过我们的Wide-Focus模块处理给定图像的输出投影,以提取投影中的细粒度信息。图1显示了我们网络架构的概述。03.1. FCT层0每个FCT层都以LayerNormalization-Conv-Conv-MaxPool操作开始。我们凭经验观察到,将这些连续的卷积顺序应用于具有小的3×3卷积核大小的补丁上,与直接首先创建图像的补丁投影相比,有助于更好地编码图像信息。每个卷积层后面跟着Gelu激活函数。我们的FCT块与其他提出的块不同的第一个实例是通过应用于医学图像的卷积注意力。MaxPool的输出被馈送到转换函数T(∙),将其转换为新的令牌映射。我们选择的T(∙)是Depthwise-Convolution操作符。我们选择了一个小的3×3卷积核大小,步长s×s和有效填充,以确保(1)提取的补丁与大多数现有作品不同,是重叠的,(2)卷积操作在整个输出大小上不改变。然后是LayerNormalization操作。得到的令牌映射p i +1∈ R W t × H t × C t 被展平成W t H t × Ct,创建我们的补丁嵌入输入。我们的FCT层与现有的基于transformer的医学成像方法不同的下一个实例是通过其注意力投影。所有现有的模型都采用线性位置投影进行多头自注意力(MHSA)计算。这导致transformer模型失去空间上下文,这对于图像应用非常重要。现有的方法尝试通过卷积增强来减轻这个问题,以适应图像任务。然而,这会给提出的模型增加额外的计算成本。受[36]中提出的方法的启发,我们用Depthwise-Convolutions替换MHSA块中的线性投影,以减少计算成本并从图像中获取更好的空间上下文。补丁嵌入和卷积注意力投影构成了我们的ConvolutionalAttention的组成部分。与[36]不同的是,我们注意到用LayerNormalization替换BatchNormalization有助于提高性能。此外,去除Point-wiseConvolutions可以得到一个更简单的模型,而不会丢失任何性能。Depthwise-Convolutions提供的空间上下文进一步消除了需要位置编码的必要性,位置编码用于在输入中插入空间信息并顺序跟踪每个补丁的位置,从而进一步简化了架构设计。通用的transformer层在MHSA块后面跟随线性层,因此在图像中失去了所有的空间上下文。直接用卷积替换这些线性层是一个相对简单的方法,可以减轻这个问题并提高性能。然而,医学图像需要精细的信息处理。考虑到这一点,我们采用了一个多分支卷积层,其中一层对MHSA输出应用空间卷积,而其他层则应用具有增加感受野的膨胀卷积以获得更好的空间上下文。然后,我们通过求和融合这些特征,并通过特征聚合层将它们传递。这个特征聚合是通过另一个空间卷积操作符完成的。我们称这个模块为Wide-Focus。残差连接用于增强特征在整个层中的传播。最终的特征被重新塑形并进一步传递到下一个FCT层。图1(顶部)显示了FCT层。0投影。所有现有的模型都采用线性位置投影进行多头自注意力(MHSA)计算。这导致transformer模型失去空间上下文,这对于图像应用非常重要。现有的方法尝试通过卷积增强来减轻这个问题,以适应图像任务。然而,这会给提出的模型增加额外的计算成本。受[36]中提出的方法的启发,我们用Depthwise-Convolutions替换MHSA块中的线性投影,以减少计算成本并从图像中获取更好的空间上下文。补丁嵌入和卷积注意力投影构成了我们的ConvolutionalAttention的组成部分。与[36]不同的是,我们注意到用LayerNormalization替换BatchNormalization有助于提高性能。此外,去除Point-wiseConvolutions可以得到一个更简单的模型,而不会丢失任何性能。Depthwise-Convolutions提供的空间上下文进一步消除了需要位置编码的必要性,位置编码用于在输入中插入空间信息并顺序跟踪每个补丁的位置,从而进一步简化了架构设计。通用的transformer层在MHSA块后面跟随线性层,因此在图像中失去了所有的空间上下文。直接用卷积替换这些线性层是一个相对简单的方法,可以减轻这个问题并提高性能。然而,医学图像需要精细的信息处理。考虑到这一点,我们采用了一个多分支卷积层,其中一层对MHSA输出应用空间卷积,而其他层则应用具有增加感受野的膨胀卷积以获得更好的空间上下文。然后,我们通过求和融合这些特征,并通过特征聚合层将它们传递。这个特征聚合是通过另一个空间卷积操作符完成的。我们称这个模块为Wide-Focus。残差连接用于增强特征在整个层中的传播。最终的特征被重新塑形并进一步传递到下一个FCT层。图1(顶部)显示了FCT层。03.2. 编码器0√0d ) V . z ′ l 然后由Wide-处理21778936640Focus(WF)模块为z l = WF(z l )+ z ′ l。我们进一步使用金字塔风格的图像输入来注入编码器,目的是突出显示不同的类别和不同尺度的较小ROI特征。值得注意的是,即使没有这种多尺度图像金字塔输入,我们的模型也能够实现最先进的结果。数据的(瓶颈)潜在编码是使用另一个FCT层创建的。03.3. 解码器0解码器以瓶颈表示作为输入,并学习从这些信息中重新采样二进制或语义分割图。为了在解码器层中创建更好的上下文相关性,还使用了从编码器到解码器的跳跃连接,其中来自编码器层的特征图与解码器层连接在一起。解码器的形状与编码器对称。解码器中对应于图像金字塔层的层输出中间分割图,提供额外的监督并增强模型的预测能力。首先通过上采样特征体积,然后通过FCT层传递,以学习其最佳表示,从而创建上下文相关性。我们在FCT的最低尺度上不使用深度监督,因此我们的模型不是“完全深度监督”的。这是因为我们观察到输入图像扫描中的感兴趣区域(ROIs)有时太小,无法在最低尺度(28×28)上进行分割,这导致模型性能较差。这个低尺度输出在模型中增加了一个强烈的偏差,将一些输出ROIs预测为背景类别。04. 实验0我们通过在不同模态的四个不同数据集上实现最先进的结果来展示我们模型的有效性。我们使用来自(MRI)自动心脏诊断挑战(ACDC)[2]、(CT)Synapse多器官分割挑战1、(CT)脾脏分割数据集[1]和(皮肤镜)ISIC2017[6]皮肤癌分割挑战的数据。ACDC数据集包含100个MRI扫描,包括左心室(LV)、右心室(RV)和心肌(MYO)的地面真值。我们将其划分为70-10-20的训练-验证-测试集。Synapse包含30名患者的CT扫描。我们对Synapse的实验设置和预处理与TransUNet[5]类似。脾脏分割数据集包含41个CT体积。我们对该数据集进行80-10-10的训练-验证-测试集划分。对于ISIC2017数据集,我们从2000张图像中创建了70-10-20的训练-验证-测试集。0我们使用Dice系数来衡量模型的性能。我们将所有输入图像调整为两种形状:224×224和384×384。实现细节:我们使用TensorFlow 2.0运行所有实验。我们使用一块NVIDIAA6000GPU进行所有实验。我们的损失函数是交叉熵和Dice损失的等权组合。我们使用学习率为1e-3的Adam进行训练,通过监控验证损失来降低学习率。我们在训练模型之前进行50个epoch的预热训练,然后再进行250个epoch的训练。我们的数据增强包括旋转(0°到360°)、缩放范围(最大0.2)、剪切范围(最大0.1)、水平/垂直平移(最大0.3)、水平和垂直翻转。FCT的默认设置为:每个阶段的滤波器数量为16、32、64、128、384、128、64、32、16,每个阶段的注意力头数量为2、4、8、12、16、12、8、4、2。我们在ACDC上使用批量大小为10,在Synapse、脾脏分割和ISIC2017分割上使用批量大小为4。我们从随机初始化的权重集开始训练所有模型。05. 结果0我们的模型在所有报告的基线中以更少的参数和GFLOPs实现了最先进的结果。FCT包含31.7百万参数和7.87GFLOPs。在ACDC数据集上,我们的模型的模型大小比我们最接近的竞争对手nnFormer(158.92百万,157.88GFLOPs)小五倍,优于所有现有的工作。我们在两种不同的图像尺寸上训练我们的模型以观察其对性能的影响。正如预期的那样,384×384图像尺寸的FCT比输入图像尺寸为224×224的模型实现了更好的结果,因为增加的空间分辨率使模型能够更清楚地看到图像中的细节。我们还测试了在每个尺度上具有深度监督与不使用深度监督相比对我们模型的影响。表2总结了我们在ACDC数据集上的结果。它还显示了我们使用的深度监督设置是我们模型的最佳设置。为了证明我们结果的统计显著性,我们还使用ACDC数据集进行了5倍交叉验证(CV)并计算p值,以显示我们的结果明显优于nnFormer。我们在这些实验中使用FCT224。使用5倍CV,我们得到了92.43±0.38的平均dice分数。然后我们在ACDC数据集上运行我们的实验5次并对它们进行平均,得到92.88±0.09的dice分数。这两个结果都是该数据集的最先进结果。与nnFormer(91.78±0.18)相比,我们得到p<0.0001。36650图2:不同分割数据集上的定性结果。从上到下依次为ACDC分割数据集[颜色-褐红色(LV),蓝色(RV),绿色(MYO)],脾脏分割数据集[颜色-蓝色(脾脏)],突触分割数据集[颜色-蓝色(主动脉),紫色(胆囊),海军蓝(左肾),水色(右肾),绿色(肝脏),黄色(胰腺),红色(脾脏),褐红色(胃)]和ISIC2017皮肤癌分割数据集[颜色-蓝色(皮肤癌)]。图像在真实标注和FCT预测的分割图之间交替显示。最佳观看效果为彩色显示。0在这两种情况下,我们的结果具有统计学上的显著性。0我们主要与TransUNet [5]、LeViT-UNet [39]和Swin UNet[3]在Synapse数据集上进行比较,因为我们使用了与这些模型相同的划分和预处理,这表明性能的提高是由于所提出模型的优越性。我们在所有三个模型上都取得了显著的优势,证明了我们的模型作为多图谱语义分割任务的优越骨干的能力。TransUNet和LeVit-UNet在其架构中都使用了ViT-12骨干,因此包含约1亿个参数(约49GFLOPs)。我们的结果总结在表3中。0我们还在两个二值分割任务上取得了最先进的结果,脾脏分割(附录表1)和ISIC2017分割(附录表2)。在脾脏分割任务上,我们的模型优于最近提出的基准模型。0与SETR [41]、CoTr [38]和TransUNet[5]等模型相比,我们的模型在Dice指标上提高了1.2%以上,而参数数量明显较少。在ISIC2017数据集上,我们的模型在皮肤癌分割任务上的Dice指标比最近提出的面向该任务的Boundary Aware (BA)Transformer[35]高出1.1%。我们还评估了模型的灵敏度(真阳性率),因为它是模型准确分割癌症边界能力的良好估计。在ISIC2017数据集上训练的模型往往具有较高的特异性但较低的灵敏度,因此我们在这里考虑后者。我们的Wide-Focus模块能够有效准确地捕捉不同卷积感受野的分层特征信息,这是我们在消融研究中观察到的。图2展示了我们模型的定性结果。0ACDC2017年后MICCAI在线测试集结果。我们在FCT上进行训练(3170万参数)。MLP-91.2990.588.395.1Conv1D1 (D=1)91.4991.288.494.9Conv1D2 (D=1,2)91.3490.588.495.1Conv1D3 (D=1,2,3)91.4190.288.895.3Conv1D4 (D=1,2,3,4)91.6791.188.895.1Conv2D1 (D=1)91.9991.389.195.5Conv2D2 (D=1,2)91.6190.988.895.1Conv2D3 (D=1,2,3)92.1191.689.395.5Conv2D4 (D=1,2,3,4)91.6590.689.195.2Conv2D2 (k=3,4)91.4790.488.895.2R50 UNet [29]87.5587.1080.6394.92R50 Att-UNet [26]86.7587.5879.2093.47ViT [7]81.4581.4670.7192.18R50 ViT [7]87.5786.0781.8894.75TransUNet [5]89.7188.8684.5395.73Swin UNet [3]90.0088.5585.6295.83LeVit-UNet384 [39]90.3289.5587.6493.76nnUNet [14]91.6190.2489.2495.36nnFormer [42]91.7890.2289.5395.592https://acdc.creatis.insa-lyon.fr/#submission/62f8e74b6a3c7704c25c679f3https://acdc.creatis.insa-lyon.fr/description/results.html36660头部分支 平均 RV MYO LV0表1:消融研究以确定我们的Wide-Focus模块的最佳配置。这些消融使用FCT224(具有16.1百万参数)。D表示扩张率,k表示卷积核大小。0方法 平均 RV MYO LV0FCT 224 无下采样 91.49 90.32 89.00 95.17 FCT 224全下采样 91.49 90.49 88.76 95.23 FCT 224 92.84 92.0290.61 95.89 FCT 384 93.02 92.64 90.51 95.900表2:ACDC数据集上的分割结果。我们的模型的结果报告在两种不同的输入图像尺寸上。D.S.代表深度监督。FullD.S.是在每个输入尺度上应用D.S.的情况。0数据集中的100张图像用于ACDC挑战赛,并且我们的结果报告在50个未见过的测试样例上,这些样例没有提供地面真值掩膜。我们在512×512的输入图像上训练我们的模型。为了考虑数据集中图像尺寸的变化,我们裁剪和平铺图像以获得512×512的分辨率,并对掩膜应用相同的增强。为了生成最终的预测,我们通过对平铺的预测进行平均来去除由平铺引起的额外预测,以创建最终的输出。我们按照第4节中所述训练该模型。我们的结果的链接可在网上找到,并可与以前的最先进结果进行比较。表4总结了该结果0与我们的结果进行比较的前五个提交(附录材料的表5显示了所有类别的详细结果)。我们取平均值提供平均值,但详细的包含完整结果的表格可以在提供的链接中找到。06. 消融研究0我们主要通过消融实验研究了两个关键组件对我们模型性能的影响:从编码器到解码器的跳跃连接的移除,R50 UNet [5]74.6884.1862.8479.1971.2993.3548.2384.4173.92R50 Att-Unet [5]75.5755.9263.9179.2072.7193.5649.3787.1974.95TransUNet [5]77.4887.2363.1381.8777.0294.0855.8685.0875.62TransClaw UNet [4]78.0985.8761.3884.8379.3694.2857.6587.7473.55LeVit-UNet384 [39]78.5387.3362.2384.6180.2593.1159.0788.8672.76MT-UNet [34]78.5987.9264.9981.4777.2993.0659.4687.7576.81Swin UNet [3]79.1385.4766.5383.2879.6194.2956.5890.6676.60FCT22483.5389.8572.7388.4586.6095.6266.2589.7779.42Mahendra Khened [23]91.37Georgios Simantiris [30]91.92Kibrom Girum [8]91.93Fabian Isensee [13]92.95Fumin Guo [9]93.02FCT51293.1336670方法 平均 主动脉 胆囊 左肾0右肾0肝脏 胰腺 脾脏 胃0表3:Synapse数据集上的分割结果。Kid.代表肾脏,Panc.代表胰腺,Spl.代表脾脏,Stom.代表胃。报告Dice系数。0方法 平均0表4:ACDCPost-2017-MICCAI在线排行榜上的前5个结果。本实验使用了具有31.7百万参数的FCT512。Avg.代表平均Dice系数。0以及我们的新颖的Wide-Focus模块的不同设置。我们在ACDC数据集上进行了消融实验。跳跃连接对我们模型的性能非常重要(参见附录材料的表3),最佳设置类似于原始的UNet[29]。为了创建我们的Wide-Focus模块的最佳设置(参见表1),我们观察了更宽的卷积分支和更大的扩张率对我们模型性能的影响。我们观察到,在线性增加的扩张率下超过三个卷积分支后,模型的准确性开始饱和甚至下降。我们认为这是因为扩张卷积核在更深层次无法近似全局卷积核,导致扩张感受野丢失关键特征信息。这也与我们的发现一致,即FCT块中较小的卷积核可以提高性能。07. 结论0我们提出了完全卷积变换器,能够准确地执行二进制和0FCT在参数数量上比现有模型的nnFormer小五倍以上,比TransUNet和LeViT-UNet小三倍以上。FCT层由两个关键组件组成-卷积注意力和广角。卷积注意力通过使用深度卷积在模型的补丁创建阶段创建重叠补丁,从而消除了在位置编码中的需求。我们基于深度卷积的MHSA块首次在医学成像环境中集成了空间信息以估计远程语义依赖关系。广角通过我们的消融实验证明,有助于利用医学图像中存在的细粒度特征信息,并且是提高我们变压器块性能的重要因素。我们通过在多个高度竞争的分割数据集上展示了我们模型的能力,取得了最先进的结果,这些数据集具有不同的模态和尺寸。我们的FCT块是首个用于医学成像应用的完全卷积变压器块,可以轻松扩展到医学成像的其他领域和应用。我们相信我们的模型可以成为未来分割任务的有效骨干,并为基于变压器的医学图像处理的创新铺平道路。0致谢0C.K.和R.M-S.得到了英国研究与创新局(UKRI)项目104690的支持,该项目由InnovateUK资助,并得到了EPSRC资助的EP/M01326X/1号项目QuantIC的支持。R.M-S.和D.H.还得到了EPSRC资助的EP/R018634/1号项目Closed-loop DataScience的支持。D.H.还得到了EPSRC资助的EP/T017899/1号项目的支持。36680参考文献0[1] Michela Antonelli,Annika Reinke,Spyridon Bakas,KeyvanFarahani,Bennett A Landman,Geert Litjens,BjoernMenze,Olaf Ronneberger,Ronald M Summers,Bram vanGinneken等。医学分割十项全能。arXiv预印本arXiv:2106.05735,2021年。0[2] Olivier et al.Bernard。用于自动MRI心脏多结构分割和诊断的深度学习技术:问题解决了吗?《IEEE医学成像交易》,37(11):2514-2525,2018年。0[3] Hu Cao,Yueyue Wang,Joy Chen,DongshengJiang,Xiaopeng Zhang,Qi Tian和ManningWang。SwinUNet:用于医学图像分割的类Unet纯变压器。arXiv预印本arXiv:2105.05537,2021年。0[4] Yao Chang,Hu Menghan,Zhai Guangtao和ZhangXiao-Ping。TransclawU-Net:带有变压器的爪U-Net用于医学图像分割。arXiv预印本arXiv:2107.05188,2021年。0[5] Jieneng Chen,Yongyi Lu,Qihang Yu,XiangdeLuo,Ehsan Adeli,Yan Wang,Le Lu,Alan L Yuille和YuyinZhou。TransUNet:变压器为医学图像分割提供强大的编码器。arXiv预印本arXiv:2102.04306,2021年。0[6] Noel CF Codella,David Gutman,M Emre Celebi,BrianHelba,Michael A Marchetti,Stephen W Dusza,AadiKalloo,Konstantinos Liopyris,Nabin Mishra,HaraldKittler等。皮肤病变分析用于黑色素瘤检测:2017年国际生物医学成像研讨会(ISBI)的挑战,由国际皮肤成像合作组织(ISIC)主办。在《2018年IEEE第15届国际生物医学成像研讨会(ISBI2018)》中,第168-172页。IEEE,2018年。0[7] Alexey Dosovitskiy,Lucas Beyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner,Mostafa Dehghani,MatthiasMinderer,Georg Heigold,SylvainGelly等。一张图值16x16个单词:大规模图像识别的变压器。arXiv预印本arXiv:2010.11929,2020年。0[8] Kibrom Berihu Girum, Youssef Skandarani, RaabidHussain, Alexis Bozorg Grayeli, Gilles Cr´ehange, and AlainLalande.使用深度卷积网络从延迟增强心脏MRI中自动评估心肌梗死。在《心脏的统计图谱和计算模型国际研讨会》中,第378-384页。Springer,2020年。0[9] Fumin Guo,Matthew Ng,Maged Goubran,Steffen E.Petersen,Stefan K. Piechnik,Stefan Neubauer和GrahamWright。改进基于小训练数据集和数据集偏移的心脏MRI卷积神经网络分割:连续核切割方法。《医学图像分析》,61:101636,2020年。0[10] Ali Hassani,Steven Walton,Nikhil Shah,AbulikemuAbuduweili,Jiachen Li和HumphreyShi。用紧凑的Transformer逃离大数据范式。2021年。0[11] Ali Hatamizadeh,Vishwesh Nath,Yucheng Tang,DongYang,Holger Roth和Daguang Xu。SwinUNETR:用于MRI图像中脑肿瘤语义分割的Swin变换器。arXiv预印本arXiv:2201.01266,2022年。0[12] Ali Hatamizadeh,Yucheng Tang,Vishwesh Nath,DongYang,Andriy Myronenko,Bennett Landman,Holger RRoth和DaguangXu。UNETR:用于3D医学图像分割的变换器。在《IEEE /CVF冬季计算机视觉应用会议》上的论文集,页码为574-584,2022年。0[13] Fabian Isensee,Paul F Jaeger,Peter M Full,IvoWolf,Sandy Engelhardt和Klaus HMaier-Hein。通过时间序列分割和领域特定特征自动评估Cine-MRI上的心脏疾病。在《统计心脏图谱和计算模型国际研讨会》中,页码为120-129。Springer,2017年。0[14] Fabian Isensee,Paul F Jaeger,Simon AA Kohl,JensPetersen和Klaus HMaier-Hein
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功