没有合适的资源?快使用搜索试试~ 我知道了~
6202HiFormer:用于医学图像分割的Moein Heidari*,1Amirhossein Kazerouni*,1 Milad Soltany*,1 RezaAzad2 Ehsan Khodapanah Aghdam3Julien Cohen-Adad4 DoritMerhof†,5,61伊朗科技大学电气工程学院,伊朗德黑兰2亚琛工业大学成像与计算机视觉学院,德国亚琛3沙希德·贝赫什蒂大学电气工程系,伊朗4MILA,Quebec AI Institute,Montreal,Canada5德国雷根斯堡大学信息与数据科学学院6弗劳恩霍夫数字医学研究所MEVIS,不来梅,德国moeinheidari@elec.iust.ac.ir,{amirhossein477,soltany.m.99,ehsan.khpaghdam}@gmail.comazad@lfb.rwth-aachen.de,jcohen@polymtl.ca,dorit. ur.de摘要卷积神经网络(CNN)已成为医学图像分割任务的共识。然而,由于卷积运算的性质,它们在建模长范围 依 赖 性 和 空 间 相 关 性 方 面 受 到 限 制 。 虽 然transformers最初是为了解决这个问题而开发的,但它们无法捕获低级功能。与此相反,它表明,局部和全局功能是至关重要的密集预测,如分割在具有挑战性的上下文中。在本文中,我们提出了HiFormer,这是一种有效地桥接CNN和Transformer用于医学图像分割的新方法。具体来说,我们设计了两个多尺度特征表示使用的开创性Swin Transformer模块和基于CNN的编码器。为了确保从上述两种表示中获得的全局和局部特征的精细融合在各种医学图像分割数据集上的广泛实验证明了HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、基于变换器和混合方法的有效性我们的代码在GitHub上公开。1. 介绍医学图像分割是计算机视觉中的主要挑战之一,它提供了有关详细解剖所需区域的有价值的信息。*同等贡献†通讯作者分析.这些信息可以极大地帮助医生描述损伤、监测疾病进展和评估适当治疗的需求。随着医学图像分析的日益使用,高精度和鲁棒性的分割变得越来越重要。卷积神经网络(CNN)具有提取图像特征的能力,已被广泛用于不同的图像分割任务。随着基于编码器-解码器的网络的兴起,如全卷积网络(FCN)[36],U形结构,例如,U-Net [41]及其变体,CNN在医学图像分割任务中取得了显著的成功。在这两种结构中,采用跳过连接来分别体现由编码器和解码器路径提供的高级和细粒度特征尽管CNN模型在各种计算机视觉任务中取得了成功,但由于其有限的感受野和固有的归纳偏差,其性能受到限制[19,4]。 上述原因阻止了CNN在图像中构建全局上下文和长距离依赖关系,因此限制了它们在图像分割中的性能。最近,受自然语言处理(NLP)[47]中transformer的杰出成功的激励,已经开发了视觉变换器来减轻CNN在图像识别任务中的缺点[19]。转换器主要利用多头自注意(MSA)机制,该机制可以有效地构建令牌序列之间的长距离依赖关系并捕获全局上下文。vanillavision Transformer[19]表现出与基于CNN的方法相当的性能,但需要大量的数据来概括并承受二次复杂度。有几种方法6203···已被提出来解决这些限制。DeiT[44]提出了一种有效的知识蒸馏训练方案,以克服视觉变换器需要大量数据来学习的困难Swin Transformer[35]和pyramid visionTransformer[48]试图分别通过利用基于窗口的注意力和空间减少注意力来降低视觉变换器此外,多尺度特征表示最近在视觉变换器中表现出强大的性能CrossViT[12]提出了一种新颖的双分支Transformer架构,可提取多尺度上下文信息,并为图像 分 类 提 供 更 细 粒 度 的 特 征 表 示 。 类 似 地 , DS-TransUNet[33]提出了一种双分支Swin Transformer,用于在编码器中捕获不同的语义尺度信息,以执行医学图像分割任务HRViT[23]将多分支高分辨率架构与视觉变换器连接起来,用于语义分割。因此,这样的结构可以有效地帮助增强令牌之间的远程关系的建模尽管视觉变换器具有对全局上下文表征进行建模的能力,但自我注意机制导致丢失低级别特征。已经提出了混合CNN- Transformer方法,通过利用CNN的局部性和transformer的长程依赖特性来编码全局和局部特征,特别是医学图像分割中的transUnet[13]和LeVit-Unet[52],来缓解然而,这些方法有一些障碍,阻止他们获得更高的性能:1)它们不能在保持特征一致性的同时有效地组合低级和高级特征,以及2)它们不能适当地使用由分级编码器产生的多尺度信息。在本文中,我们提出了一种新的基于CNN变换器的编码器-解码器框架,该框架有效地利用了变换器的全局长范围关系和CNN的局部特征表示,以实现准确的医学图像分割任务。编码器包括三个模块:两个分层CNN 和 Swin Transformer 模 块 和 DLF 模 块 。 SwinTransformer和CNN模块均包含三个级别。首先,将输入图像馈送到CNN模块中以学习其局部语义表示。为了弥补全局表示的不足,Swin Transformer模块被应用于CNN的浅层特征之上,以捕获长程依赖关系。接下来,利用具有不同窗口大小的Swin Transformer模块的金字塔来学习多尺度交互。为了鼓励特征的可重用性并提供本地化信息,设计了跳过连接模块来将CNN最小和最大金字塔等级的结果表示为进入DLF模块。新提出的DLF模块是一个多尺度视觉Transformer,它使用交叉注意机制融合两个获得的特征图。最后,两个重新校准的特征图都被传递到解码器块中以产生最终的分割掩模。我们提出的HiFormer不仅解决了上述问题,而且在不同的评价指标方面超越了所有同行。我们的主要贡献:一种新的混合方法,它融合了Transformer的远程上下文交互和CNN的局部语义信息。一个DLF模块,用于在粗粒度和细粒度特征表示之间建立有效的特征融合。在医学图像分割数据集上的实验结果表明了该方法2. 相关作品2.1. 基于CNN的分割网络卷积神经网络被认为是不同计算机视觉任务的事实标准。CNN取得优异结果的一个领域是图像分割,其中将类别标签分配给每个像素。Long等人。[36]表明,完全卷积网络(FCN)可以用于分割没有完全连接层的图像。考虑到卷积层顺序堆叠的vanilla FCNs的输出通常很粗糙,因此提出了其他模型来融合不同层的输出[6,39,41]。已经引入了几种方法来改善FCN的有限接收场,包括扩张卷积[14,54]和上下文建模[56,15]。CNN模型在医学成像任务中表现出出色的性能。在引入U-net[41]之后,其他研究人员专注于利用U形编码器-解码器结构。在[46]中,用U-net扩充了过完备网络,在U-net ++[57]中,通过在模块之间添加密集跳过连接来重新设计编码器-解码器架构该结构已被进一步改进并用于不同的医学领域[8,30,21,5]。2.2. 视觉变形金刚在NLP [47]中转换器的显着成功之后,Dosovitskiy等人。[19]提出了视觉转换器(ViT),它通过采用自我注意机制来学习全局信息,在图像分类任务上实现了最先进的性能。已经引入了视觉变换器的几个衍生物,以使它们更有效,更少地依赖于大型数据集来实现泛化[44,55,51]。此外,人们还提出了许多方法,主要集中在多尺度表示上,通过从不同尺度上提取信息来提高精度和效率。灵感来自CNN中的金字塔结构6204∈××[38,53,9,34],PVT[48]是第一个引入的金字塔视觉Transformer。后来,Swin Transformer[35]提出了一种分层视觉transformer Transformer,它使用一种有效的 移 位 窗 口 方 法 来 计 算 局 部 的 自 我 注 意 力 。CrossViT[12]建议使用双分支视觉变换器,然后使用交叉注意模块,以在线性时间内执行更丰富的特征表示视觉转换器在其他视觉任务中也表现出令人印象深刻的结果,包括[58,20],它提供了用于对象检测的端到端基于转换器的模型,以及[43,24]用于语义和实例分割。2.3. 尽管CNN模型的结果令人鼓舞,但由于其有限的感受野,这种方法通常表现出对长距离依赖性建模的限制,从而产生较弱的性能。最近,基于Transformer的模型在医学图像分割中比CNN模型获得了显著的普及。Swin-UNet[10]和DS-TransUNet[33]提出了纯Transformer模型,该模型具有基于Swin Transformer的U形架构,用于2D分割。除了完全变换器模型之外,TransUNet[13]还利用CNN和变换器来捕获低级和高级特征。UNETR[27]使用基于变换的编码器来嵌入输入3D补丁,并使用基于CNN的解码器来实现最终的3D分割结果。大多数先前的作品利用CNN,缺乏全局特征,或变压器,限制在局部特征表示的特征提取;这使得不包含丰富信息的无效特征图在混合作品中,采用简单的特征融合机制,不能保证不同尺度之间的特征一致性。受多尺度表示的驱动,我们提出了HiFormer,一种基于CNN变换器的架构,有效地整合了全局和局部信息,并利用一种新的基于变换器的融合方案来保持2D医学图像细分3. 方法本节概述了申报的HiFormer。如示于图1a,我们提出的架构提供了一个端到端的训练策略,该策略集成了来自Swin Transformer的全局上下文表示和来自编码器中CNN模块的局部代表特征。然后使用双层融合模块(DLF)获得更丰富的特征表示之后,解码器输出最终分割图。3.1. 编码器如图1a,所提出的编码器由两个分层模型CNN和Swin Transformer组成,具有丰 富 检 索 特 征 的DLF模块并准备将它们馈送到解码器中。由于分别使用CNN或transformers会导致局部或全局特征被忽略,这会影响模型的性能,因此我们首先利用CNN的局部特性来获得局部特征。在这里,CNN和Swin Transformer各自包括三个不同的级别。我们通过一个跳跃连接将每一层的局部特征转移到相应的Swin Transformer然后,将每个传输的CNN级别与其并行Transformer级别相加,并通过Patch Merg- ing模块以产生分层表示(见图2)。1a)。我们利用分层设计,以利用多尺度表示。最大和最小的级别进入DLF模块,以交换来自不同尺度的信息并生成更强大的功能。在下面,我们将深入详细地讨论我们的CNN,Swin Trans- former和DLF模块。3.1.1CNN模块所提出的编码器开始采用CNN作为特征提取器来构建不同分辨率的中间CNN特征图取一个空间维度为H和W的输入图像X R H× W× C,以及C个通道,首先将其送入CNN模块。 CNN模块由三个级别组成,使用Conv将跳过连接连接到关联的Transformer级别11来补偿变压器的低级别丢失信息并恢复局部空间信息。3.1.2Swin Transformer模块普通Transformer编码器块[19]由两个主要模块组成:多头自注意(MSA)和多层感知器(MLP)。普通Transformer由N个相同的Transformer编码器块组成。在每个块中,在MSA和MLP 块之前,应用层规范(LN)。此外,激活的副本也通过跳过连接添加到MSA或MLP块的输出。使用标准MSA的vanilla ViT的一个主要问题是其二次复杂性,使得其对于高分辨率计算机视觉任务(如图像分割)效率低下为了克服这一限制,Swin Transformer[10]引入了W- MSA和SW-MSA。Swin Transformer 模 块 包 括 两 个 连 续 的 改 进 的Transformer块;用基于窗口的多头自注意(W-MSA)和基于移位窗口的多头自注意(SW-MSA)替换MSA块。在W-MSA模块中,自注意力将应用于大小为M M的局部窗口。W-MSA模具有线性复杂度;然而,由于没有跨窗口的连接,它的建模能力有限。为了缓解这一问题,引入了SW-MSA,它利用了与W-MSA模块的输入相比移位的窗口配置;这是为了确保我们具有跨窗口连接。此过程描述于6205.. ΣΣl llz=MLPLNz+z,.. ΣΣ×××∈∈Zs = [Ps,y′s]伊希斯(.)的CLS的[CLS′,P]SL伊希斯[Ps,CLS][P](a)(b)第(1)款图1:(a)拟议的HiFormer概览。HiFormer由一个分层CNN变换器特征提取器模块组成;第一级和最后一级的输出通过DLF特征融合模块馈送之后,解码器使用DLF的输出来生成准确的在图中,蓝色和橙色块分别表示SwinTransformer和CNN级别。(b)交叉注意的概述。小级别的类标记CLSs首先被投影用于维度对齐,然后被附加到Pl。结果嵌入作为键和值执行。此外,CLS被用于查询。最后,在计算注意力和反向投影之后,得到Zs。这个过程也可以扩展到大的层次。等式1.zl=W-MSA。LN.zl−1ΣΣ+zl−1,zl+l=SW-MSALNzl+zl,z1+ 1=MLP。LN.zl+1l+zl+1,(1)它们之间的一致性,导致性能不佳。因此,我们提出了一种新的双层融合(DLF)模块,它将得到的最小(Ps)和最大(PI)水平作为输入,并采用交叉注意机制来融合跨尺度的信息。一般来说,浅层次具有更好的本地化信息,当我们接近更深层次时,语义信息CNN金字塔中的第一级的输出将被馈送到11卷积中以生成长度为D'的(H/4W/4)块(令牌)。 这些补丁经过第一个Swin Transformer块,生成第一个基于注意力的特征图。跳过连接将先前激活添加到所获得的特征图,从而产生最大分支特征图P1。其次,采用拼接技术,将2 ~2组相邻图像拼接在一起,采用线性分层,在降低分辨率的同时,将图像的嵌入维数从D′增加到2D′类似地,CNN和基于注意力的特征图两者的更高级特征图被融合并馈送到SwinTransformer块中以生成更高级输出。后者被称为Ps,最小级别的特征图。3.1.3双级融合模块(DLF)信息变得更加普遍并且更适合于解码器部分。面对计算量大、中间层特征映射对模型精度影响不大的困境,为了节省计算量,在特征融合中没有考虑使用中间层特征映射。因此,我们鼓励通过多尺度最浅(Ps)和最后(PI)的水平,同时保留本地化信息的表示。在提出的DLF模块中,类标记起着重要的作用,因为它总结了所有的输入特征的信息我们为每个级别分配一个类令牌,该令牌来自该级别规范上的全局平均池(GAP)。我们获得类令牌,如下所示:CLSs=GAP(标准(Ps))主要的挑战是有效地融合CNN和Swin Transformer级别的特征,同时保留特征一致性。CLS1=GAP(Norm(P1))(二)tency.一种直接的方法是通过解码器直接馈送CNN水平的总和及其匹配的Swin变换器水平,并获得分割图。然而,这种方法不能确保特征其中CL SsR4D′×1和CL SlRD′×1。类为kens然后与相关的级别嵌入连接,在被传递到Transformer编码器之前。小电平后接S,大电平后接LTransformerConvUp������������1 × 1���������������������/× 6������������������������/ConvUp转换块补丁合并Ps������������1 × 1���������������/× 2���������������/Pl补丁合并间隙Transformer������������1 × 1A/D×A/D,D× 2������������/Transformer间隙���×��� ×3编码器×编码器交叉注意编码器×编码器DLF模块分段负责人6206××××××∼ × ∼ ×∼×∼用于计算全局自我注意力的编码器。值得注意的是,我们还为两个级别的每个令牌添加了一个可学习的位置嵌入,然后将它们交给Transformer编码器以学习位置信息。在通过Transformer编码器传递嵌入之后,使用交叉注意模块融合每个级别的特征。具体地,在融合之前,两个级别的类令牌被交换,这意味着一个级别的类令牌与另一个级别的令牌连接。然后,每个新的嵌入被单独馈送通过模块进行融合,并最终返回到其自己的水平。与其他级别令牌的这种交互使得类令牌能够与它们的跨级别共享丰富的信息。特别地,对于小水平的这种位移示于图1中。1b. f s(. )首先将CLSs投影到Pl的维数上,输出记为CLSs。CLS与Pl连接起来作为键和值,独立地执行计算注意力的查询。以来我们只查询类标记,交叉注意机制在线性时间内操作。最终输出Zs可以用数学公式表示如下:ys=fs(CLSs)+MCA(LN([fs(CLSs)||P|]))Zs=[Psgs(ys)](3)3.2. 解码器受语义FPN[31]的启发,我们设计了一个解码器,该解码器将Ps和Pl级别的特征组合成一个uni-600人测试此外,我们采用ISIC 2018[17]并遵循文献工作[1,2]将数据集相应地划分为训练集,验证集和测试集此外,使用PH2数据集[37],介绍了用于分割和分类任务的皮肤镜图像数据库多发性骨髓瘤分割:我们还评估了我们在SegPC 2021提供的多发性骨髓瘤细胞分割重大挑战方面的方法[25,26]。挑战数据集包括具有290个样本的训练集以及分别具有200个和277个样本的验证集和测试集。4.2.实现细节我们在PyTorch中实现了我们的框架,并在具有24GB内存的单个Nvidia RTX 3090 GPU上进行了输入图像大小为224 224,我们在训练、重新训练期间将批量大小和学习率设置为10和0.01。此外,我们使用在ImageNet上为CNN和Swin Transformer模块预训练的权重来初始化它们的参数。我们的模型使用SGD优化器进行优化此外,在训练期间采用诸如翻转和旋转的数据增强以提高多样性。表1描述了建议模型表1:拟定的模型配置。 WS表示窗口大小,D′表示嵌入维数,r表示变换器块中使用的MLP扩展比。DLF模块中的磁头数量对于两个级别是相同的。fied mask功能。一、低分辨率和高分辨率的特点从DLF模块接收映射Ps和Pl。Ps(H/16,W/16)后面是ConvUp块,它应用两个阶段的3 3Conv,2双线性上采样,Group Norm[50]和 ReLU以获得(H/4,W/4)分辨率。Pl(H/4,W/4)之后还有一个Conv Block,它采用3× 3Conv、Group Norm和ReLU,并保持在(H/4,W/4)分辨率。经处理的Ps和Pl两者的总和通过另一ConvUp块前进以实现最终统一的Hff特征图。在将获取的特征图通过分割头中的3× 3Conv之后,生成最终的分割图。4. 实验4.1. 数据集突触多器官分割:首先,我们评估了HiFormer在基准突触多器官分割数据集上的性能[11]。该数据集包括30例患者的3779张腹部轴位临床CT图像,每个CT体积涉及85198个512 512像素的切片,体素空间分辨率为([0. 540 54] [0. 980 98] [2. 5个5. 0])mm3。皮肤病变分割:我们在皮肤病变分割数据集上进行了广泛的实验。具体而言,我们利用ISIC 2017数据集[18],包括2000张皮肤镜图像用于训练,150张用于验证,4.3. 评价结果我们在每个实验中采用了特定任务的评价指标。具体而言,这些指标包括Dice评分、95% Hausdorff距离(HD)、灵敏度和特异性、准确度和mIOU。为了确保不偏不倚的比较,我们对比了HiFormer与CNN和基于变换器的方法,以及在两者的融合上制定的模型。4.3.1突触多器官分割的结果在八个腹部器官的平均Dice相似系数(DSC)和平均Hausdorff距离(HD)方面,该提议与先前最先进(SOTA)方法的比较如表2所示。HiFormer的性能远远优于基于CNN的SOTA方法。与其他基于transformer的模型相比,我们的HiFormer-B在两个评估指标上都显示出卓越的学习能力,观察到增加了2。91%,1。26%的骰子得分和减少16。99和6。平均HD85分别与TransUnet和Swin-Unet进行比较。反creately,HiFormer稳步击败文学作品在模型CNND′Swin Transformer#层头部数量WS尺寸PsP lDLFSLR# 头HiFormer-SResNet3496 [2,2,6][3,6,12]7384961113HiFormer-BResNet5096 [2,2,6][3,6,12]73849621266207主动脉胆囊左肾右肾肝胰腺脾胃(a) Ground Truth(b)Unet(c)LeVit-Unet(d)Trans-Unet(e)Swin-Unet(f)HiFormer-S(g)HiFormer-B(h)HiFormer-L图2:所提出的方法在Synapse数据集上的分割结果。红色矩形标识器官区域,其中可以清楚地看到我们所提出的方法的优越性。大多数器官的分割,特别是胃、肾和肝的分割。可以观察到,Hi-Former在平均HD方面比其他方法具有明显的优势此外,在表2中示出了根据参数数量的效率,这将在以下部分中讨论图中给出了结果的一个特征定性例子。二、我们已经观察到,所提出的方法可以准确地分割精细和复杂的结构,并输出更准确的分割结果,这是更强大的复杂背景。4.3.2皮肤病变分割ISIC 2017、ISIC 2018和PH2皮肤病变分割任务的基准与引导方法的比较结果见表3。 我们的HiFormer性能比其他竞争对手好得多。大部分评价指标。具体而言,Hi-Former在不同数据集上的优越性突出了其令人满意的泛化能力。我们还在图中显示了皮肤病变分割结果结果表明,该方法能够捕获更精细的结构,生成更精确的轮廓。具体而言,如图1所示。3,我们的方法在边界区域的性能优于混合方法,如TMU-Net [40]。此外,在图中显示。3,与纯基于变换器的方法(如Swin-Unet [10])相比,HiFormer对噪声项具有鲁棒性,其中由于缺乏局部建模,性能会降低。优越的性能是通过Transformer和CNN的有利组合来实现的,用于建模全局关系和局部表示。4.3.3多发性骨髓瘤分割在表4中,我们包括了基于平均IoU指标的结果。HiFormer结构在我们测试的所有配置中始终优于挑战领先板。此外,一些分割输出的建议Hi- Former图中示出。4.第一章如图所示,我们的预测很好地适应了所提供的GT掩码。HiFormer的主要优势之一是能够模拟多尺度表示。它抑制了背景噪声,这是背景高度重叠的数据集(如SegPC)。简单地说,HiFormer超过了基于CNN的方法,仅具有局部信息建模能力和基于transformer的对应方法,这使得边界区域的性能较差4.4. 模型参数在第五章中,我们比较了我们提出的方法和医学图像分割模型的参数数目。我们的轻量级HiFormer在模型复杂性方面表现出极大的优越性,同时与文献作品相比,获得了卓越5. 消融研究不同CNN主干的比较 我们首先研究了不同CNN骨干的贡献。具体来说,我们采用ResNet[28]和DenseNet[29]的变体作为卷积架构的两种现有技术。如表7所示,利用ResNet主干可以获得最佳性能。此外,我们已经看到,更大的CNN骨干并不一定会带来性能提升(见表7中的第3行和第4行),这让我们了解到使用ResNet50架构作为默认架构。DLF模块的影响。接下来,我们评估DLF模块对分割性能的重要性。表6中报告的实验结果揭示了DLF模块在编码和解码过程期间的不可忽略的作用。具体而言,DLF模块分别为骰子得分和HD带来显著改善(3.24%和2.18%)通过交叉注意机制,DLF模块帮助网 络 整 合 全 局 和 局 部 特 征 。 结 果 表 明 , CNN 和Transformer的快速组合有助于靶病变的分割。此外,补充材料(SM)中提供了DLF模块对SegPc和皮肤数据集的影响(见表1-2)。不同DLF模块配置上的消融。表8显示了不同DLF模块配置的性能。我们测试不同的人头数6208↑↓↑↓表2:所提出的方法在Synapse数据集上的比较结果。蓝色表示最佳结果,红色表示次佳结果。方法DSC↑HD↓主动脉 胆囊肾脏(L)肾脏(R)肝胰腺脾胃DARR[22]69.77-74.7453.7772.3173.2494.0854.1889.9045.96[13]第十三话74.68 36.8787.7463.6680.6078.1993.7456.9085.8774.16U-Net[41]76.85美元89.0769.7277.7768.6093.4353.9886.6775.58[13]第十三话75.57 36.9755.9263.9179.2072.7193.5649.3787.1974.95Att-UNet[42]77.77 36.0289.5568.8877.9871.1193.5758.0487.3075.75[13]第十三话71.29 32.8773.7355.1375.8072.2091.5145.9981.9973.95TransUnet[13]77.48 31 6987.2363.1381.8777.0294.0855.8685.0875.62Swin-Unet[10]79.1385.4766.5383.2879.6194.2956.5890.6676.60[52]第五十二话78.5316.8478.5362.2384.6180.2593.1159.0788.8672.76DeepLabv3+(CNN)[16]77.63 39.9588.0466.5182.7674.2191.2358.3287.4373.53HiFormer-S80.2918.8585.6373.2982.3964.8494.2260.8491.0378.07HiFormer-B80.3914.7086.2165.6985.2379.7794.6159.5290.9981.08HiFormer-L80.6919.1487.0368.6184.2378.3794.0760.7790.4482.03表3:所提出的方法与SOTA方法在皮肤病变分割基准上的性能比较蓝色表示最佳结果,红色表示次佳结果。方法ISIC 2017ISIC 2018pH2DSCSESPACCDSCSESPACCDSCSESPACCU-Net[41]0.81590.81720.96800.91640.85450.88000.96970.94040.89360.91250.95880.9233Att-UNet[42]0.80820.79980.97760.91450.85660.86740.98630.93760.90030.92050.96400.9276达甘[32]0.84250.83630.97160.93040.88070.90720.95880.93240.92010.83200.96400.9425TransUNet[13]0.81230.82630.95770.92070.84990.85780.96530.94520.88400.90630.94270.9200MCGU-Net[1]0.89270.85020.98550.95700.89500.84800.98600.95500.92630.83220.97140.9537MedT[45]0.80370.80640.95460.90900.83890.82520.96370.93580.91220.84720.96570.9416FAT-Net[49]0.85000.83920.97250.93260.89030.91000.96990.95780.94400.94410.97410.9703TMU-网络[40]0.91640.91280.97890.96600.90590.90380.97460.96030.94140.93950.97560.9647Swin-Unet[10]0.91830.91420.97980.97010.89460.90560.97980.96450.94490.94100.95640.9678DeepLabv3+(CNN)[16]0.91620.87330.99210.96910.88200.85600.97700.95100.92020.88180.98320.9503HiFormer-S0.92380.91530.98320.96950.90790.89340.98010.96180.94550.97370.96040.9646HiFormer-B0.92530.91550.98400.97020.91020.91190.97550.96210.94600.94200.97720.9661HiFormer-L0.92250.90460.98560.96930.90530.88280.98200.96110.94510.95610.96910.9659表4:SegPC挑战的性能评价方法mIOU频率校准U-Net[3] 0.9392[7]第七届全国政协委员DSC-IITISM[7] 0.9356多尺度注意深度abv3 +[7] 0.9065[41]第41话联系我们[40]0.9395HiFormer-S 0.9392HiFormer-B 0.9406HiFormer-L 0.9395和深度(S和L)以及变压器模块的MLP块中的MLP扩展比(r)。我们观察到(S,L)的(2,1)对和两个水平的六个头最好。如行A所示,增加磁头数量不一定会提高性能。此外,膨胀率(r) 在表演中起着重要的作用。与行C相比,r加倍导致1。04%的DSC和1. HD下降82%有关该物业的更多信息表5:模型参数的比较。型号Params(M)DSC HDTransUnet 105.28 77.48 31.69Swin-Unet 27.17 79.13 21.55莱维特-乌纳特52.17 78.53 16.84DeepLabv3+(CNN)59.50 77.63 39.95HiFormer-S 23.25 80.29 18.85HiFormer-B 25.51 80.39 14.70HiFormer-L 29.52 80.69 19.14表6:DLF模块对Synapse数据集的影响型号DLF DSC HDHiFormer-B77.1516.88HiFormer-B型80.39 14.70SM中提供了DLF模块的技术设计。消融功能一致性。我们进行了两个实验来测量和揭示特征一致性,在SM中详细讨论它们首先,我们介绍了FEA-在涉及DLF模块之前和之后,每个级别的真实可视化(SM,图1-2)。第二个实验6209↑↓(a) 输入图像(b)Ground Truth(c)Swin-Unet(d)TMU-Net(e)HiFormer-S (f)HiFormer-B (g)HiFormer-L图3:ISIC 2017皮肤病变分割数据集上不同方法的视觉比较。地面实况边界以绿色显示,预测边界以蓝色显示。(a)输入图像(b)地面实况(c)预测图4:SegPC细胞分割数据集上所提出的方法的视觉表示。表7:Synapse数据集上CNN模块的不同主干的比较。除了CNN模块,所有配置都与HiFormer-B相同。型号Params(M)DSCHDHiFormer+ResNet18 19.36 77.1516.88HiFormer+ResNet3424.7579.3922.71HiFormer+ResNet5025.5180.3914.70HiFormer+ResNet10144.5079.4217.18HiFormer+DenseNet12123.9278.6516.18HiFormer+DenseNet16929.5578.7315.94HiFormer+DenseNet201 35.36 79.08 21.30证明了应用每个模块如何有助于功能一致性(SM,表3)。总的来说,可以从结果中推断出每个模块在提供更一致的特征方面的贡献6. 讨论我们在不同医学图像分割数据集上的综合实验证明了我们提出的HiFormer模型与CNN相比的有效性,表8:Synapse数据集上不同参数的DLF模块消融研究。为了进行公平的比较,ResNet-50在所有配置中都用作CNN模块,r表示DLF模块的Transformer块中使用的MLP扩展比。模型地扪PssionPlSLR股骨头数量PsPlDSC↑HD↓参数(M)HiFormer-B384962126680.3914.7025.51一3849621212679.0015.8125.51B384962123377.9519.1125.51C384962116679.3516.5224.90D384962136679.2217.9626.12E384961126679.4820.1524.33F384962226678.8619.7525.59结果表明,它可以很好地执行分割,在大多数情况下超过SOTA方法 从视觉分析的角度来看,图。图2示出了诸如肝脏和肾脏的器官的无噪声分割,这也与定量基准一致。相比之下,我们的模型在某些情况下获取失败案例(例如,Aorta),这再次同意数值结果。此外,人们认为低对比度的皮肤图像仍然给我们的模型带来了很大的困难。一般来说,HiFormer已经显示出有效学习医学图像中表示的关键解剖关系的潜力在模型参数方面,HiFormer是一种轻量级模型,与其他复杂模型相比,这些模型给医学图像分割带来了严重的问题。7. 结论在本文中,我们介绍了HiFormer,一种新的混合CNN变换为基础的医学图像分割方法。具体而言,我们结合了从Swin Transformer模块获得的全局特征和局部表示。基于transformer的方法我们的方法的主要进展其设计的 第 一 个 合 理 性 是 在 网 络 的 浅 层 结 合 CNN 和Transformer其次,跳过连接模块提供特征可重用性,并将CNN局部特征与Transformer模块提供的全局特征混合。HiFormer网络在五个方面的定量视图一个基于CNN的编码器。然后,使用一个DLF模块,我们获得了一个更精细的融合的功能从上述表示。我们实现了卓越的性能超过CNN为基础,香草变换器为基础,混合模型表明,我们的方法确保了平衡,保持低层次的功能的细节和建模的远程交互。6210引用[1] Maryam Asadi-Aghbolaghi , Reza Azad , MahmoodFathy,and Sergio Escalera.嵌入集体知识的多级上下文门在医学图像分割中的应用。arXiv预印本arXiv:2003.05056,2020。[2] Reza Azad , Maryam Asadi-Aghbolaghi , MahmoodFathy,and Sergio Escalera.具有densley连通卷积的双向卷积u-网。在IEEE/CVF计算机视觉研讨会国际会议论文集,第0-0页[3] Reza Azad , Afshin Bozorgpour , Maryam Asadi-Aghbolaghi,Dorit Merhof,and Sergio Escalera.用于医学图像分割的深度频率重校准u-net。在IEEE/CVF计算机视觉国际会议的Proceedings中,第3274-3283页[4] Reza Azad,Abdur R Fayjie,Claude Kauffmann,IsmailBen Ayed,Marco Peder
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功