深度可分离门控Transformer的医学图像分割网络DSGA-Net

51 浏览量更新于2024-01-17 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报DSGA-Net：用于医学图像分割网络的深度可分离门控Transformer和注意力孙俊鼎a，赵久强a，吴晓生a，唐朝生a，王水华a，b，c，张玉东a，b，c，张伟a河南理工大学计算机科学与技术学院，河南焦作454000b莱斯特大学计算与数学科学学院，英国莱斯特LE1 7RHc沙特阿拉伯吉达21589阿卜杜勒阿齐兹国王大学计算机和信息技术学院信息系统系阿提奇莱因福奥文章历史记录：2022年11月21日收到2023年3月31日修订2023年4月4日接受2023年4月11日在线提供保留字：医学图像分割Transformer门控注意力机制深度可分离A B S T R A C T针对医学图像分割中小器官的欠分割和过分割问题。提出了一种基于深度可分离门控Transformer和三分支注意力模块的医学图像分割网络模型（DSGA-Net）。首先，该模型在其编码器中添加了深度可分离门控视觉Transformer（DSG-ViT）模块，以增强（i）全局、局部和通道之间的上下文其次，提出了一种混合三分支注意力（MTA）模块，以增加上采样过程中的特征数量。同时，当将特征图像恢复到原始图像尺寸时，减少了特征信息的损失。通过对Synapse、BraTs 2020和ACDC公开数据集的验证，DSGA-Net结果的骰子相似系数（DSC）分别达到81.24%、85.82%和91.34%此外，Synapse和BraTs 2020的Hausdorff评分（HD）分别下降至20.91%和5.27%与基线TransUNet相比，分别降低了10.78%和0.69%实验结果表明，DSGA-Net实现了更好的分割比大多数先进的方法。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍医学图像分割准确地描述了医学图像中的器官、病变和其他区域。它可以帮助医生做出准确、快速的临床诊断和病理研究分析。在临床诊断中，器官标记需要具有扎实专业知识的人员手工完成，费时、费力、繁琐。医学图像分割中存在数据量不足、标注位置不准确等问题因此，利用计算视觉实现医学图像分割一直是该领域的研究热点（Yao et al.，2020;Liu等人，2021; Cheng等人， 2022年）。*通讯作者。电子邮件地址：sunjd@hpu.edu.cn（J.Sun），jiuqiangzhao@home.hpu.edu.cn（ J. Zhao ）， wuxs@hpu.edu.cn （ X.Wu ）， tcs@hpu.edu.cn （ C. Tang ），shuihuawang@ieee。org（S. Wang），yudongzhang@ieee.org（Y. 张）。沙特国王大学负责同行审查近年来，随着深度学习技术的发展，卷积神经网络（CNN）已广泛用于医学图像分割（Mu和Li，2019; Philbrick等人，2019; Tian等人，2020年）。Long等人（Long等人，2015年拟议数全卷积网络（FCN），它用卷积层代替全连接层来提取图像特征，并使用上采样层将图像恢复到原始大小，以获得更精细的分割效果。 Ronneberger等人（Ronneberger等人，2015年，推出U-Net网络。它基于En-Decoder的对称结构。它采用跳跃连接方式实现特征信息在编解码器之间的传输，从而获得较好的分割性能。Zhang等人（Diakogiannis等人，2020）提出了一种残差连接UNet（ResUNet），它将U-Net的每个子模块替换为残差连接模块，以获得网络的更深层次特征，缓解梯度消失问题，提高网络的收敛速度。Oktay等人（Oktay等人， 2018）提出了Attention to U-Net（Atten-UNet），以增强模型对特征信息的敏感性。Zhan等人（Zhan等人，2023）提出了多视图注意机制和自适应融合策略（CFNet）网络。采用多视角注意机制（MAM）进行特征提取和跨尺度特征提取https://doi.org/10.1016/j.jksuci.2023.04.0061319-1578/©2023作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comJ. 孙，J.Zhao，X.Wu等人沙特国王大学学报2跳跃连接融合，有效提取多个感受野的特征信息。采用融合权值自适应分配策略（FAS），有效地引导跨尺度融合特征信息输入到解码器，解决语义差异问题。虽然基于CNN的网络取得了很好的分割效果，但由于卷积的固有有界性和难以与远程语义信息交互。不可能在特征图中对远程依赖的特征信息进行建模，从而导致不充分的上下文特征信息捕获（Gu等人，2018年; Sun等人，2019; Zhou，2020）。为了弥补卷积的不足，学者们引入了视觉 Transformer（Dosovitskiy等人， 2020）（ViT）模型在自然语言处理（NLP）领域进入医学图像分割领域。Transformer中的自注意机制可以解决远程信息交互的问题，从而获得全局特征信息（Bitteret al. 2010;Khurana等人，2023; Rezaii等人，2022年）。Chen等人（Chen等人，2021 ）提出了 Transformers Make Strong Encoders（TansUNet）网络，该网络将Transformers与CNN相结合，同时捕获全局空间特征信息和局部特征信息。然而，当CNN在解码器部分对特征图进行上采样时，卷积感受野太小在将全局特征恢复到初始分辨率时的限制保持不变，这将干扰医学图像中小器官的分割。Hei等人（Heidari等人， 2023）提出了HiFormer（HiFormer）网络，该网络将CNN和Transformer相结合，获得全局和局部特征，并在跳连接上设计了DLF（Double-Level Fusion）模块。然而，在跳过连接中只能获得全局特征信息在跳跃连接中很难获得局部特征信息Yuan等人（Yuan等人， 2023）在U-Net的基础上提出了CNN和Transformer Comprehensive Network（CTC-Net）。编码器使用CNN和Swin- Transformer的组合来提出跨域融合块（CFB），以融合CNN和Swin Transformer提取的特征信息提出了一种融合跨域融合、特征相关和双重注意的特征互补模块（FCM）Gao等人（Cao等人， 2022 ）提出了类 Unet-likePureTransformer（ SwinUNet ）网络，它在 En-Decoder 中采用了纯 SwinTransformer方法。而Swin Transformer侧重于全局特征信息的交互。它忽略了低分辨率特征的提取，导致在低分辨率和高分辨率融合时引入了大量Li等人（Li等人，2022）通过结合深度可分离自注意力和分组自注意力提出了可分离视觉Transformer（SepViT）网络。捕获窗口内部和窗口之间的特征信息。然而，在上采样过程中，许多细节不能被恢复，并且Gao等人（Gao等人，2021）提出了一种有效的自注意机制和相对位置编码，以在多个尺度上搜索全局上下文信息。医学图像处理数据集很小并且对位置信息不敏感，这可能是解决问题的方法。但是，浅层特征信息的分辨率更高，更多的位置和细节信息没有得到有效利用 Zhang等人（Zhang等人， 2021）提出了融合变压器和CNN（Transformer）网络架构，采用新的融合技术模块来融合各分支的多级特性。然而，在上采样处理期间没有有效地使用编码器的浅信息，并且没有减轻从上采样恢复的特征信息的损失。Chen等人（Chen等人，2021）提出了多层次注意力引导U-net与Transformer（TransAttUnet）网络相结合，设计了多级引导注意和多尺度跳跃连接，以减轻卷积叠加和连续采样操作造成的细节损失。然而，不能在上采样的每个级别获得具有低分辨率的相同层的特征信息为解决上述问题，我们做出以下贡献：(1) 我们提出了深度可分离门视觉Transformer（DSG-ViT）块。它可以实现窗口内的局部信息交互、窗口间的全局信息交互和通道间的全局信息交互。在提取特征时，采用深度可分离的门控注意机制，提高了位置信息的敏感性，解决了器官位置信息的特征选择问题，降低了器官被错误分割的可能性。(2) 提出了混合三分支注意（MTA）模型，该模型将编码器各层丰富的语义信息和目标精确的位置信息与解码器融合，补偿下采样过程中丢失的细节信息，增加上采样过程中的特征信息(3) 提出了一种新的医学图像分割网络DSGA-Net，该网络采用4层深度可分离视觉Transformer（DSG-ViT）模块作为编码器部分，采用混合三分支注意力（MTA）模块进行En-Decoder各层之间的特征融合，得到最终的分割结果。论文的其余部分总结如下：第2介绍了论文的相关工作，第3介绍了所用方法的原理和模型的总体结构，第4介绍了实验所需的实验数据和结果，第5节是结论。2. 相关工作2.1. 基于CNN的医学图像分割医学图像分割的发展经历了从人工分割到计算机自动分割的过程。目前，大多数医学治疗都是利用计算机单独完成图像分割，这也成为国内外学者研究的热点问题。随着CNN的广泛应用，FCN在医学图像分割中取得了很好的效果。Long等人（Long等人，2015）提出了全卷积网络（FCN），用卷积层代替全连接层提取图像特征，用上层采样层将图像恢复到原始大小，得到分割结果。而按顺序堆叠的FCN分割结果U-Net是一种编码和解码结构的FCN模型。它采用U型编码和解码结构，以获得更多的特征信息，提高分割精度。在基于CNN的方法中，多尺度融合已被证明可以进一步提高分割性能。基于已经引入的U-Net结构，重新设计跳跃连接以利用多尺度特征（U-Net++）（Zhou等人， 2019）和一个全面连接的Unet（U-Net 3++）（Huang et al.， 2020）提出在编码器和解码器之间的跳跃连接上添加多尺度结构，以提取更丰富的上下文J. 孙，J.Zhao，X.Wu等人沙特国王大学学报3×信息，并减少低编码器和深解码器之间的语义差异。Zhan等人（Zhan等人，2023）提出了多视角注意机制和自适应融合策略（CFNet）网络，该网络采用新颖的多视角注意机制（MAM）进行特征提取，采用跨尺度方法进行特征融合，以获得跳跃连接时更精确的跨尺度融合特征。同时，采用融合权值自适应分配策略（FAS），有效地将跨尺度融合特征输入到解码器，解决了语义鸿沟问题。2.2. 基于Transformer的医学图像分割由于CNN模型的有限接受域，长-其中z是特征标记，其由像素和窗口标记组成。WQ、WK和WV表示常规自关注中用于查询、键和值计算的三个线性层。注意力是指在本地窗口上工作的标准自注意力运算符。PWA通过窗口标记建立窗口之间的关系，主要用于融合跨窗口信息。从DWA的输出中提取特征图和窗口标记，并且通过归一化层（LN）和高斯误差线性单元（GELU）最终生成注意力图（Li等人，2022）激活功能。同时，在PWA中将特征图作为值的一个分支，利用注意力图计算窗口间的注意力，从而实现全局信息交互。术语对建模的依赖是有限的。为了弥补CNN的局限性，TransformerPWAz;xt;凝胶U½LNxt]·WK;zgð2ÞCao等人（Cao等人，2022）提出了基于纯Swin-Transformer的U形结构的SwinUnet模型，用于二维医学图像的分割。除了应用纯Transformer 之外， Chen 等人（ Chen 等人， 2021 ）结合 CNN 和Transformer提出了TransUnet结构，CNN通过该结构捕获局部特征信息。Transformer捕获全局特征信息，两者结合可以弥补彼此的不足。Gao 等人（ Gao 等人， 2021 ）提出了一种 UNEt TRansformers（UNETR）网络，使用基于transformer的编码器进行特征提取，使用基于CNN的解码器进行最终的3D医学图像分割。以往的Encoder结合CNN和Transformer来提取局部和全局信息，往往忽略了通道间重要的特征信息。基于CNN的信道和空间注意力用于编解码器之间的跳跃连接。由于CNN的局限性，一些重要的特征信息会丢失。我们提出了一种新的医学图像分割网络该模型利用深度可分离门控Transformer和三分支注意模块（DSGA-Net）来解决上述问题。该模型将深度可分离门控视觉Transformer（DSG-ViT）模块添加到其编码器中，以从全局、局部和通道间特征信息中提取特征。其次，提出了一种混合三分支注意力（MTA）模块，以增加上采样过程中的特征数量。同时，当特征图像恢复到原始图像尺寸时，减少了特征信息的损失，实现了准确的分割结构。通过在Synapse、BraTs 2020和ACDC公共数据集上的验证，DSGA-Net的Dice相似系数分别达到81.24%、85.82%和91.34%。此外，Synapse和BraTs 2020的Hausdorff评分（HD）分别降低至20.91%和5.27%，与基线TransUNet相比分别下降了10.78%和0.69%。实验结果表明，与同类方法相比，该方法具有更好的分割效果2.3. 可分离可视Transformer（SepViT）Li等人（Li等人，2022）提出了一种高效的Transformer骨干，称为可分离的视觉Transformer（SepViT）。它的关键设计是可分离的自注意力（Sep-Attention），它由深度自注意力（DWA）组成（Li etal.，2022）和点态自我注意（PWA）（Li等人， 2022年）。DWA用于捕获每个窗口内的局部特征每个窗口可以被看作是特征图的一个输入通道不同的窗口覆盖不同的信息，并为每个窗口创建一个获胜令牌，它可以集成每个通道中的空间信息。DWAz注意z·WQ;z·WK;z·WV1其中xt表示窗口令牌。注意力是一个标准的自注意力操作符，但对所有窗口z都有效.2.4. 注意机制Li等（Li等人， Pyramid Attention Network（PAN）网络模型。其关键设计是空间特征金字塔注意模块和全局注意上采样模块。特征间金字塔关注模块主要是利用不同的卷积核提取不同尺度的特征信息，然后对提取的不同尺度的特征信息进行融合。有助于更准确地获取相邻特征信息的相关性。同时，通过对高层次语义信息进行多尺度融合后的注意力图相乘，提取特征间的相似度。最后，将输出结果添加到全局注意力上采样。其基本结构示于图1 .一、全局注意力上采样模块包括全局平均池化层、卷积层和上采样层。它使用全局平均池来获得全局语义信息。3. 方法3.1. 提出的深度可分离栅可视化Transformer（DSG-ViT）尽管SepViT（Li等人，2022）可以通过窗口令牌很好地学习窗口内和窗口之间的全局特征信息，SepViT在训练医学图像分割数据时学习器官位置不准确。Gao等人（Gao 等人， 2021 ）认为，Transformer要想学习准确的位置偏差，需要大量的数据进行训练，而对于小规模数据集的医学图像分割实验，学习到的位置信息存在较大的误差。Shaw等人（Shaw等人，2018）已经证明相对位置编码可以对图像的空间结构进行编码，因此在远程交互中并不总是准确的。我们提出了一个深度可分离门控视觉Transformer模块（DSG-ViT）来解决这个问题，如图所示。二、左侧是DSG-ViT的总体框架。我们将带有窗口标记的令牌输入到深度可分离门控自注意（DSG-Attn）机制中，然后将DSG-Attn的结果输入到LN和MLP操作层中，融合不同自注意力的特征。此外，我们使用残差结构来减轻梯度爆炸和消失的现象。图2的右侧显示了DSG-Attn的内部结构。DSG-Attn由依赖门自注意（DWGA）和逐点门组成J. 孙，J.Zhao，X.Wu等人沙特国王大学学报4Op-oTk2v o 1/4WVxoXo¼ppQp-oFig. 1.空间特征金字塔注意机制模块。图二. DSG-ViT。自我关注（PWGA）。其基本原理是在Sep- Attn的基础上，引入相对位置编码，它是x 0802N的线性映射，W Q、W K和W V是可学习的参数。由于qT、kp和v p不包含任何正态，注意机制，将位置编码嵌入DWA和PWA，并介绍了门控机制，可以控制，位置信息，相对位置偏差项rq，rkp-o 和分别对qT，kp和vp加上r v。qTrp-o表示将位置偏差控制到全局上下编码，形成DWGA和PWGA。深度可分离门控自注意机制（DWGA）定义如下：p-o o o从位置p1/2a;b到位置o1/2b;j的相关性，GQ、GK、GV1和GV2是四个可学习的门控位置嵌入。它提供了关于是否可以学习Do¼zp2Nm×mππsoftmaxq TkG q Tr q哦哦哦GKkprp-oÞðGV1vpþGV2rvÞð3Þ并且控制所学习的相对位置编码对编码全局上下文信息的准确性如果准确地学习了相对位置代码给定一个输入特征图X RC×H×W，C表示通道数，H表示特征图的高度，W表示特征图的宽度，z表示特征令牌，学习每个窗口的全局特征。N表示整个特征图的像素，o表示特征图中的一个像素i;j表示特征图中的一个像素，Nm×mo是以位置为中心的m × m大小的局部区域：8>oi;j机制将给予它比那些没有准确的学习位置信息的码更高的权重。在全局感受野的情况下，可以获得更准确的空间位置信息。Li等人（Li等人，2022）提出了窗口标记，并将PWA与窗口标记相结合，融合跨窗口特征信息，更好地捕捉窗口间的特征信息。位置编码和可控位置偏差选通机构qo¼WQ xok WK xo：>个ð4Þ引入NISMS来捕获特征信息并准确地获得窗口之间的空间位置信息。从的输出中提取特征图和窗口标记DWGA，使用窗口令牌和位置

下载后可阅读完整内容，剩余1页未读，立即下载