没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报IB-TransUNet:结合信息瓶颈和Transformer的医学图像分割李广菊,金德虎,齐玉,孟奇山东师范大学信息科学与工程学院,济南,中国阿提奇莱因福奥文章历史记录:收到2022年2023年1月12日修订2023年2月11日接受在线预订2023年保留字:信息瓶颈Transformer多分辨率融合医学图像分割卷积神经网络A B S T R A C T医学图像分割在疾病诊断和手术指导中起着重要的作用。当前医学图像分割领域存在两个问题。首先,由于卷积运算固有的局部性,卷积神经网络模型难以捕获全局上下文信息。其次,数据集通常很小,模型存在过拟合的 风 险 。 为 了 解 决 上 述 问 题 , 我 们 创 新 性 地 引 入 了 Transformer 和 基 于 UNet 模 型 的 信 息 瓶 颈 ( IB-TransUNet)。Transformer可以捕获全局上下文信息。在医学图像分割任务中,信息此外,我们增加了一个多分辨率的融合机制,跳过连接,这有助于高分辨率的特征地图既有空间纹理信息和语义信息。最后,在解码器中添加一个带有残差的通道注意块,以帮助模型学习相关特征。为了验证该模型的性能和效率,我们在两个公共数据集上进行了消融实验,并将其与最先进的模型进行了比较。实验结果证明了该模型的优越性。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着深度学习的发展,自动医学图像分割技术已经应用于医学领域(Hatamizadeh et al.,2022年; Chen等人,2021年)。准确的医学图像分割结果可以帮助医生评估疾病并提出更好的治疗方案。卷积神经网络(CNN)的变体UNet已经主导了医学图像分割任务(Ronneberger等人,2015年)。原始UNet模型由编码器和解码器架构组成,具有跳过连接以补偿空间细节的损失。 鉴于UNet模型的成功,许多研究人员在其基础上进行了进一步的改进,例如U-Net++(Zhou et al., 2018年),3D U-Net(Zuiçek等人,2016)、Attention-UNet(Oktay等人, 2018),Dense-UNet(Li et al.,2018),Res-UNet(Xiao etal.,2018)、UNet3++(Huang et al., 2020)和V-Net(Milletari等人, 2016年)。*通讯作者。电子邮件地址:qimeng@sdnu.edu.cn(M. Qi)。沙特国王大学负责同行审查然而,以UNet模型为代表的CNN模型难以捕捉全局上下文特征。这是由卷积运算的固有限制引起的(Chen等人,2021年)。因为单个卷积核只能聚焦于局部区域,而局部化程度取决于卷积核的大小。虽然CNN模型可以通过堆叠大量卷积层来逐渐扩大卷积核的感受野,从而使高层卷积核可以专注于全局特征。然而,CNN模型底层和中间层的卷积核仍然不能聚焦全局特征,只能局限于某些区域。与CNN不同,Transformer(Vaswani等人,2017)在建模全局上下文信息方面具有出 色 的 性 能 。 因 此 , 在 医 学 图 像 分 割 领 域 , 有 研 究 者 尝 试 使 用Transformer作为编码器。一个代表性的工作是TransUNet模型,它借用了ViT的思想(Dosovitskiy et al.,2020)模型,并将Transformer添加到UNet的编码器部分。为了更好地捕获全局上下文信息,TransUNet向编码器添加了12个Transformer层,导致模型参数比UNet多三倍(Valanarasu和Patel,2022)。与计算机视觉领域的大多数图像数据集相比,医学图像数据集通常只有数百或数千个样本。因此,很容易得到https://doi.org/10.1016/j.jksuci.2023.02.0121319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comG. Li,D.金角,澳-地Yu等人沙特国王大学学报250---一种ð Þ ðÞ当将TransUNet直接应用于医学图像分割时,过度拟合。此外,TransUNet中的跳过连接忽略了解码器和编码器之间的语义间隙,这可能会降低模型预测结果的准确性为了解决上述问题,我们提出了一种高效、鲁棒的IB-TransUNet模型,该模型将信息瓶颈(IB)和Transformer结合起来,利用UNet模型压缩冗余特征,降低过拟合风险。据我们所知,这项工作是第一次联合应用IB和Transformer的医学图像分割。本文的工作有以下贡献:1) 我们创新性地在编码器的Transformer中引入了信息瓶颈块,压缩了不相关的特征,使模型更加健壮。冗余特征信息由IB块压缩,并且仅保留最相关的信息以防止过拟合。这个目标是通过最小化潜在特征和输入之间的互信息(MI)和最大化潜在特征和标签之间的MI来实现的。2) 提出了一种新的基于多分辨率融合的跳跃连接算法.该模块将包含空间位置信息的高分辨率特征图与包含语义信息的低分辨率特征图以自下而上的顺序进行融合。因此,编码端的高分辨率特征图同时具有空间位置信息和语义信息,从而缓解了与解码端特征图之间的语义鸿沟,进一步提高了分割精度。3) 我们在解码器中添加了一个带有残差的挤压和激励(SE)块,这是一种通道注意机制,可以帮助模型学习相关特征并抑制噪声。最近,一些研究人员倾向于在模型中但我们发现,添加注意力块的位置比数量更重要在本文中,我们只在解码器的末尾添加了一个SE块。2. 相关工作2.1. 用于医学图像分割的变换器TransUNet是将Transformer引入医学图像分割的第一次成功尝试。Transformer将输入视为1D序列,导致特征图比原始图像小得多,这降低了分割精度。(Chen等人, 2021年)。为了解决这个问题,TransUNet在编码中结合了CNN和Transformer,其中CNN保留了更高分辨率的特征图,并通过跳过连接帮助解码器实现更准确的分割,而Transformer则使模型更加注重捕捉长距离的空间关系。但是,尽管Transformer克服了卷积运算的固有局限性,但它也导致模型参数数量急剧增加TransUNet模型中增加了12个TransUNet层,参数数量是UNet模型的3倍。在最新的Swin-Unet模型中,增加了十四个Swin Transformer块,参数数量是UNet模型的两倍多在医学图像分割领域,数据集通常很小,通常只有几百或几千个样本。当数据集样本少而模型参数数量多时,在训练过程中很容易过拟合。为了解决这一问题,我们选择将Transformer与信息瓶颈相结合。它可以帮助模型压缩不相关-evant特征,仅保留相关特征,降低模型过拟合的风险,提高模型的分割精度和鲁棒性。2.2. 信息瓶颈最近,深度学习领域的研究人员正在尝试应用IB,例如无监督( Yan et al. , 2020; Qian 等 人 , 2020 ) , 监 督 ( Saxe 等 人 ,2019;Hafez-Kolahi和Kasaei,2019)和自我监督(Hervella等人,2020; Ngampruetikorn等人, 2020年)。通过使用IB,在训练期间压缩不相关的特征从而有效地防止过拟合,提高模型的鲁棒性。IB理论的目标是最小化输入和潜在特征的MI,并最大化潜在特征和输出的MI(Tishby等人,2000; Tishby和Zaslavsky,2015);参见下面列出的公式。arg max IB;C s:t:IA;C6K1这里A是输入,B是输出,C可以被视为潜在特征。K是控制信息压缩的约束,D是服从马尔可夫链B A C的潜在特征的集合。也就是说,由A提供的关于B的信息通过由有限的潜在特征C形成的“瓶颈”被压缩I B;C和IA;C,表示两个变量之间的MI。为了便于计算,在实际中,引入拉格朗日乘数b,其是控制压缩比的折衷参数,通常设置在[0,1]之间。优化目标是最大化以下等式:LIBCIC;B-bIC;A 2但由于IB的约束功能,对数据的分布有严格的要求。它只适用于数据满足离散条件或联合高斯分布的情况,而真实数据集很难满足这些条件。因此,研究人员提出了变分信息瓶颈(VIB)(Alemi等人,2016),这种方法可以利用神经网络来参数化IB模型,并利用重新参数化技巧进行有效的训练。这就避免了高斯或离散条件的局限性,可用于图像等高维连续数据。2.3. 跳过连接为了改进UNet和TransUNet,许多研究人员提出了一些新的跳跃连接。在MultiResUNet(Ibtehaz and Rahman,2020)模型中,在与编码器特征图连接之前,编码器特征图中的语义信息通过一系列残差密集卷积块进行改进,分辨率保持不变。在UNet++(Zhou等人, 2018)模型,作者提出了一系列带有残差的嵌套子网络 来取 代传 统的 跳跃连 接。 MSRF-Net ( Srivastava 等人 ,2021)提出了让两个不同分辨率的特征图彼此交换信息,并且在多次交换之后,特征图具有多个感受野的信息。在 UCTransNet 中( Wang 等 人 , 2022a ) 模 型 , 采 用 基 于Transform的多分辨率信息融合方法,并利用注意力机制消除解码器特征图与融合特征图之间的二义性。 在TransNorm(Azad et al.,2022)模型的基础上,提出了一种基于Transformer的空间归一化机制,从信道和空间两个方面对解码路径上的信息进行归一化。虽然利用上述模型设计的新型跳接结构取得了良好的效果。然而,设计是C2DG. Li,D.金角,澳-地Yu等人沙特国王大学学报251×NX×N我我我XpXy太复杂,需要更多的计算资源。在UCTransNet模型中,不同分辨率大小的特征图被输入到多个Transformer层中进行融合。此外,还加入了一个注意机制来指导特征图的融合。在TransNorm模型中,研究人员增加了三个门控注意机制来实现空间归一化操作,每个门控注意机制至少需要两个3 3卷积。在MultiResUNet、UNet++和MSRF-Net中,大量带有残差的密集卷积块被添加到跳过连接中。在本文中,我们提出了一种新的多分辨率融合,传统的跳跃连接造成的语义空白在模型的解码器中,增加一个带有残差的通道注意块,以进一步提高模型分割性能。IB-TransUNet的损失函数如下:损失:BCE损失:Dice损失:BCE损失:1X-100log100p·y100log 100-p·y100-y1001/1N跳过连接。仅需要两个3 × 3卷积运算来将包含在低分辨率特征图中的语义信息转移到高分辨率特征图。与以前的工作相比,不需要添加剩余的密集卷积它骰子损失1/4-2piyi1/1NN2 2我我联系我们ð5Þ消耗较少的计算资源,并且还可以提高模型的分割性能3. 方法在本节中,我们将展示IB-TransUNet模型的结构和损失函数。然后将详细解释每个创新点的逻辑细节,以及这些创新点是如何产生的。3.1. IB-TransUNet的结构我们提出的IB-TransUNet模型由编码器、跳过连接和解码器组成(图1)。下面我们将介绍这三个部分的具体结构在模型的编码器中,将信息瓶颈块添加到Transformer层。如上所述,TransUNet中的参数量很大,并且对于具有小数据集的医学图像分割任务可能存在过拟合的风险通过信息瓶颈块,可以压缩特征学习过程中的噪声,只保留与标签最相关的特征,降低过拟合的风险在模型的跳过连接中,添加MRF模块。我们提出的MRF模块是为了减轻BCE损失和骰子损失是最常用的损失函数,医学图像分割中的应用。其中,N表示Batch中包含的样本数,pi表示第i个样本的预测结果,yi表示第i个样本的标签。IB损失是我们引入在添加了信息瓶颈之后,我们将在下面的部分中详细描述它。3.2. IBTransformer我们在Transformer层的多头自注意机制(MSA)之后添加了一个信息瓶颈(IB)块(图2)。MSA的作用是提取特征,然后特征经过IB块,可以压缩噪声,保留最相关的特征,使模型更加鲁棒。在TransUNet的编码器中有12个Transformer层我们只在最后一层添加IB块。其原因是网络结构是马尔可夫链,导致提取的特征与每层输入之间的MI 单调递减当我们将IB 块添加到一些早期的Transformer 层 时 , 一 些 关 键 特 性 将 被 压 缩 , 然 后 剩 余 的Transformer层只能在此基础上学习,从而使收敛变得困难。为了验证我们的方法,我们进行了实验,图1.一、IB-TransUNet模型由三个主要模块组成:跳过连接,编码器和解码器。编码器由CNN、Transformer和Information Bottleneck三部分组成跳过连接由多分辨率融合模块组成解码器由上采样、3×3卷积和带残差的SE块组成G. Li,D.金角,澳-地Yu等人沙特国王大学学报252ð Þ--吉吉吉吉Rpcja-bdadcpapcjalog¼L鲁杰R×Nn1XZ吉吉×N×U~Uj nXnX轴图二. MSA提取的特征输入到IB模块。该模块可以在训练过程中只学习与输出标签最相关的潜在特征,并压缩不相关的特征。将IB块添加到第4.4节中的不同Transformer层,结果表明,当IB块添加到最后一个Transformer层时,模型工作得最好。IB损失列示如下:IB损失最大值IC;B-bIC;A6对于任意随机变量之间的MI,公式如下:参数化多变量高斯分布编码器,由768的MLP层实现102410242S,其中S表示瓶颈的大小。这2个S输出分别用于表示编码l和r(在softplus变换之后)。q b c 是一个可以从网络。r c通常选择标准高斯分布。IC;BZdbdcpb;clogpb;cZdbdcpb;clogpbjcð7Þpb p cpb3.3. 多分辨率融合然而,在实际应用中,由于数据的高维分布,p b c很难因此,我们利用变分信息瓶颈理论的思想。选择一个计算方便的分布qbjc来近似pbjc。由于q b j c和p b j c之间的所以I<$C;B<$的下界是:IC;BPZdadbdcpapbjapcjalogqbjc8rz可以用来近似pc,以得到IC;A:为了缓解编码器和解码器之间的语义鸿沟,我们在跳过连接中添加了多分辨率融合块我们设计了两种不同的多分辨率融合方法,最近层融合和自底向上融合(见图1)。 3)。Nearest-Layer Fusion:我们只将每个层的特征图与最近层的特征图在融合过程中因此,融合后的高分辨率特征图具有空间位置信息和语义信息,弥补了语义鸿沟。例如,为了融合中间层和顶层的特征图,我们对中间层特征图进行上采样,IC;A6Zdadcpapcjalogpcja结合这两个界限,我们有,IC;B-bIC;APdadbdcpapbjapcjalogqbjc鲁杰罗经验分布可以如下使用1Na;b;da·dbn近似pa;bpbjap a;L可以重写为:ð9Þð10Þð11Þ通过3 × 3卷积的通道数,以在通道数和分辨率大小方面与顶层特征图保持一致。然后对顶层特征图进行元素加法。底层和中间层的融合方法与上述步骤相同。自底向上融合:我们将每一层的特征图与当前层以下所有层的融合结果进行在融合过程中,高分辨率特征图可以从所有低分辨率特征图中获得语义信息。结果,编码器中的高分辨率特征图,像解码器中的高分辨率特征图一样,包含来自每层的低分辨率特征图的语义信息形成对称结构,从而减轻语义1N莲n1dcpcjanlogqbnjc-bpcjan logpcjnrcð12Þ间隙例如,将顶层特征图与底层和中间层特征图融合。述底层为了计算上述积分,我们采用了蒙特卡罗抽样法.蒙特卡罗抽样的作用是通过均匀抽样来估计定积分的值在积分区间内求定积分是很难计算的。假设p c a服从高斯分布,其均值和方差可以在网络中学习。最终的目标函数可以得到:1NIB损失<$bKL pcjankrc-Eapca½logqbnjc]13n1对特征图进行上采样,并采用3 3卷积减少通道数,使其与中间层特征图一致。然后将其逐元素添加到中间层的特征图中。对得到的特征图再次进行上采样,并采用3 - 3卷积减少通道数,使其与顶层特征图一致。然后将其与顶层特征图逐个元素地添加4.4节的实验结果表明,自底向上融合比最近层融合能更好地改善模型的预测结果,因为前者能帮助高分辨率特征图获得更多语义信息。其中E表示数学期望,KL表示Kullback Leibler散度。pUcjan被认为是因此,我们选择将自底向上融合方法应用于跳过连接。ΣG. Li,D.金角,澳-地Yu等人沙特国王大学学报253¼¼×¼图三. (a)近层融合:顶层与中层融合,中层与底层融合。(b)自下而上的融合:中间层与底层融合,顶层与中间层和底层融合3.4. 关注块在卷积神经网络中,不同的通道通常代表不同的特征。通道注意块的作用是为每个通道的特征图分配权重 我们选择添加挤压和激发(SE)块(Hu等人, 2018),一个经典的渠道注意力机制,该模型。SE注意机制包括两个模块,挤压模块和激发模块。Squeeze通过特征图的全局平均池化来获得每个通道的全局信息。Excitation通过全连接层和非线性层(ReLU和Sigmoid)建立通道之间的特征关系,以获得权重向量。虽然添加注意机制是提高模型性能的常用方法。 然而,注意机制的位置需要仔细考虑,盲目地添加更多的注意机制可能会降低模型的预测。我们相信只在解码器的最后一层添加SE块可能比在解码器的每一层添加SE块获得更好的结果,并且实验结果与TransUNet和当前领域的其他最先进的模型进行比较。我们数据集的划分与TransUNet中的划分严格一致。随机选取18例(2212个轴向切片)作为训练集,其余12例(1567个轴向切片)作为测试集 。 评 价 指 标 也 是 一 致 的 , 平 均 DSC 和 平 均 Hausdorff 距 离(HD)。BUSI数据集由600名女性患者的780幅乳腺癌超声图像和相应的分割图组成。其中恶性肿瘤210例,良性肿瘤437例,正常对照133例。我们用这个数据集来验证模型的泛化能力。为了与Trans- UNet和其他模型进行比较,该数据集的划分方式与UNeXt相同(Valanarasu和Patel,2022)。仅使用良性和我们对数据集进行了三次80-20的随机分割,并分析了结果的平均值。评价指标为F1得分和IoU。上述DSC、HD、F1评分、IoU四项评价指标定义如下:(第4.4节)验证了我们的假设。4. 实验4.1. 数据集我们评估了IB-TransUNet的分割性能,F1分DSC2jY\PjjYj [jPjIouY\PY[Pð14Þð15Þ两个公共数据集,Synapse多器官分割(Synapse)数据集(Landman等人, 2015)和乳房超声图像(BUSI)数据集(Al-Dhabyani等人,2020年)。Synapse数据集由8个腹部器官的30个CT扫描组成。包括左肾、右肾、主动脉、脾、胆囊、肝、脾、胰腺和胃。共获得3779个轴向增强腹部临床CT图像。争取公平HD¼maxfdYP;dPYg 16F1分数等于DSC评价指标,表示分割预测P和基础事实Y之间的重叠程度。IoU用于评估预测结果的位置信息的准确性HD用于测量分割边界的质量,其中dPY和dYP表示表1Synapse数据集上不同分割模型的准确性(平均DSC评分%和平均HD距离(mm),以及每个器官的DSC评分%方法DSC“HD编号主动脉胆囊肾脏(L)肾脏(R)肝胰腺脾胃V-Net68.81-75.3451.8777.1080.7587.8440.0580.5656.98Darr69.77-74.7453.7772.3173.2494.0854.1889.9045.96U-Net76.8539.7089.0769.7277.7768.6093.4353.9886.6775.58Att-UNet77.7736.0289.5568.8877.9871.1193.5758.0487.3075.75TransUNet77.4831.6987.2363.1381.8777.0294.0855.8685.0875.62SwinUNet79.1321.5585.4766.5383.2879.6194.2956.5890.6676.60MIM(2022)78.5926.5987.9264.9981.4777.2993.0659.4687.7576.81UCTransNet(2022)78.2326.75--------TransNorm(2022)78.4030.2586.2365.1082.1878.6394.2255.3489.5076.01EMSViT(2022)80.4521.2486.4166.8083.5980.1294.5656.9091.2876.82IB-TransUNet81.0522.6388.2466.2583.8979.8794.6363.5690.2381.75G. Li,D.金角,澳-地Yu等人沙特国王大学学报254见图4。TransUNet和IB-TransUNet在Synapse数据集上的分割结果。从上到下是肝,胃,脾,最后两排是胰腺。G. Li,D.金角,澳-地Yu等人沙特国王大学学报255××分割预测P和地面实况Y之间的距离,以及地面实况Y和分割预测P之间的距离。4.2. 实现细节为了确保模型比较的公平性,调整两个数据集的输入图像的分辨率大小224和256256、分别所有的实验都使用了一个24GB内存的NvidiaA30 GPU。根据我们模型的特点,我们训练了600个epoch,并将批量大小设置为16.此外,使用SGD优化器来训练模型,动量为0.9,学习率为0.01,权重衰减为0.0001。损失函数中的超参数b在Synapse数据集中设置为0.01,在BUSI数据集中设置为0.00001。IB的大小S被设置为768。4.3. 与最先进技术的为了证明本文提出的IB-TransUNet模型的优越性,我们利用Synapse数据集进行了主要实验,并将其与10个最先进的(SOTA)模型进行了比较(见表1)。 实验结果表明,IB-TransUNet模型的平均DSC和平均HD评价指标分别为81.05%和22.63 mm。与Trans-UNet模型相比这表明我们的IB-TransUNet在整体分割结果和器官分割边缘预测此外,我们还测试了两个模型的推理速度。其中,IB-TransUNet模型以33.16 ms的速度拆分一张图片,而TransUNet模型以32.58毫秒可以看出,两种模型的推理速度几乎相同,但我们的IB-TransUNet模型可以获得更好的分割结果。在八个器官的分割结果中,它们都优于TransUNet模型。例如,胃、脾和肝等大器官的准确度分别提高了6.13%、5.15%和0.55%,胰腺、胆囊、肾脏(R)、肾脏(L)和主动脉等小器官的准确度分别提高了7.7%、3.12%、2.85%、2.02%和1.01%。这些表明,我们的模型在学习小器官特征方面具有更大的优势。与MIM等其他模型相比(Wang等人, 2022b)、UCTransNet(Wang等人, 2022a)、TransNorm (Azad等人, 2022),EMSViT(萨加尔,2022),我们的方法可以产生有竞争力的结果。例如,总体分割准确度总体上提高了0.6%-2.82%。尤其是胃和胰腺分割结果的准确性提高最为显著,分别提高了4.93%~ 5.74%和4.1%~ 8.22%。为了更好地说明分割结果,我们可视化了TransUNet和我们的方法的结果;见图。 四、图中的前三行比较了肝脏、胃和脾脏等较大器官的分割结果。从图中可以看出,TransUNet错误地将部分肝脏识别为主动脉。此外,还有一小部分图五、TransUNet和IB-TransUNet在BUSI数据集上的分割结果G. Li,D.金角,澳-地Yu等人沙特国王大学学报256胃和脾没有被准确地识别,产生了假象。虽然我们的预测相对准确,特别是边缘更平滑。最后两行显示了较小器官的结果,如胰腺。在图中,TransUNet未能识别胰腺,而我们的模型能够准确地识别和分割图像,这表明我们的方法在小器官的特征提取方面具有明显的优势。我们还在BUSI数据集上测试了IB-TransUNet,并将分割结果与当前的SOTA模型进行了比较。结果表明,IB-TransUNet在F1和IoU上的表现分别优于TransUNet 1.33%和0.76%。与新提出的UNeXt模型相比,这两个评价指标分别提高了1.26% 和0.73%。结果表明,IB-TransUNet模型具有较好的泛化能力. 图5中预测结果的可视化表明,我们的模型比TransUNet更准确。此外,TransUNet可能将健康区域识别为病变或无法识别小病变。我们的IB-TransUNet在这些情况下可以做得更好。4.4. 消融研究我们使用Synapse数据集在IB-TransUNet模型上进行消融实验,以讨论不同因素的影响表2BUSI数据集上不同分割模型的准确性方法F1“IoU“UNet(Ronneberger等人,(2015年)76.35 63.85UNet++(Zhou et al.,2018年)77.54 64.33ResUNet(Zhang等人, 2018年)78.2564.89MedT(Valanarasu等人, 2021年)76.9363.89TransUnet(Chen等人, 2021年)79.3066.92UNeXt(2022年)(Valanarasu和Patel,2022年)79.3766.95IB-TransUNet(我们的)80.6367.68表3信息瓶颈位置对分割精度的影响方法DSC“HD编号TransUnet(Chen等人, 2021年)77.4831.69TransUNet + IB-I(我们的)79.5027.04TransUNet + IB-II(我们的)79.7927.32TransUNet + IB-III(我们的)80.3727.21表4注意块位置对分割精度的影响方法DSC“HD编号TransUnet(Chen等人, 2021年)77.4831.69TransUNet + IB + MR(我们的)80.7325.34TransUNet + IB + MR + SE-I(我们的)80.6026.38TransUNet + IB + MR + SE-II(我们的)81.0522.63表5不同批量大小对分割精度的影响。方法DSC“HD编号TransUnet(Chen等人, 2021年)77.4831.69SwinUnet(Cao等人, 2021年)79.1321.55MIM(2022(Wang等人,2 0 2 2 b))78.5926.59UCTransNet(2022(Wang等人,20 2 2 a))78.2326.75TransNorm(2022(Azad等人,(2022年))78.4030.25EMSViT(2022(萨加尔,2022))80.4521.24IB-TransUNet(bs = 24)80.1828.10IB-TransUNet(bs = 16)81.0522.63IB-TransUNet(bs = 8)81.9520.35模型性能。具体包括:(1)信息瓶颈;(2)多分辨率融合;(3)注意块;(4)批量大小。信息瓶颈(IB):在这项研究中,我们测试的效果时,将IB添加到不同的位置。在实验中,我们分别将IB添加到第一、第六和第十二Transformer表3中的实验结果表明,通过将IB添加到模型中,平均DSC和平均HD均得到改善通过压缩无关信息,降低了过拟合的风险,提高了模型的鲁棒性。特别地,我们注意到当IB被添加到最后一层时,结果最好这是因为深度神经网络是马尔可夫链结构,并且每层提取的特征与输入之间的MI是单调递减的。当第一层或中间层中的相关特征丢失时,后续的Transformer层可能会受到负面影响此外,我们还对超参数b对IB损失的影响进行了初步的实验。根据IB理论,当b较高时,模型学习到的特征和输入之间的相互信息较少。从图6可以看出,当b增加时,性能逐渐改善。当b=0.01时,性能达到最佳。然而,随着b值进一步增加,性能趋于降低。原因是,作为b增大,信息瓶颈对信息的压缩能力逐渐提高,从而降低输入的噪声。但是当b太高时,相关特征可能丢失,这导致当b>0: 01时准确度降低。多分辨率融合:我们评估了两种不同的影响-最后,对MRF-I(Nearest-Layer Fusion)和MRF-II(Bottom-UpFusion)两种融合方法对模型分割性能的影响进行了比较。 根据图7、在跳步连接中加入MRF模块,使分割结果更加准确。这是因为当编码器中的高分辨率特征图与低分辨率特征图融合时,其可以帮助高分辨率特征图获得高级语义信息。因此,语义鸿沟得到缓解。此外,当与更多的低分辨率特征图融合时,高分辨率特征图可以获得更多的语义信息,这可以更好地缓解语义鸿沟。因此,MRF-II(Bottom-UpFusion)对模型预测结果的改善更为明显。此 外 , UCTansNet ( Wang 等 人 , 2022 a ) 和 Trans-Norm(Azad等人, 2022)模型是对TransUNet模型的跳过连接部分的改进。与它们相比,MRF模块仍然具有竞争力。将MRF-II模块与信息瓶颈相结合,进一步提高了模型的性能注意力块:我们分析和讨论了我们模型中使用的注意力块的位置和数量。目前,许多研究人员倾向于在网络中添加更多的注意力块(例如,ResUNet++(Jha等人,2019)、SAUNet(Sun等人,2020)、MSRF-Net(Srivastava et al.,2021年,这可能不是一个好主意。我们认为,虽然注意力障碍有助于模型学习特征。然而,在添加更多的注意力块后,模型的参数会增加,过拟合的风险也会增加。我们进行了对比实验来验证这一猜想:在第一种配置中,我们在解码器中的每一层的末尾添加SE块;在第二种配置中,我们只在最后一层的末尾添加一个SE块。表4中的实验结果表明,第一种配置未能提高性能,并且具有负面影响。而只在解码器的最后一层添加SE块更有利于提高分割精度。批量:我们用不同的批量进行了实验(例如,8、16和24)。从表5中的实验结果可以看出,我们的模型在所有三种批量大小下都优于TransUNet模型当批量大小等于8时,性能是G. Li,D.金角,澳-地Yu等人沙特国王大学学报257见图6。 不同b值下模型的分割精度。见图7。多分辨率融合对分割精度的影响。后三个是我们的模型,其中MRF-I代表最近层融合,MRF-II代表自底向上融合,MRF-II + IB代表将自底向上融合和信息瓶颈一起添加到模型中最好的,与平均DSC和平均HD优于目前的SOTA模型。然而,batch size = 8下的模型训练时间是batch size = 16下的两倍因此,考虑到较长的训练时间,我们之前的所有实验都使用批量= 16进行。5. 结论本文创新性地提出了IB-TransUNet模型。据我们所知,这是第一个研究结合IB和trans-former的医学图像分割任务。通过引入IB层,该模型可以在捕获长距离空间关系的同时压缩不相关的特征,从而提高了模型的鲁棒性,并降低了通常较小的医学图像数据集的过拟合风险。此外,我们还设计了多分辨率融合模块,将高分辨率和低分辨率的特征图按照自下而上的顺序进行融合,编码器和解码器中的特征图之间的语义差距。最后,在解码器中添加一个带有残差的通道注意块在两个公共数据集上的实验结果表明,我们提出的IB-TransUNet模型优于SOTA模型.竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。确认本研究得到了国家自然科学基金项目61902225和山东省自然科学基金项目ZR 2021LZL 011的资助。G. Li,D.金角,澳-地Yu等人沙特国王大学学报258引用Al-Dhabyani,W.,Gomaa,M.,Khaled,H.,Fahmy,A.,2020.乳腺超声图像数据集。数据简报28,104863。Alemi,A. A.,费希尔岛,狄龙,J.V.,墨菲,K.,2016.深度变分信息瓶颈,arXiv预印本arXiv:1612.00410.阿扎德河,AL-Antary,M.T.,Heidari,M.,Merhof,D.,2022年。Transnorm:Transformer为深度分割模型arXiv预印本arXiv:2207.13415提供了强大的空间规范化机制。曹,H.,王玉,陈杰,江,D.,张,X.,Tian,Q.,王,M.,2021年Swin-unet:用于医学图像分割的Unet-like纯Transformer,arXiv预印本arXiv:2105.05537。陈杰,吕,Y.,余,Q,Luo,X.,Adeli,E.,王玉,卢,L.,Yuille,A.L.,Zhou,Y.,(1996年),中国科学院,2021年Transunet:Transformers是医学图像分割的强大编码器,arXiv预印本arXiv:2102.04306。Alberto,Alberto,Abdulkadir,A.,Lienkamp,S. S.,布罗克斯,T.,龙内贝格湖,澳-地2016. 3d u-net:从稀疏标注中学习密集体积分割。参加:医学图像计算和计算机辅助干预国际会议.施普林格,pp.424- 432多索维茨基,A.,拜尔湖,科列斯尼科夫,A.,魏森伯恩,D.,翟某,翁特锡纳,T.,德加尼,M.,明德勒,M.,海戈尔德,G.,盖利,S.,例如,2020.一张图像值16x16个单词:变形金刚用于大规模图像识别,arXiv预印本arXiv:2010.11929。Hafez-Kolahi,H.,Kasaei,S.,2019.信息瓶颈及其在深度学习中的应用,arXiv预印本arXiv:1904.03743。Hatamizadeh,A.,唐,Y.,Nath,V.,杨,D.,Myronenko,A.,Landman,B.,罗斯,HR,徐,D.,2022. Unetr:用于3D医学图像分割的变换器。在:IEEE/CVF计算机视觉应用冬季会议论文集,pp。574-584.Hervella,AS,Rouco,J.,Novo,J.,Ortega,M.,2020.配对数据集上视网膜图像的自监督多模态重建。专家系统应用161,113674。黄,H.,林,L.,Tong,R.,Hu,H.,张,Q,Iwamoto,Y.,汉,X.,陈玉- W.,吴,J.,2020年。Unet 3+:一个用于医学图像分割的全尺度连接Unet。ICASSP2020 -2020IEEE声学,语音和信号处理国际会议(ICASSP)。IEEE,pp. 1055- 1059胡,J,沈,L.,Sun,G.,2018.压缩-激励网络。在:IEEE计算机视觉和模式识别会议论文集,pp。7132- 7141Ibtehaz,N.,Rahman,理学硕士,2020年。MultiResunet:重新思考用于多模态生物医学图像分割的u-net架构。神经网络121,74-87。Jha,D.,Smedsrud,P.H.,Ri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功