没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报GAM-SpCaNet:基于梯度感知最小化的脊髓卷积注意力网络,用于脑肿瘤分类唐朝生a,李斌a,孙俊鼎a,王水华a,b,c,张玉东a,b,c,张a河南理工大学计算机科学与技术学院,河南焦作454000b莱斯特大学计算与数学科学学院,英国莱斯特LE1 7RHc沙特阿拉伯吉达21589阿卜杜勒阿齐兹国王大学计算机和信息技术学院信息系统系阿提奇莱因福奥文章历史记录:收到2022年2022年12月29日修订2023年1月2日接受在线预订2023年保留字:脑肿瘤分类梯度感知最小化间歇性全连接层位置注意卷积块相对自注意Transformer块A B S T R A C T脑肿瘤是中枢神经系统的常见病之一,发病率和死亡率都很高。由于脑肿瘤类型和病理类型的广泛性,同一类型分为不同的亚级。影像学表现复杂,给临床诊断和治疗带来困难。在本文中,我们构建SpCaNet(脊髓卷积注意力网络),以有效地利用脑肿瘤的病理特征,由一个位置注意力(PA)卷积块,相对自我注意力Transformer块,和间歇性全连接(IFC)层。我们的方法在识别脑肿瘤方面更轻量级和有效。与SOTA模型相比,参数数减少了3倍以上.此外,针对传统随机梯度下降(SGD)方法泛化能力不足的问题,提出了梯度感知最小化(GAM)算法,并将其用于SpCaNet模型的训练与SGD相比,GAM取得了更好的分类性能。实验结果表明,该方法的分类准确率达到了99.28%,在脑肿瘤分类中取得了较好的效果。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍脑肿瘤是大脑中的异常组织,由可以持续分化的癌细胞组成。它会压迫神经组织,给病人带来巨大的痛苦,如头痛、虚弱、麻木、恶心、呕吐或癫痫发作。调查显示,治疗一名脑瘤患者的平均费用为在美国,190万美元,这给家庭和社会带来了巨大的经济世界卫生组织将脑肿瘤分为四个等级。肿瘤分级越高,预后和生存率越低(Addeh和Iri,2021)。也就是说,早期癌症诊断可以检测到潜在的肿瘤,*通讯作者。电 子 邮 件 地 址 : tcs@hpu.edu.cn ( 中 国 ) Tang ) , libin@home.hpu.edu.cn( B.Li ) , sunjd@hpu.edu.cn ( J. Sun ) , shuihuawang@ieee.org ( S.-H.Wang),ieee.org(Y.-D. 张)。沙特国王大学负责同行审查制作和主办:Elsevier防止它们进一步发展和恶化为癌症。非侵入性方法,如CT和MRI,诊断大多数脑肿瘤。然而,脑肿瘤图像的手动评估是复杂的,并且目前的无创诊断需要丰富的临床经验,这很快造成误诊(Afshar等人, 2018年)。深度学习技术为医学图像分析提供了巨大的优势,可以更好地诊断脑肿瘤。Zhou等人(Zhou,2018)通过递归神经网络训练不同类型脑肿瘤的图像,并通过DenseNet-LSTM获得了92.13%的准确率。他研究的关键是直接使用整个3D图像序列作为训练样本来对2D图像切片进行建 模 , 省 去 了 单 独 标 记 序 列 中 每 个 帧 的 耗 时 过 程 。 Chang 等 人(Chang,2017)对259例胶质瘤患者的MR成像数据和分子数据进行了一项回顾性研究。他们提出了2D/3D混合CNN来分类IDH 1突变和1p19 q共缺失。与以往研究不同的是,本文采用主成分分析技术来确定每种分子状态的最佳预测成像特征。预测准确率为分别为94%和92%。Yang等人(Yang等人,2018)分析了AlexNet和GoogLeNet在区分神经胶质瘤方面的性能。他们比较了两个CNN训练的准确性https://doi.org/10.1016/j.jksuci.2023.01.0021319-1578/©2023作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comC. 唐湾Li,J.Sun等人沙特国王大学学报561××用预先训练好的CNN从头开始结果显示,一个预先训练好的CNN和GoogLeNet 可 以 达 到 94. 5% 的 准 确 率 。 Jiang 等 人 ( Linqi 和Jingyang,2022)提出了SE-ResNeXt来简化胶质瘤的分类过程。在研究中使用了三种优化方法。首先,采用多步学习策略动态调整学习速率。其次,采用标签平滑策略优化唯一的热标签,以减少网络对真实标签概率分布的依赖,提高网络的预测能力。最后,基于CE-MRI的迁移学习方法简化了迁移学习过程。准确性和特异性均达到98.99%,在BrTS2019数据集上分别为98.33%。Gull等人(Gull和Khan,2021)提出了用于脑肿瘤检测的全卷积神经网络(FCNN)和转移学习技术该框架分为五个阶段:预处理,颅骨解剖,肿瘤分割,后处理和二进制分类。此外,全局阈值技术已被用来消除增强的小的非肿瘤区域,和焦点损失函数被用来解决类别不平衡的问题。平均分类准确率分别为96.49%、97.31%和98.79%Rao等人(Rao,2022)在肿瘤分类研究中提出了核支持向量机(KSVM)和社会滑雪驱动(SSD)他们使用基于NMF的预处理来执行图像平滑和质量增强,并通过二项式阈值分割方法将图像划分为非重叠区域。在分类的预处理过程中,他们将灰度共生矩阵和SGLDM相结合来处理特征提取,并利用Meta启发式HHO算法来选择最佳然而,很少有研究报告了以下三个问题。首先,在特征提取过程中特征图的位置信息会丢失,这导致特征提取不足。随着卷积层数的增加,映射到原始图像的特征图的感知场变大,对位置信息的感知变差,从而丢失一定量的位置信息。这导致位置信息的利用不足。Amirul等人(Islam和Bruce,2001)解释了位置信息如何暴露于神经网络学习。实验表明,位置信息是隐含在提取的特征图,可以在很大程度上利用。然而,最近的研究很少考虑位置信息在脑肿瘤的诊断。第二,基于锐度的学习方法受到模型参数的重新缩放敏感性的影响,这削弱了锐度和泛化间隙之间的相关性。最近,许多学者研究了深度神经网络的泛化能力,以解决纯优化的缺点。他们试图阐明损失表面的几何形状与泛化性能之间的关系,其中损失表面的锐度和导出的泛化边界的最小化已被证明是有效的(Sun等人,2021;Chaudhari,2019/12/202019.; M. H , 2016; Hochreiter 和 Schmidhuber ,1997)。然而,即使是基于锐度的学习方法,包括SAM(Foret et al,2010)和一些锐度度量,也会对重新缩放模型参数敏感。 Dinh等人(Dinh等人,2017)指出,在不改变损失函数的情况下参数重新缩放会导致锐度值的差异,因此该特征可能会削弱锐度和泛化误差之间的相关性。为了补偿尺度相关的锐度问题,学者们最近进行了许多研究(Tsuzuku等,2020; Yi等人,2019; Liang等人,2019年; Karakida和Amari,1906年)。然而,这些以前的工作仅限于提出泛化措施,不遭受规模依赖的问题。第三,冗余参数和过拟合问题由全连接(FC)层引起。由于FC的全连接特性,它通常具有最多的参数。传统上,作为模型的最后一层,FC充当分类器。然而,随着网络规模的增大,FC权值的大小急剧增大,这很快导致过拟合。虽然目前的研究(Byerly和Dear,2021; Kowsari等人, 2018; Bengio等人,2013年8月; Ciregan等人,2012)已经关注了这个问题,其效率和识别精度差的问题没有得到很好的解决。针对上述问题,我们提出了一种新的计算机辅助诊断方法,用于诊断疑似脑肿瘤。主要贡献如下:1) 增强注意(RA)被提出来保持长距离的空间依赖性和精确的位置信息,以提高注意的对象。2) 为了解决规模依赖问题,提高泛化能力,我们设计了一个GAM优化算法。3) 为了防止基本特征的丢失,解决参数冗余和过拟合问题,我们提出了一个IFC层。其余结构如下:第2显示数据集和预处理过程,第3节描述方法,第4节显示实验结果和讨论,第5节提供结论和后续工作。2. 数据预处理2.1. 数据集来源为了使实验过程更容易实现,实验结果更具可比性,我们使用了BraTS2019数据集,该数据集共有3040张包含脑肿瘤患者MRI和良性患者MRI的图像。图1显示了本文的样本数据集。其中,第一排是恶性患者,第二排是良性患者。我们随机选择每类图像的80%作为训练集。剩下的20%的图像用作测试集。我们保持训练集和测试集的划分比例相同,以执行5倍交叉验证。2.2. 数据增强由于本研究中的数据集来自不同的来源,图像的大小变化很大,我们对BraTS 2019数据集进行了不同的数据增强操作,包括调整大小,随机旋转,随机裁剪和随机水平翻转。具体操作如图2所示,图2以两幅图像为例。首先,考虑到每个样本图像的大小不同,将所有图像的大小调整为230 230,然后随机旋转15度。最后,我们将图像随机裁剪为224224,并执行随机水平翻转操作。通过数据增强操作,可以有效提高网络模型的鲁棒性(Perez,2017)。3. 方法3.1. SpCaNet虽然transformers具有更大的容量,但它们的泛化能力可能比卷积神经网络(CNN)差(Wu,2021)。我们设计了一种串联堆叠方法,通过以下方式将卷积的电感偏置集成到Transformer中:(a) 为所述注意力层施加局部感知场,以及C. 唐湾Li,J.Sun等人沙特国王大学学报562PT应用于Eq.(3)或Eq.(4)对原始输入,进行计算Fig. 1. 本研究中的数据集。图二. 数据扩充过程。(b) 增加了注意力层和具有隐式或显式卷积运算的前馈神经网络层深度卷积和自我注意力是预定义感受野中每个维度的加权值之和。卷积依赖于一个固定的内核来收集关于局部感受野的信息:其中,G表示全局空间,Aij表示注意力权重,并且xi、xij是图像的两个块。自注意力的输入自适应加权。这使得自我注意力更容易捕捉不同元素的关系。此外,自我注意提供了一个全局感受野,它比CNN的局部感受野能获得更多的上下文信息zi¼Xj2fiwij xj:1如Eq. (3)Eq.(4)将自注意力的输入与自适应加权相结合,由方程式(1),xi,zi2RD分别是位置i处的输入和输出,w是权重矩阵,fi是中的局部邻域在softmax归一化的基础上,对自适应注意力矩阵加入核函数,具有平移不变性。位置岛 深度卷积具有平移不变特征,特征卷积权重wij侧重于相对偏差X.表达式xT xj我i和j之间的偏移量,而不是i和j的特定值。Z柱¼j2G国际新闻报kG指数xkxj2013年位置不变性提高了泛化能力。2我相比之下,自我注意力的感知领域(Vaswani等人, 2017)不是局部邻域,其权重计算基于成对相似性,然后由softmaxz前X. 表达式xTxjwijx 4我功能如等式1所示。(二):我1/2GPk2Gexpr xTxk wikjzXexp.xT xjj2Gk2G我 K全球范围内有一个平方的复杂性,在斯帕-2i¼X实验xTxX;冠状动脉大小(Guo et al,2202)。因此,如果相对注意力直接|ffl fflffl ffl ffl ffl ffl ffl ffl ffl ffl ffl ffl ffl{zffl ffl ffl ffl fflffl ffl ffl ffl ffl ffl ffl ffl ffl}Aij速度将由于大量像素而急剧下降我我C. 唐湾Li,J.Sun等人沙特国王大学学报563×H××.. ΣΣΣΣ×C2CCH因此,在特征图达到可管理的水平之后,采用下采样来减小空间大小并应用全局相对注意力。图 3显示了SpCaNet的一般结构。茎卷积由两个3 3卷积组成,旨在降低维数,并使全局注意力可行时,整体的大小增加。与使用局部注意力机制的模型相比,SpCaNet总是使用足够的注意力来保证模型如图3(e)所示,相关的Transformer占据了大部分计算和参数。对于所有通用卷积和PA卷积块,内核大小设置为3。对于所有的Transformer块,注意头分别设置为32。反向瓶颈的通货膨胀率为4.SpCaNet垂直堆叠卷积层和注意力层。在最后一层,我们采用IFC减少计算量,通过渐进式和通道间关系,以增强特征表示。图4示出了RA的详细步骤。由于全局池方法将全局空间信息压缩到信道描述符中,导致难以保持位置信息。为了获得对图像宽度和高度的关注并对精确的位置信息进行编码,RA机制首先将输入特征图划分为两个方向,宽度和高度。然后执行全局平均池化,以分别获得宽度和高度方向上的特征映射如Eq. (5)Eq. 其中,yhh、yww是高度h和宽度w处的第c个通道的输出,其通过使用大小为H× 1和1× W的池化内核1Xyhxch;i;5C输入和特征拼接。SpCaNet提供更多全球信息脑肿瘤图像,这是更敏感的病变面积W0 i≤ W并且具有计算开销小的优点3.2. 强化注意力位置信息是生成空间选择性注意地图的关键。为了解决位置信息利用不足的问题,学者们试图确定这个问题。 SENet(Hu等人,2017)简单地挤压每个二维特征图,然后有效地构建通道之间的相互依赖性。CBAM(Woo等人, 2018)通过大规模内核卷积引入了空间信息。GENet(Hu等人,2017)、GALA(Linsley等人,2019)、AA(Bello等人, 2019)和TA(Misra等人, 2021)通过设计空间注意和注意块扩展了上述思想。然而,SENet(Hu等人, 2017)仅考虑信道间信息。CBAM和后来的方法主要使用卷积来捕获注意力信息,这不足以对长期依赖性进行建模。为了优化上述问题,构建了非局部/自注意网络以关注空间和信道 注意力, 例如 GCNet ( Cao et al. , 2019 )、 SCNet(Liuet al., 2020)、CCNet(Huang等人, 2019)、NLNet(Wang et al., 2018年),它可以捕捉不同的空间信息,通过利用非本地机制。然而,这些方法在计算上是昂贵的。与非局部/自注意方法不同,我们提出了一种新的RA方法来有效地捕获位置信息。yww1Xxcj;w:60 j≤ H然后,全局感知场的宽度和高度被缝合在一起并被馈送到共享卷积模块中,-11卷积核,以将其维数减少到原始C= r。然后,批量归一化的特征映射被馈送到ReLU激活中功能到获得一特征地图成形如1×W×H× C= r。如等式1所示其中T1是1× 1卷积,yh,yw是水平和垂直方向的特征图。a¼ ReLU T1 yh; yw:170然后根据原始高度和宽度将特征图aRC=r× H H H H W与核1 1卷积,以获得与原始通道数相同的特征图。1,并在Sigmoid激活函数之后获得特征图的高度和宽度方向上的注意力权重kh和kw如等式1所示(8)Eq.其中,ah和aw是通过在空间上分裂a而获得的两个独立张量。维数,r是Sigmoid函数,Th和Tw是两个11卷积以将特征映射h和w变换到相同的通道。kh¼r.Th.ah;8图三. SpCaNet的结构C. 唐湾Li,J.Sun等人沙特国王大学学报564见图4。 RA Block的结构。图五.改进的PA卷积块的结构。C. 唐湾Li,J.Sun等人沙特国王大学学报565××××××××××-CcXkwrtwaw:9在上述计算之后,将获得输入特征图在高度方向上的关注度权重和在宽度方向上的关注度权重。最后,将原始特征图相乘并加权,将获得在宽度和高度方向上具有注意力权重的最终特征图,如等式(1)所示。(十)、yci;j xci;jx khix kwj:103.3. PA卷积块为了解决卷积与Transformer结合时的失配问题,提出了PA卷积块.PA卷积块的整体架构如图5所示,其使用具有反转残差的深度卷积。扩展压缩方案与Transformer的前馈神经网络模块相同PA卷积块首先执行11卷积以进行维度上缩放,然后执行深度方向可分离卷积。右侧短接部分增加RA。首先,从Swish激活函数传递的特征图经受来自X和y方向的一维平均池化,以获得具有全局感知场的两个方向特征图将获得的特征图缝合在一起,然后馈送到共享的11卷积中,批量归一化,最后传递到sigmoid激活函数。然后,通过Swish(Ramachandran和Le,2017)对处理图像的特征图执行通道乘法最后,利用1 - 1卷积对特征图进行在一系列批量归一化和丢弃连接操作之后,对左侧的短连接部分和PA卷积块的主干的信息执行逐元素加法以获得输出。上面使用的深度方向可分离卷积是用于减少参数的技术,其对应于图5中的深度方向卷积和点方向卷积。具体结构如图6所示。深度可分离卷积将普通的3 3卷积分成两个卷积。第一个卷积应用3 - 3卷积到每个输入通道.卷积核卷积一个通道。这种操作称为深度卷积。另一个卷积应用11克-nel到所有通道以通过加权生成新的特征图在深度方向上的先前特征图的组合,这被称为逐点卷积。深度方向可分离卷积与普通的3 - 3卷积变换一样,具有减少参数的优点。但其运行效率仍有待提高。因此,我们提出了融合反转残差,如图所示。7.第一次会议。我们把第一个3 3卷积和第二个1 1卷积的上部反转残差块到一个3 3卷积,以得到融合反转残差的下侧,这解决了由深度方向卷积引起的缓慢同时,它可以加速PA卷积块的运算。为了引入权重稀疏性,我们在PA卷积块中提出了DropConnect操作而不是Dropout,减少了过拟合并提高了性能。 如图 8,隐藏层节点的输出不是随机清零,而是以1p的概率清零连接到它的每个节点的输入权重。 图 8,v是输入层,r是输出层,两者都是n × 1维列向量。W是权重参数的多维矩阵,α k x是满足α k 01/20的激励函数的形式,m是由0,1组成的列向量,m与α k Wv的乘积是对应的ing元素。右侧是类似的,其中M是用于编码连接信息的二进制矩阵。3.4. 相对自关注Transformer块Transformer(Vaswani等人,2017)是用于学习序列元素之间的 关 系 的 自 我 注 意 机 制 。 提 出 了 基 于 注 意 头 的 相 对 自 注 意Transformer模块,有效地利用了序列元素之间的相对位置和它可以形成自我注意子层的输出。自注意子层采用自注意头。应用每个头连接和参数线性变换以获得子层的输出:nzi<$aijxj WV:11第1页由方程式每个注意力头对输入片的n个元素进行操作,其中xi2Rdx,并且计算新的序列见图6。 深度卷积和点卷积的结构。见图7。 熔融倒置残留物。C. 唐湾Li,J.Sun等人沙特国王大学学报566X¼ð Þ2PIJIJ见图8。 删除连接块。zz 1;::; z n,其中z iR dz。为了将输入补丁的相关信息传播到子层输出,我们修改Eq. (十一):nzi<$aij xj WVaijV;12第1页其中,a ij是权重系数,由等式2计算。(13)使用soft-max函数:3.5. 间断全连通层FC层的隐藏层的大小至关重要。具有更多参数的大部分隐藏层通常提高预测精度,但显著增加权重的数量。而且一个小的隐藏层不能很好地传播所有输入特征,导致次优结果。为了弥补这两个缺点,并解决参数冗余和过拟合所造成的全连接层,我们提出了IFC层。IFC的架构如图10所示,包括输入层、中间层和输出层。一、特征图aex p.艾伊杰从Transformer块获得的数据被分成1-k、k-2 k、2 k-3 k。13M,其中k是需要设置的超参数,M是大小联系我们k¼ 1经验;整个输入。我们采用分步重复输入模式,由多个分割数据组成的输入层。中-xWQ.xWKaKTIJIFC的隐藏层由不同的隐藏层组成,每个隐藏层由我eij¼Jpdz:1400多个神经元。输出层也由多个基于分类数的神经元互联网的数量RON通常保持较小以减少乘法次数由方程式(14)、输入补丁xi之间的相对信息xj用向量aV;aK2Rda表示。通过比较两个输入元素的兼容性函数来计算eij,其中WQ、WK、WV是用于每个层和注意头的参数矩阵。在相对自注意Transformer中,面片之间的相对位置取代了绝对位置。图9示出了具有元素之间的相对位置和距离的一些示例贴片。我们学习k距离内的相对位置的表示。当考虑相对位置时,不同位置对的表示是不同的。这使得它不可能计算所有的eij的所有位置与单一的矩阵乘法。因此,我们分解Eq。(14)分为两项来解决:xWQ x WKTx WQ。一个KT:由于中间隐藏神经元的数量通常很小,因此网络可能不适合。因此,我们让每一层重复接收来自前一层的输入,以保留中间层的某些渐进和重复的输入函数使神经网络能够以更少的参数实现所需的结果,以更快的响应提高性能3.6. 梯度感知最小化为了解决尺度依赖问题,提高泛化性能,我们引入了尺度不变自适应锐度的概念,提出了一种新的学习方法GAM。在GAM中,采用梯度感知锐度来最小化对应泛化束缚,这可以避免eij15ÞSAM面临的规模依赖问题(Foret et al,2010)。基于联系我们pdz由方程式(15),第一项与Eq相同。(14)并可如上计算。第二项是相对位置的表示,它可以使用张量整形来计算矩阵的n次并行乘法。每个矩阵乘法计算对应于特定序列位置的所有头部和批次对eij的贡献。相对自注意力Transformer块在计算过程中引入了相对位置信息,从而打破了自注意力的置换不变属性(Vaswani等人,2017年),并完善补丁之间的关系建设。见图9。 与示例贴片的相对位置。C. 唐湾Li,J.Sun等人沙特国王大学学报567ðþÞt S twtð Þ≤W2Wpþet¼r×Nw签名nrLSwt签名不年NSðþeÞ þk k:StW见图10。 IFC层。表1脑肿瘤诊断和检测的最新算法作者模型数据集研究目的Zhou等人 (Zhou,2018)DenseNet-LSTM422 MRI扫描,包含正常对照图像以及三种类型的脑肿瘤诊断和预后Chang等人(G. J. Chang P,Weinberg BD,,2018)259例胶质瘤患者的2D/3D混合CNN诊断Yang等人(Y. L. F.杨燕,张X,,2018)AlexNet和GoogLeNet与预训练的CNN52例患者(II级:25例,III级:27例),LGG和61例HGG检测Jiang等人 (C. N. 林琪J,景阳L,,2022)SE-ResNeXt BraTS 2019数据集检测Gull等人(A. S. Gull S,Khan HU,,2021)全卷积神经网络(FCNN)和转移学习技术Rao等人(K. K. Rao C S,,2022)核支持向量机(KSVM)和社会滑雪驱动(SSD)算法BraTS2019数据集检测BraTS2019数据集诊断根据推广度量与损失最小化之间的关系,提出了损失函数的自适应锐度,并定义了由归一化确定的最大锐度区域。配合到最大LSxe的一阶近似方法。由于argmaxLswtNwte~ argmaxe~TNwtrLswt,因此如下-操作员。 具体来说,我们使用尺度不变的梯度感知k~ekp≤rk~ekp ≤r锐度措施以克服锐度训练引起的尺度依赖性的副作用。类似地,可以经由从等式导出的梯度感知锐度来获得泛化界限。(16)SAM(Foret etet al,2010)。可以得到以下公式:表1e~1/4argmaxL.wNe~.k w k 2!ke~kp≤rQ- 1LDw≤ max LSwe h22;1600万<$r×signrLwjNwtrLSwtj;20kekp≤rrkrLwkq-1.kwk2!wt S tqLD w maxkN-1ek ≤ r L.S.W.W.2n2r 2:1717其中e〜1/4N-1e。然后,GAM的两步过程可以是W2描述为:由方程式(17),N-1是Rk的正规化算子,h是Rk上的严格增函数!Rk,n<$jSj,r<$pkr1plogn=k。8<不jNwrLSwtjq-1kNwtrLSwtkq-:21由梯度感知锐度描述:wt1¼wt-atrLSwtetkwt.!.kwk2!表2显示了GAM算法的原理和过程MaxkN-1ek ≤ r LSwe- LSwn2r2:1880该算法Wp算法的输出是模型的训练权重。首先,我们设置自从H。kwk2是一个严格递增的函数,它可以超参数p为2。对于输入,我们首先定义损失n2r22函数,然后设置半径最大化区域r,权重被视为标准的L2正则化项(Foret et al,2010)。因此,梯度感知最小化问题可以定义为:min最大长度wk w219WkN-1ek ≤r22为了解决Eq中的Minimax问题。(19),我们找到最佳参数e。与SAM相似(Foret et et al,2010);e可以近似为衰减系数k和学习速率a。GAM通过迭代地应用t= 0,1,2,... . 由等式(21).对于t = 0,1,2,.. . ,n,特别是如果p≥ 2,则可以获得e的计算公式,如表2所示。在固定半径r的刚性区域中,GAM估计点wt在其损失近似最大化并且执行梯度在wt附近上升,然后使用最大点wt=t处的梯度在wt处执行梯度下降。在训练阶段,在方程的右侧的推广界(17)可以2C. 唐湾Li,J.Sun等人沙特国王大学学报568e:¼NrLBwr,RI¼¼¼¼¼¼表2GAM算法的原理图。算法:梯度感知最小化(p= 2)输入:训练数据集S:1/4 Un1fixxi;yifixg,损失函数l,批量大小b,最大化区域的半径r,权重衰减,系数k,预定学习速率a,初始权重w0。输出:一个模型,训练权重为w。初始化权重:w:¼ w0,虽然模型不收敛,但从S中取样一个尺寸为b的小批次B2WkNwrLBwk2w:¼w-aL Bw e kw.end whilereturn w精密TP公司简介召回TPTPFFN专属性TNFP- 100F12×精度×召回精度×召回准确度TP< $TN TP<$FN<$TN<$FP4.3. 设置超参数ð22Þð23Þð24Þð25Þð26Þ对每批迭代计算最优e,并根据e更新初始化权重w,直到算法收敛。4. 实验4.1. 实验设置我们的实验是在NVIDIA QUADRO RTX 8000上进行的,其CUDA版本为10.2。服务器的GPU内存为48 GB,内存类型为GDDR6。所有的实验都基于Python 3.9。实验中采用的框架是Pytorch(Paszke等人, 2019)和scikit-learn(Pedregosa等人,2011)。4.2. 业绩计量K折交叉验证通常用于测试分类模型的准确性 我们将BraTS 2019数据集分为五个部分,并在每轮算法实验中使用四个部分作为训练集,一个部分作为测试数据,如图所示。 十一岁这种操作的优点是可以将比例保持在8:2,这更好地保证了测试集的大小。每一次试验都会产生一个正确率。它将5个正确率的平均值视为准确度的估计值。五个评价指标已被用来评估我们的方法:精确度,召回率,特异性,F1分数,和准确性。它们的定义如下:超参数的设置尤为重要,一般由经验决定,如批量大小和学习率。Batch Size是为训练会话选择的样本数批量大小影响模型优化的程度和速度,并直接影响GPU内存的使用。 GPU到2的幂的批量可以发挥更好的性能,所以设置为16、32、64、128。. ,这通常比设置为10或100的倍数时更好在我们的研究中,当设置批量大小时,首先选择较大的如果没有收敛或收敛效果不好,批量大小将减小。最后,我们选择批量大小为64。初始学习率对深度网络的收敛起着决定性的作用如果初始学习率太低,网络的损失会下降得很慢;如果初始学习率太大,参数更新的范围会很大,这会导致收敛到局部最优解,或者损失会直接开始增加。在网络训练过程中,学习率的选择策略是不断变化的。在开始时,参数是相对随机的,所以我们应该选择一个相对较大的学习率,这样损失会减少得更快。经过一段时间的训练,参数的更新应该有一个较小的范围,因此学习率一般会衰减。衰减的方式有很多种,我们采用指数衰减方法之一StepLR的方式及其具体步骤如表3所示。首先,我们将学习率初始化为见图11。 K-折叠过程。C. 唐湾Li,J.Sun等人沙特国王大学学报569¼101010a00:01,然后根据当前epoch n和用于训练的总epoch数N调整当前学习速率a。4.4. 用优化算法我们首先研究了卷积和注意块的堆栈方式对最佳性能的影响。卷积仅在特征图足够小以进行处理时才执行下采样和全局相对注意力操作。有两种方法可以进行下采样。第一种是将图像划分成块,如在ViT模型中(Dosovitskiy等人,.,表3StepLR学习率设置的伪代码StepLR程序输入:总epoch的数量N,初始学习率a0,当前epoch n。输出:当前学习率a。如果n N×<3,则执行:a:1/4a0elif n N×<6,do:a:1/4a0×0: 2 elif n N×<8,做:a:¼a0×0: 22 else,do:a:¼a0×0: 23返回;返回表4不同Transformer和PA组合的比较。组合准确度(%)精密度(%)召回率(%)F1评分(%)AUCCPTT99.34 ± 0.3199.9499.6899.810.991CTTT99.31 ± 0.5399.4098.3198.850.983CPPT98.94 ± 0.2998.0899.4298.750.989CPPP98.81 ± 0.7697.3298.6597.980.974TTTT97.96 ± 0.7398.9097.8798.380.9822010年),和堆栈相关的自我注意力块。第二种是逐步汇集的多阶段运作。我们的方法可以分为四个阶段。第一阶段称为C,由经典卷积和PA卷积块组成,以实现降维。最后三个阶段由卷积块或Transformer块组成,产生5种组合:CPTT、CTTT、CPPT、CPPP和TTTT,其中P表示PA卷积块,T表示Transformer块。表4显示了针对不同组合获得的详细度量,并且每个指标的示意图在图1中示出。 12个。CPTT的准确率、精确率、召回率和F1评分与CTTT、CPPT、CPPP、TTTT的其他组合相比,CPTT在各项指标上的表现最好。4.5. 用最优化分析法在本节中,我们通过排列和组合不同数量的块和通道来进一步分析GAM对SpCaNet的影响。如表5所示,N表示每个模块的数量。这些模块包括经典卷积、PA卷积和Transformer。C表示每个模块传入的特征映射通道数。块与通道1-5表示经典卷积、PA卷积和Transformer的不同组合。对于通道L1至L4的数量,我们使用增量加倍,同时确保股骨柄L0具有与L1相同的较小或相等宽度。为简单起见,当增加网络深度时,仅缩放L2和L3中的块的数量。在图13中,点标记的大小表示参数的数量,并且准确度从Block vschannel 1到Block vs channel 5略微增加。Block vs channel1的准确率为99.28%,这与具有18.2M参数的其他方案的性能相似。其他组合的参数分别为33.6 M、56.1 M、118 M和205 M,这几乎是Block与channel1的两倍。考虑到精度和参数数量的平衡,我们在下面的实验中使用“Block vs channel 1 0”10099.59998.59897.59796.59695.595准确度精确度回忆F1评分AUCC-PTT C-TTT C-PPT P0-PPP T-T-T-T见图12。 不同组合对应的指标。C. 唐湾Li,J.Sun等人沙特国王大学学报表5570块和通道的不同组合设置L0-转换L1-PAConvL2-PAConvL3-TFL4-TF精度参数(男)块与通道1N = 2,C = 64N = 2,C = 96N = 3,C = 192N = 5,C = 384N = 2,C = 76899.28 ± 0.3818.2块与通道2N = 2,C = 64N = 2,C = 96N = 6,C = 192N = 14,C = 384N = 2,C = 76899.31 ± 0.6533.6块与通道3N = 2,C = 128N = 2,C = 128N = 6,C = 256N = 14,C = 512N = 2,C = 102498.89 ± 0.6756.1块与通道4N = 2,C = 192N = 2,C = 192N = 6,C = 384N = 14,C = 768N = 2,C = 153699.42 ± 0.34118块与通道5N = 2,C = 192N = 2,C = 192N = 12,C = 384N = 28,C = 768N = 2,C = 153699.65 ± 0.26205(N表示每个模块的数量,C表示每个模块传入的特征映射通道的数量图十三. 不同块数和通道数的精度。表6不同方法下的分类结果与SpCaNet基线。设置参数。(M)准确度(%)基线+东南欧25.87 97.6+1.1+CBAM25.88 97.8+1.3+RA 25.97 98.5+2.0+RA + IFC 18.21 99.1+2.6(A+B表示精度为A,将基线精度提高B)。4.6. 采用单独和混合策略为了证明所提出的RA和IFC的性能,我们进行了一系列消融实验,相应的结果列于表6中。这些实验表明,在计算成本相当的情况下,位置信息嵌入更有利于脑肿瘤图像的分类,RA实现了2.0%的准确率的最大提高。RA继承了通道注意方法的挤出和激发注意的优点,这些方法模拟通道之间的关系,同时利用精确的位置信息捕获长距离依赖性。在脑肿瘤分类中的实验证明了RA的有效性。在“+RA + IFC”与其他实验的对比实验中,可以看出所提出的IFC的性能进一步提高了性能。与基线FC相比,其参数量从25.97 M降至18.21 M。实验表明,IFC在降低计算成本的同时,实现了更高的脑肿瘤图像分类精度。4.7. SpCaNet的评价为了验证所提出的SpCaNet的有效性,我们使用单卷积网络、Vit-stem Transformer网络、多级Transformer网络和Conv + TFM网络在BraTS 2019上进行了比较实验,包括effi-cientnetv2_1(Tan和Le,2019); ResNet 152(He等人, 2016); DeiT(Touvron等人 , 2021 ) ; ViT-B/16 ( Dosovitskiy 等 人 , 2010 ) ; ViT-L/16(Dosovitskiy等人,2010); Swin-B(Liu等人,2021); Swin-L(Liu等人,2021);僵尸网络(Srinivas等人, 2021年)。每个方法通过观察每个模型PA卷积块和IFC的设计使SpCaNet更加轻量级。与其他模型的 FLOP 从 11443.2 到59669.8 M 相比,SpCaNet-1和SpCaNet-2的FLOP分别为3336.8 M和6846.4M,这显著减少了浮点运算。如图14所示,我们使用一个项目符号图来简要显示每个模型的准确率和参数,其中细黑线代表准确率,粗灰线代表参数的数量。例如,SpCaNet-1的准确率为99.18%,其参数数量为18.2 M.与僵尸网络(53.4 M)相比,SpCaNet-1的参数量减少了三倍以上与ViT-L/16(326.4 M)相比从各个模型的比较可以推断,SpCaNet在特征提取方面取得了最好的性能。C. 唐湾Li,J.Sun等人沙特国王大学学报表571571与其他卷积和Transformer模型的比较。只ViT-Stem(Tan和Le,2019)ResNet152(He等人,(2016年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功