脑磁共振图像深度学习阿尔茨海默病分类模型实验分析及性能优化

68 浏览量更新于2024-01-17 收藏 3.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报使用脑磁共振图像对不同的基于深度学习的阿尔茨海默病分类模型进行实验分析Ruhul Amin Hazarikaa，Debdatta Kandara，Arnab Kumar Majia，a印度梅加拉亚邦西隆东北希尔大学信息技术系，邮编793022阿提奇莱因福奥文章历史记录：2021年6月9日收到2021年8月25日修订2021年9月3日接受2021年9月17日网上发售保留字：阿尔茨海默轻度认知障碍（MCI）机器学习（ML）人工智能（AI）核磁共振成像（MRI）A B S T R A C T阿尔茨海默病（AD）的分类是神经科医生面临的最具挑战性的问题之一。手动方法很耗时，并且可能并不总是准确。由于大脑是AD中最受影响的区域，因此使用大脑图像的适当分类框架可以提供更准确的结果。深度学习（DL）是机器学习技术的流行代表，它模仿人脑处理信息的功能，并创建有助于做出复杂决策的模式。吸收信息的能力，即使是从非结构化和未标记的数据，使DL的研究人员的首选之一。在本文中，一些最流行的DL模型进行了讨论，以及他们的实施结果的AD分类。所有脑磁共振（MR）图像都是从在线数据集“阿尔茨海默病神经成像倡议（ADNI）”中获取的从所有讨论的模型之间的性能比较，可以看出，DenseNet-121模型达到了令人信服的结果，平均性能率为88.78%。但是DenseNet模型的一个局限性是它使用了大量的卷积运算，这使得模型的计算速度比许多讨论过的模型慢。深度卷积是使卷积运算更快更好的流行方法。因此，为了提高执行时间，我们建议用深度卷积层取代原始DenseNet-121架构中的卷积层新架构还提高了模型的性能，平均提高率为90.22%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍阿尔茨海默病（AD）是世界上主要的导致痴呆的死亡原因之一（Association et al.， 2018年）。显著的记忆丧失、认知衰退、情绪或个性的改变等是AD患者最常见的症状（Korolev et al.，2014年）。由于AD的大多数症状与人脑边缘系统控制的功能有关，因此，其部分成员，如海马、杏仁核等，遭受最大的痛苦（Moon等人， 2018年）。在经历严重的AD症状之前，大多数患者都会经历痴呆阶段，*通讯作者。电子邮件地址：arnab. gmail.com（A.K. Maji）。沙特国王大学负责同行审查称为轻度认知障碍（MCI），其中该人既不被称为认知正常也不是AD受害者（Gauthier等人，2006年）。在对AD进行分类时，MCI也被认为是最重要的变体之一。医生通常在神经学家、神经心理学家等专家的帮助下，使用各种方法和工具诊断AD（Association，2021）。手动方法包括病史检查、体格检查和诊断测试、神经系统检查、简易精神状态检查（MMSE）测试等步骤（协会，2021）。在手动方法中，老年AD患者需要经历几次测试，这些测试可能无法始终提供准确的结果此外，整个过程是耗时的，最终在经历了所有的手动测试后，神经科医生可能需要进行大脑成像测试。此外，记忆丧失始终AD主要影响脑中的灰色组织（Thompson等人，2003年）。在监测大脑变化的同时，观察到转变可能发生在一个人完全发育之前。https://doi.org/10.1016/j.jksuci.2021.09.0031319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comRuhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8577X1：100%---Þ]ðÞiiðÞ¼gn我我我X我··ð ÞAD （ Beason-Held 等人， 2013; Smith ， 2002; Sivera 等人， 2019年）。最初的损伤区域包括帮助形成神经元的区域，例如海马、内嗅皮层等（Moon等人，2018; Juottonen等人，1998年）。适度地，更多的神经元死亡并导致大脑的整体萎缩。通过从每个类别中提取特征，可以使用脑图像更准确地进行AD的分类（Oh等人，2019年）。不同痴呆阶段，即认知正常（CN）、MCI和AD的大脑图像样本见图10。1.一、人工神经网络（ANN）是机器学习工具的一个子集，它受到人脑工作结构的启发（Wang，2003）。人工神经网络建立了一个由几个人工神经元组成的这有助于机器从其环境中吸收新信息（Pagel和Kirshtein，2017）。当权重被分配时，在DNN中，所有数据都是完全或批量分布的，然后计算损失函数。损失函数是在预测输出中定义的误差的总和（Mebsout，2021）。这个过程被称为前向反射。两个最流行的损失函数，即均方误差（MSE）和二进制交叉熵（BCE），在方程中给出（3）和（4）。nMSE J w x f x w23ni¼11NBCE：Jwxlog½fx;w]1-xlog½1-fx;w]41/1神经元相互连接，并通过彼此共享信息作为处理单元工作为了准确分配权重，应用学习算法来训练网络（ Dreiseitl 和 Ohno-Machado，2002）。一旦网络得到良好的训练，它就能够对未知的测试数据进行分类。深度神经网络（DNN）是ANN的一个实例，其中在输入层和输出层之间，放置若干互连的神经元作为隐藏层。隐藏层帮助模型准确训练并产生其中，xi是实际参数，f xi;w是预测参数。在得到损失估计后，下一步是计算关于所有重要参数的成本函数的梯度，并采用下降法对其进行升级。这个过程被称为反向传播。反向传播的过程可以表示为方程：（5）和（6）。期望的结果（Raghavan等人，2016年）。DNN是图像识别领域中的流行方法（Xue等人， 2021年）。DNN梯度@J°w°@wð5Þ在数据中的信息难以理解的情况下有效使用，例如 MR 图像（Lundervold和Lundervold，2019）。一种典型的DNN图像分类模型W新¼W电流-@Jw当前6@w电流示于图二、如果w1;w2;w3;;wi是任何神经元“n”的输入权重则在“n”中的数学运算其中，g是学习率。如果执行反向传播从神经元“x”到神经元“y”，经由神经元“z”，则该操作可以表示为等式（七）、（一）.z¼Xwi×xib1@Jw@w1@Jw@y^@y^ @z7@z@w1我其中，“b”是偏置值。在计算出“z”之后，神经元“n”必须对输出做出决定。输出（二）、一些流行的激活函数的例子是，ReLu，Softmax，tanh，Sigmoid等。最大值为2.5，最大值为2.2，Fig. 1. a）CN患者、b）MCI患者和c）AD患者的脑MR图像样本。图二.用于图像分类的典型DNN的架构。虽然机器学习在AD相关研究中得到了广泛的应用，但就我们而言，一些DNN模型已经对AD分类进行了实验。目前，有各种现有的DNN模型可供实现。所有的模型都有其优缺点。为了帮助选择更好的DNN模型进行AD 分类，在这项工作中，我们考虑了从 LeNet （1989 ）到EfficientNet（2019）的20个最流行的DNN模型。我们考虑用于评估的模型有 LeNet 、 AlexNet 、 VGG-16 、 VGG-19 、 Inception-V1 、Inception-V2、Inception-v3、ResNet-50、ResNet-101、ResNet 50-V2、 ResNet 152-V2 、InceptionResNet、 MobileNet、MobileNet-V2 、 EfficientNet-B 0 、 EfficientNet-B7 、Xception 、 NasNet-A 、NasNet-C和DenseNet-121。考虑这些模型背后的主要动机是，i）LeNet是最古老和最简单的模型之一，广泛用于图像分类，ii）AlexNet是第一个在2012年赢得ImageNet大规模视觉识别挑战赛（ILSVRC）的DNN模型iii）大多数被评估的模型都被ImageNet数据库识别，ImageNet数据库此外，这些模型中的许多已经在不同年份的ILSVR挑战中获得了冠军，以及iv）尽管我们没有使用任何迁移学习方法，但所有讨论的模型（除了 LeNet 和 AlexNet ）都可以在 Keras 库（https://keras.io./ API/appli-cations/），这可以帮助研究人员最大限度地减少编码工作。为了进行训练和测试，从在线数据集ADNI（ADNI，2020）中获取了210多名患者的数据。性能进行了比较，在两个表格和图形表示。从实验分析中可以看出，LeNet是实现起来最简单的模型，它需要的计算时间非常少。总体而言，DenseNet-121模型在AD分类中实现了最高的性能结果。除了¼Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8578分类性能，DenseNet比其他DNN模型有几个优点。在医学成像中，所有信息都起着重要作用，而DenseBlock允许在所有层之间进行信息共享链，从而最大限度地减少整个网络中的信息丢失（Zhu和Newsam，2017; Zhao等人，2019年）。此外，在DenseNet中，使用了特征重用的概念，这有助于减少梯度以及过拟合问题（Zhang等人，2019; Zhu和Newsam，2017）。因此，我们将DenseNet-121作为进一步改进的基础模型。虽然DenseNet-121具有几个优点，并取得了最高的性能结果，但该模型使用了大量的卷积运算。因此，该模型需要更多的内存空间，执行时间比许多其他讨论的DNN模型要长。深度卷积是用于降低卷积复杂度的流行方法（Gomez等人，2020年）。在深度卷积中，针对不同通道单独执行卷积操作，并且在最后，将输出组合在一起。因此，为了减少计算时间和内存空间，我们将原始DenseNet-121架构中的所有卷积层替换为密集卷积层。改进的DenseNet- 121模型的性能结果也从88.78%提高到90.22%。这项工作的主要贡献可以总结如下：为了帮助选择更好的基于DNN的分类器用于使用脑图像的AD分类，我们总结了20种常用的DNN模型的架构。我们已经评估了AD不同阶段（即CN，MCI和AD）分类模型的实验结果。为了更好地比较模型的性能，我们根据不同年龄组的患者（60经过深入的实验分析，发现Dense- Net在分类上取得了最高的性能.但与许多其他讨论的模型相比，它消耗更多的内存空间和执行时间。为了克服这个问题，我们修改了DenseNet-121的架构，将所有卷积层替换为深度卷积层，这也提高了分类精度。本文的其余部分组织如下：a）在第2节中，我们讨论了使用基于神经网络的模型和大脑图像对AD进行分类的一些相关技术现状，b）在第3节中，我们总结了所有讨论的DNN模型的架构，c）在第4节中，我们介绍了讨论的模型以及改进的DenseNet- 121模型的实验结果，d）在第5节中，我们讨论了我们工作的结论和未来范围。2. 相关研究：使用ANN进行人工神经网络在AD分类中得到了广泛的应用其受欢迎的主要原因之一是它能够从环境中学习并在即将到来的迭代中提高其预测准确性（Dumitru和Maria，2013）。下面讨论AD分类中ANN的一些技术状态为了对AD进行分类，使用脑图像，Silvia Basaia等人。提出了一种基于ANN的分类模型（Basaia等人，2019年）。作者进行了体积测量操作，并使用该信息作为生物标记。设计了3D-CNN，其中考虑了卷积层的十二个循环块。除此之外，网络模型中还包括一个整流线性单元（ReLU）和一个完全连接的层，然后是一个输出层。在这个模型中，作者用卷积层取代了池化层。Jain et al.（2019）提出了一种使用脑MRI进行AD分类的方法。作者使用迁移学习方法来更快地训练模型。分析切片熵值，并考虑具有更多信息的切片进行进一步处理。受人工神经网络的启发，作者建立了一个基于PESECTL的AD分类数学体系结构。Lu et al.（2018）提出了一种新的基于DNN的分类器。在预处理中，从大脑图像中分离出灰质。从灰度图像中提取重要特征，以训练多模态和多尺度深度神经网络（MMDNN）。所提出的网络模型由两个块组成;在块1中，为每种模态构建了六个个性化DNN，而块2旨在提取从块1中挖掘的重要特征。通过卷积和递归神经网络（RNN）的组合，Manhua Liu等人提出了AD分类模型（Liu等人，2018年）。将每个3D脑图像转换为一组2D切片。为了准确地训练切片间和切片内特征的模型，CNN和RNN进行了组合。作者已经构建了几个2D CNN和RNN。CNN用于采用切片特征，RNN的门控递归单元（GRU）用于采用切片间特征。Liu等人（2018）提出了一种新的基于神经网络的AD分类模型。作者引入了级联CNN的概念，以训练关于多层次和多模态特征的模型。构建一组3D CNN，将大脑图像转换为一组密集的顶级特征。在获得顶层特征之后，构造2D CNN以协同所有顶层特征。所有挖掘的特征都是在一个完全连接的层的帮助下添加在一起的，该层由softmax层拖动。Ramzan等人提出了一种基于残差和深度神经网络的AD分类模型。（2020）。为了准确地训练模型，作者使用了ResNet模型的概念总共使用了三种ResNet模型，即单通道ResNet（1CR），现成（OTS）和微调（FT）。在模型中使用基于随机梯度下降（SGD）的求解器，同时考虑批量为32。作者得出结论，在三种ResNet模型中，OTS模型实现了最令人信服的性能。Liu等人（2020）提出了一种基于CNN的多功能AD分类模型。该模型被设计为联合训练海马分割以及AD分类。在所提出的模型中，设计了2个残差块（resblock）。resblocks由卷积层、批处理归一化（BN）、参数化校正线性单元（PReLU）激活和dropout层的集合组成。在resblock-1中，引入短相关来训练残差函数。resblock-2包括2个卷积层。多任务DNN传达多级别属性的特征。设计了一个基于DenseNet的 DNN模型来适应海马体的特征。Ohet al.（2019）提出了一种用于AD分类的新型3D-DNN模型。作者使用GoogLeNet-inception模型对所有输入的MR图像进行预训练。在此基础上，使用基于微调的算法来设计分类器。基于自动编码器的网络由一组卷积层、dropout层、ReLU和池化层构建。为了得到估计的空间影响，类显着性可视化（CSV）算法的概念被应用。为了更快地训练模型，作者使用了迁移学习的概念。Bi et al.（2020）提出了一种基于DNN和极端学习的AD分类模型。为了对功能脑网络进行分类，构建了两个DNN模型。介绍了极限学习机（ELM）推进结构的概念. ELM用于训练关于深层区域●●●●Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8579连接功能。ELM还帮助模型了解深层相邻位置特征。皮尔逊相关系数（PC）被用于构建大脑网络。建议的DNN是卷积层，ReLu激活函数，池化层，全连接层和决策层的集合。3. 材料和方法3.1. 数据和工具为了训练和测试每个模型，我们已经从在线数据集所获取的图像是三个不同的受试者组，即CN、MCI和AD。人类大脑的大小随着年龄的增长而变化（Peters，2006;Beason andHorwitz，2002）。在神经科专家和放射科专家的帮助下，在最近的工作中分析了不同受试者（CN、MCI和AD）的大脑中的整体海马体变化（Hazarika等人，2021年）。类似地，在另一项工作中，分析了CN、MCI和AD患者的人脑中的总体灰质变化（Hazarika等人，2021年）。大脑模式改变根据患者的年龄（从60岁到90年）。据观察，海马体的总体大小和灰质（GM）区域的面积随患者的年龄而不同对于年龄60- 69岁的特定类别（CN、MCI或AD）的受试者类似地，70-79岁的因此，为了对模型进行更好的性能分析，将所有采集的图像进一步划分为基于患者年龄的几个亚组该技术可以产生令人信服的结果（Hazarika等人，2020年）。因此，基于直方图的方法被应用于颅骨去除。Hazarika等人（2020）的样本结果如图所示。3.第三章。对每个模型进行了颅骨剥离的影响实验，如第4节表33.3. 不同DNN模型有几种DNN模型可用于图像分类。在这项实验研究中，考虑了20种最流行的模型。在本节中，将讨论每个模型及其体系结构的简短细节。3.3.1. LeNetLeNet是Albawi et al.（2017）于1989年引入的最古老和最流行的DNN模型之一。LeNet的计算速度很快，因为它的架构简单。LeNet的输入层作为视网膜工作，接收图像并执行大小归一化操作。卷积层由几个特征图或内核组成，这些特征图或内核提取标准特征，例如边缘，角落等。特征映射是若干个相同权重的平方矩阵的集合使用特征图在输入图像上重叠滑动的操作称为卷积。池化层是模型中的另一层。池化操作通过移除不太相关的信息来帮助降低矩阵的维度。最后，这些层与所有神经元互连的层连接。完全连接的层也称为密集层。在数学上，卷积运算可以表示为Eq. （八）、Cmn<$Ti;j<$$>b<$QωL<$ij<$$>b<$XQi-m;j-nωLm;n<$8Mn79岁，80岁以上）。为了更准确地训练模型，我们使用了数据生成器功能，以增加训练图像的数量，其中包含许多可能的参数，如旋转，镜面反射等。图像数量增加到15000多个。所有数据的分布如表1所示。3.2. 预处理虽然大脑中的颅骨不是感兴趣区域的一部分，但去除颅骨可能有助于模型获得更好的结果（Kalavathi和Prasath，2016）。为了更准确地去除头骨，实验了5种常用的图像分割技术，即区域生长、区域分裂-合并、K均值聚类、基于直方图的聚类和模糊C均值方法（Hazarika等人，2020年）。在分析平均性能之后，观察到基于直方图的阈值-其中，LeNet的典型架构如图所示。四、3.3.2. AlexNetAlexNet是图像分类中最受欢迎的DNN模型之一。2012年，Alom等人（2018）引入了AlexNet。AlexNet在2012年赢得了ImageNet举办的大规模视觉识别挑战赛（Nagata et al.，2020年）。AlexNet的主要元素与LeNet模型几乎相同。AlexNet包括5个卷积层，3个池化层和2个完全连接的层，然后是一个输出层（Caceres，2022）。除此之外，AlexNet还使用了dropout和batch normalization层的概念，以最大限度地减少过拟合问题。用于批量归一化的数学表达式可以表示为等式（Eq. （九）、表1用于实现模型的数据分布类的受试者年龄范围（岁）训练图像验证图像测试图像总图像CN7060–691200240240504070–79120024024080+1200240240MCI7060–691200240240504070–79120024024080+1200240240AD7060–691200240240504070–79120024024080+1200240240总210108002160216015120Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8580.ΣXXX.¼图三. a）输入，b）颅骨剥离图像的脑部MR图像样本。表2VGG-16和VGG-19架构之间的比较。层VGG-16VGG-19总层4147卷积层1316内核大小(64（128）(64 128，256，512）ReLU518最大池化55图四、典型的LeNet模型架构。yi;：：;cc^xi;：：;cbcBNcc;bc xi;：;：;c1 2当量（9）用于估计批次平均值，（10）用于估计批方差。当量公式（11）用于归一化输入层，以及公式（12）用于归一化输入层。（12）是对整体批次进行这里，B/fx1;x2;j;xmg是大小为“m”的小批量，“H”表示输入的高度，“W”表示宽度，并且c 2 f 1 ; 2 ; ·· · ; C g表示输入的大小。输入通道。由方程式（11），s用于数值稳定性，并且由方程式（12）、c和b是可学习的参数。AlexNet的示例架构如图所示。五、3.3.3. VGG（视觉几何组）-16和VGG-19VGG-16 是一种 DNN 模型，由 Karen Simonyan 和 AndrewZisserman在2014年在牛津大学视觉几何组（VGG）实验室工作时提出（Simonyan和Zisserman，0000）。VGG 16在“The ImageNet LargeScale Visual Recognition Challenge”（ILSVRC）-2014中获得了用于定位的第一位置以及用于分类的第二位置（Mehra et al.， 2018年）。VGG 16 广泛用于图像分类框架，包括医学图像分类（ Kaur 和Gandhi，2019）。VGG 16模型的典型架构包括13个卷积层、5个池化层和密集层。VGG 16架构的示例框图如图所示。六、VGG-19是VGG模型的另一个变体，总共有47层（19个可训练层），也遵循VGG-16架构（Kwasigroch等人，2017; Setiawan等人， 1477）。两种变体之间的基本差异见表2。3.3.4. Inception-V1（GoogleNet）、Inception-V2和Inception-V3尽管VGG-16、VGG-19等模型是设计良好的用于分类目的的更深层次网络，但一个主要的限制是，MHWl¼1 XXXxijkc9这类网络的特点是，它们与计算机妥协BN;cMHW i<$1j< $1k<$1;; ;成本（对于极客，2021）。此外，这些网络受到过拟合问题的影响。它也很难通过梯度2BN;c^x1MHWmHWxi<$1j< $1k< $1xi;j;k;c-1B;ci;j;k;c -lBN;cΣ2ð10Þ11通过整个网络进行更新（对于极客，2021年）。为了克服这些问题，2014年，M. Lin等人（2013）介绍了inception模块的概念。Inception Module是网络中的一个特殊块，其中包含多个卷积运算，多个过滤器大小依次执行，然后组合i;j;k;c<$qrð将结果汇总并转发到下一层。样品初始模块如图所示。7.第一次会议。灵感来自于图五、一个典型的AlexNet模型架构。见图6。典型的VGG-16模型架构。RB;cRuhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8581×Xap×××××××颅骨剥离手术平均分类性能初始模块 C.Szegedy 等人提出了一种称为 Inception-V1（GoogleNet）的完全承诺的网络模型（Szegedy等人， 2015年）。2014年，Inception-V1被宣布为由ImageNet（Ajit et al.，2020年）。该网络模型由总共22层组成，使用几个初始模块。网络中的卷积层总数为50，每个模块包括1× 1、 3× 3和5× 5卷积层，表3使用颅骨剥离和不使用颅骨剥离一个3 3 MaxPool层。Inception-V1模型的示例架构如图8所示。从架构中可以看出，Inception-V1使用了局部响应归一化（LRN）的概念 LRN 基本上使用来自神经生物学的侧抑制（ LI ）的概念（Krizhevsky等人， 2012年）。LI激发激动的神经元阻止周围的邻居，使其处于局部最大值的峰值形式该操作还在周围环境中产生对比并增加感官知觉（Krizhevsky等人，2012年）。LRN的数学方程可以表示为Eq. （十三）、.minN-1;pn=2 ！- -L p¼ x p 金x02ð13Þ无颅骨剥离头骨剥离其中，a表示乘法因子，虽然Inception-V1的性能令人满意，但架构存在问题。在InceptionV1中，使用大尺寸卷积滤波器的想法，例如5 5有时会导致输入维度衰减大量余量，这可能导致丢失一些重要信息（Khan et al.， 2020年）。为了解决这个问题，引入了Inception-V2架构，其中5个卷积中的每一个被改变为两个3个卷积（Szegedy等人，2016年）。引入的网络架构中的另一个变化是用批量归一化层取代本地响应归一化层（Ioffe和Szegedy，2015）。该模型还将n n分解改为n1，这使得模型的计算成本降低了近33%。V2的Inception模块如图所示。9.第九条。InceptionV3是Inception家族的改进版本，其经历了几个变化，例如标签平滑， 7 × 7 卷积的因子分解，使用辅助分类器，使用RMSprop优化器等（Szegedy等人， 2016年）。2015年，Incep-tion V3在ILSVRC挑战赛中获得亚军（Tsang，2015）。见图7。一个初始模块的例子。3.3.5. 残差网络（ResNet-50，ResNet-101）尽管先前的更深层次的网络模型，如Inception，取得了令人信服的结果，但随着网络的深入，它会经历快速的饱和和准确性的下降（He等人，2016; Jay，2018）。为了解决这一问题，引入了剩余块的概念主要概念是引入一个快捷桥，用于跳过一个或多个层。一个典型的残差块如图所示。 10个。这个概念是，如果恒等映射（x）是理想的，那么残差（F（x））可以通过使其为零而被忽略，即输入=输出。剩余块的想法很好地工作，ResNet将图8.第八条。一个典型的Inception V1（GoogleNet）模型架构。p0¼max= 0;p-n= 2LeNet0.77620.8083AlexNet0.68840.7011VGG-160.75460.7994VGG-190.81200.8603inception-V10.77640.8336（Googlenet）inception-V20.79860.8339inception-V30.79860.8436ResNet-500.71220.7394ResNet-1010.72340.7575ResNet50-V20.72860.7814ResNet152-V20.84300.8803InceptionResNet0.81280.8633MobileNet0.83240.8811MobileNet-V20.83280.8825高效Net-B 00.73780.7578efficientnet-B70.72660.7581Xception0.82300.8808NasNet-A0.84500.8811NasNet-C0.82660.8800DenseNet-1210.85420.8878Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8582× ××见图9。 Inception-V2模块块示例。见图10。残差块示例。在ILSVRC 2015年冠军头衔（帕特尔，2020年）。ResNet-50模型包括5个阶段，其中在每个阶段中，存在提取块和残留块。ResNet-50的示例框图如图所示。十一岁ResNet-101是 ResNet模型的另一个变体。ResNet- 101 遵循与ResNet-50完全相同的架构。唯一的区别是ResNet-101更深。两种变体的第I、II和IV阶段完全相同。在阶段III中，ResNet-50有6个重复的卷积层块（每个块包含11; 33; 11卷积层），而在ResNet-101中，重复块的数量增加到23（Hassan，0000）。3.3.6. ResNet-V2（ResNet50-V2，ResNet152-V2）ResNet-V2 是 ResNet 系列的改进类，其性能优于 ResNet-V1（Rahimzadeh和Attar，2020）。V2模型中的主要概念是引入捷径路径以不仅在残差块之间而且在整个网络中传递信息（He等人，2016年）。从图 10，我们可以看到，残差块的基本方程遵循以下方程：（十四）、y1¼f×1;w1h×1;x2¼f×y1 14其中，x1;x2;：：;i表示第i个残差单元，w1;w2;. i表示特定残差单元的权重，f表示残差函数。如果x2≠y1，则x2¼x1mmx1;宽1mm15mmx3¼x2fx2;w2¼x1fx1;w1fx2;w2f16x4¼x3mmx3;w3mmx1mmx1;w1mmx2;w2mmx3;w3mm x17mm见图11。ResNet-50框图示例。Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8583ðÞ¼× ×××@x1@xi@x1@xi@x1xi¼x1Xk¼1i-1fxk;wk18当量（18）也影响反向传播，如等式（19）所示。（十九）、@u/u·@xi/u。1@Xk¼1i-1fxk;wk！ð19Þ其中，u是损失函数。等式（18）和（19）得出结论，该信号表明该信号可以在两个方向上（向前和向后）在所有单元之间容易地传送为了构建恒等映射fy1y1 [图10]，激活函数被预激活，如图12所示。ResNet 50-V2中的总层数与ResNet-50相同。为了更好地进行比较，我们还实现了一个更深入的模型，即。e，ResNet152-V2。ResNet152也包括如上所述的4个阶段。在阶段1中，其具有3个重复的残差块（每个块包含11; 33; 11个卷积层），在阶段2中，其具有8个重复的残差块，在阶段3中，其具有36个重复的残差块，并且在阶段4中，其具有3个重复的残差块。3.3.7. InceptionResNet在成功实现ResNet架构后，一年后的2016年，C Szegedy等人提出了将Inception Modules（IM）与Residual Blocks（RB）连接起来的想法（Szegedy et al.，2017年）。IM被增强以微调层并检测更多相关特征（Ouaknine，2018）。在这个模型中，批量归一化不适用于减少网络大小并使其对单个GPU有效（Liang，2020）。由于InceptionResNet模型架构相当复杂，我们将模型架构分为三个不同的部分，如图1所示。 13 -16图十七岁3.3.8. MobileNet-V1、MobileNet-V2MobileNet是DNN模型，其主要以在轻量级应用中使用而闻名（Wang等人， 2020年）。在该模型中，使用了深度方向可分离卷积的概念，这有助于减少不太相关的参数（Howard等人，2017年）。MobileNet的示例架构如图2和3所示。18和19。见图14。 InceptionResnet模型的InceptionResnet-1和Reduction-1。图15. InceptionResNet模型的InceptionResNet-2和InceptionResNet-3。图16. InceptionResNet模型的Reduction-2。图17. InceptionResNet模型的主要架构。见图12。残余块V1与V2。图十三. InceptionResNet模型的Steam。MobileNet-V2 也遵循与 V1 几乎相同的架构，但是在 V2 的MobileBlock中，最后11层参与略微不同的功能。在MobileNet-V1中，逐点卷积的功能是保持信道数量相同或加倍，而在V2中，它也被称为投影层，仅有助于收缩信道数量（Sandler等人，2018年）。由于投影层有助于减少整个网络中的数据，因此该层也称为瓶颈层。V2 中添加的另一个概念是ResNet 模型的剩余连接（Tsang，2019）。经过修改后，新的MobileBlock看起来像图。 20.图18. MobileBlock。Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8584¼.Σ图19. MobileNet模型的架构。图20.瓶颈剩余MobileBlock的MobileNet-V2。3.3.9. EfficientNet（B0，B7）2019年，Mingxing Tan等人提出了一种新的模型缩放方法，该方法基于简单的复合系数，在更有组织的方面扩大网络（Tan和Le，2019 a）。在大多数模型中，网络维度的缩放是以宽度/深度/分辨率的形式完成的，而EffientNet引入了一组指定的缩放系数（Tan和Le，2019 b）。此模型中使用的缩放操作也称为复合缩放。如果d1/4x1是深度，w1/4y1是宽度，r1/z1是输入通道的分辨率，并且1是用于控制可用资源以缩放模型的复合系数，则复合缩放可以被表达为等式（1）。（20）.s·t¼x·y2·z22;xP 1;yP 1;zP1 20由方程式在公式20中，z指定了一些常数，这些常数有助于将额外的人员分配给宽度/深度/分辨率网络。模型中的卷积层被视为计算成本最高的部分。此外，卷积运算的每秒浮点运算（FLOPS）几乎与d;w2;r2成比例。FLOPS的关系表明，两倍的d的结果，增加一倍的FLOPS，而两倍的w或r的结果，增加FLOPS的近4倍。因此，为了使总FLOPS在2/以下，使用的约束是x·y2·z22。对于使用大脑图像的AD分类，我们考虑了EfficientNet-B 0和EfficientNet-B7的架构一是图21. 有效的模块和最终层。图22. Efficient-B 0模型的架构。图23. Efficient-B7模型的架构。Ruhul Amin Hazarika、D.Kandar和Arnab Kumar Maji沙特国王大学学报8585××图24. Xception模型的架构。图二十五Neural Architecture Search（NAS）将讨论B0模型的架构和性能。由于体系结构复杂，我们对体系结构进行了细分。B0模型的架构如图21和图22所示。 22岁虽然EfficientNet 有 8 个变体，但我们还尝试了一个变体 B7 。EfficientNet-B7模型架构的变化可以在图中看到。 23岁3.3.10. Inception（Xception）通过从Inception网络架构中获得灵感，Google研究人员开发了这种新颖的DNN模型，并添加了一个名为深度可分离卷积运算的新概念（Chollet，2017）。深度可分离卷积运算只是先前深度卷积的修改版本。的先前版本的深度方向操作最初执行通道方向空间卷积，11卷积操作（Kaiser等人，2017年）。在新引入的深度可分离操作中，最初，它执行1 - 1卷积，然后执行通过通道式空间卷积运算（Tsang，2018）。在Inception模型中，我们可以观察到在第一次操作之后，通过引入深度方向可分离卷积，在Xception模型中忽略了该操作。Xception模型的基本架构如图所示。 24岁3.3.11. 神经搜索架构

下载后可阅读完整内容，剩余1页未读，立即下载