改进的CCT模型用于肺部疾病分类的超参数调整和图像预处理

163 浏览量更新于2024-01-02 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200147一种有效的方法，以解决处理时间和计算复杂性，采用改进的CCT进行肺部疾病分类InamUllah Khan a，Sami Azam b，*，Sidratul Montaha a，Abdullah Al Mahmud a，A.K.M.马里兰州Rakibul Haque RaouaZahid Hasan a，Mirjam Jonkman ba卫生信息学研究实验室（HIRL），计算机科学与工程系，水仙国际大学，达卡，1341，孟加拉国b查尔斯达尔文大学工程、信息技术与环境学院，Casuarina，0909，NT，澳大利亚A R T I C L EI N FO保留字：COVID-19胸部x光图像预处理改进的紧凑卷积Transformer深度卷积GAN，超参数调整A B S T R A C T早期识别和适当的治疗可以帮助防止肺部疾病变成慢性，严重和危及生命。X射线图像是常用的，涉及深度学习技术的自动有效方法可能有助于快速准确地诊断肺部疾病。然而，在使用深度学习的医学成像研究中，有两个障碍限制了可解释性。一个是在大多数医学数据集中训练样本的数量不足和不平衡。二是训练时间过长。虽然可以通过减少图像中像素的数量来减少训练时间，但使用低分辨率图像进行训练往往会导致性能不佳。这项研究提出了一种解决方案，以克服这些障碍，平衡图像的数量，减少整体处理时间，同时保持准确性。本研究中使用的数据集通过使用深度卷积生成对抗网络（DCGAN）基于原始图像的模式和特征创建合成图像来平衡类中的数据量。从X射线图像中去除不需要的区域，增强图像的亮度和对比度，并通过使用不同的伪影去除、降噪和增强技术来突出显示异常。我们提出了一个修改的紧凑卷积Transformer（MCCT）模型在肺部疾病分类中的应用分为四个班。一个消融研究的11例调整几个超参数和层拓扑结构。这减少了训练时间，同时保持了准确性。在相同的图像尺寸下，应用了VGG19、VGG16、ResNet152、ResNet50、ResNet50V2和MobileNet等六种我们的MCCT模型记录了95.37%的最高测试准确度，需要很短的训练时间，10-12 s/epoch，而其他模型只能达到接近中等的性能，准确度范围从43%到79%，训练时间为80-90 s/epoch。通过多次训练模型，逐渐将训练图像的数量从49621个图像减少到6204个图像，验证了模型关于训练样本数量的鲁棒性。结果表明，即使使用较小的数据集，性能也是持续的。我们提出的方法可能有助于一个有效的基于CAD的诊断系统，通过解决医学图像的数量不足和不平衡，过多的训练时间和低分辨率图像的问题。1. 介绍基于深度学习的方法，特别是深度卷积神经网络（DCNN），已经在医学图像分类和分割方面取得了值得注意的突破（Zhang et al.，2019年）。由于深度学习在计算机辅助诊断（CAD）系统中的进步，这些现在被广泛用于研究不同的CAD系统。医学成像技术。尽管这些方法有可能比传统的基于特征的方法更可靠和准确，但深度学习模型的缺点包括需要大量的训练图像以及相关的长训练时间和复杂性（Mamalakis等人，2021年）。引入迁移学习可以解决需要大型数据集的问题，但其他问题仍然存在，包括大量的计算* 通讯作者。电子邮件地址：sami. cdu.edu.au（S.Azam）。https://doi.org/10.1016/j.iswa.2022.200147接收日期：2022年6月30日;接收日期：2022年10月12日;接受日期：2022年11月3日2022年11月8日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsI.U. Khan等人智能系统与应用16（2022）2001472×图1.一、使用MCCT 将胸部X射线（CXR）图像分为四类的过程。每个阶段由一个块表示要求和训练时间，泛化能力，性能一致性和模型的鲁棒性（Alhasan和Hasaneen，2021; Hussain等人，2021年）。肺部疾病被认为是世界范围内的主要健康挑战，也是最常见的死亡原因之一。COVID-19已成为全球健康的主要威胁，大流行病严重影响了医疗保健系统、全球经济、教育、工作场所、旅游业等（Rahman et al.，2021; Vocaturo等人，2021年）。尽管该病毒的首次爆发发生在几年前，但它仍然是一个严重的威胁，因为死亡人数和新病例每天都在上升（Ayris et al.，2022年）。准确预测风险因素有助于防止肺部疾病发展为慢性、严重和危及生命的疾病。在这方面，及时的诊断和适当的治疗计划可以防止感染的传播和肺部疾病的恶化，从而降低死亡率。专注于从胸部X射线检测肺部疾病（包括COVID-19）的研究表明，X射线图像包含有关疾病进展的有意义的信息（Borghesi等人，2020; Cozzi等人，2020年）。基于深度学习技术的自动化和可靠的方法使用X射线图像可能是肺部疾病诊断的一个有前途的解决方案。在标准胸部X线摄影图像上训练的CNN模型用于检测和分类肺部疾病，需要大量的计算能力。资源和时间（Zumpano等人， 2021; Sarv Ahrabi等人， 2021年）。这些障碍由于小型医疗数据集的问题而变得更加复杂，这些数据集在不同类别中具有不平衡的图像数量。然而，解决计算复杂性问题的成功分类模型可以在没有卷积的情况下构建。在这方面，transformers已经成为机器学习（ML）研究的重点。这一领域最值得注意的工作是VisionTransformer（ViT），它在图像补丁序列上实现了一个纯基于自我注意力的模型，与CNN相比，它的性能具有竞争力。在计算效率和准确性方面，ViT模型的性能几乎是CNN的四倍，并且在大型数据集上实现了更好的准确性，训练时间更少（Paul Chen，2022&）。因为自我关注层比循环层更快（Vaswani 例如，2017），如果我们考虑到“顺序操作”的计算复杂性，那么变压器也比递归神经网络（RNN）更有效。ViT可以解决训练时间的问题，但由于Transformer模型的架构，它们需要大量数据才能提供令人满意的结果。在医学研究中，收集大量带注释的图像数据通常具有挑战性，耗时且成本高昂。为了解决这个问题，Hassani等人（2021）引入了紧凑型卷积Transformer（CCT）通过添加简单卷积块到视觉Transformer的标记化步骤。这导致减少了培训时间，并显著提高了性能。在这项研究中，COVID-19射线照相数据集用于自动检测肺部疾病并将其分类为COVID-19、正常、肺混浊和病毒性肺炎。在这种情况下，训练时间和复杂性，小的医疗数据集，图像数量不平衡和低分辨率图像的问题得到了解决，具有显着的性能。主要贡献可归纳如下：i 用于实验的数据集包含不同类别中不平衡的图像数量，这可能导致模型性能不佳。因此，通过使用生成对抗网络（GAN）为包含较少图像的类生成合成图像来平衡数据集。ii 一些图像预处理技术，形态学开放，伽玛校正，CLAHE，双边，和频谱，被应用到去除伪影，提高图像的质量。iii 几个统计分析PSNR，SSIM，MSE，RMSE措施，以确保图像处理技术不会降低图像质量。iv 为了解决训练时间长和图像数量少的问题，我们提出了一个名为MCCT的模型，通过修改原始CCT模型用于肺部疾病的自动分类。视觉Transformer的标记化步骤使用卷积块执行，显著减少模型训练时间，同时即使使用低分辨率图像也能实现良好的准确性。v 通过改变模型的超参数和层次结构，进一步提高了模型的性能，减少了模型的参数个数和时间复杂度。vi 几个迁移学习模型，包括 VGG19 ， VGG16 ， ResNet152 ，ResNet50，ResNet50V2，MobileNet，被应用到我们的数据集，以比较所提出的MCCT模型在精度和训练时间方面的性能与像素大小32 32的图像vii为了进一步评估我们模型的泛化能力和可持续性，我们对模型进行了四次训练，逐渐减少图像的数量。结果表明，即使对于较低数量的I.U. Khan等人智能系统与应用16（2022）2001473××表1数据集描述名称描述图片总数尺寸299 ×299图像类型X射线2019冠状病毒病3616正常10192肺混浊6012病毒性肺炎图像，该模型得到了令人满意的性能验证MCCT模型的鲁棒性。viii几个性能指标，如准确率，精度，灵敏度，召回率，F1分数，和MCC进行评估，以比较迁移学习模型的性能与所提出的MCCT模型。结果发现，我们提出的MCCT模型在精度和训练时间方面优于迁移学习模型，同时使用32× 32大小的图像作为训练数据。MCCT模型记录了95.37%的最高测试准确率，需要10-12秒/epoch的训练时间，而VGG 19，VGG 16，ResNet 152，ResNet 50，ResNet50 V2和MobileNet的测试准确率分别为79.51%，76.97%，53.39%，67.77%，65.35%和43.42平均需要10-12秒/时期的训练时间。此外，当图像的数量从49621逐渐减少到6204时，性能保持在91%-95%的精度范围内。这项研究可能有助于解决计算复杂性，训练时间，数据不平衡和数据不足的问题。本文的其余部分组织如下：第2节描述了所提出的方法的细节. 第3节描述了数据集。第4节介绍了GAN及其架构的详细信息。第5节提供了图像预处理技术的概述。模型和实验装置总结见第6节。第7节讨论了消融研究和结果。第8节给出了一个简要的概述和与相关工作的比较。第9总结论文。2. 方法该研究通过引入深度学习方法将胸部X射线（CXR）图像分类为四类来进行。图1示出了该过程。Covid 19放射摄影胸部X射线数据集用于本研究中的所有实验。引入数据增强技术DCGAN，通过生成新的图像来处理数据不平衡问题。之后，几种图像预处理算法应用于增强的平衡数据集，以消除伪影和增强图像。统计分析方法，峰值信噪比（PSNR），均方误差（MSE），均方根误差（RMSE）和结构相似性指数测量（SSIM）用于评估和确保图像质量不会降低。预处理的数据集分为在将图像输入深度学习模型之前进行训练、验证和测试。我们提出了一个MCCT模型，使用的图像大小为3232通过修改原始CCT模型的层架构和超参数来实现。进行了11例消融研究，以确保最佳性能，同时解决时间复杂性。MCCT模型的性能与五种深度学习模型VGG16、VGG19、ResNet152、ResNet50、ResNet50V2和MobileNet在训练时间和图像大小为32的准确性方面×32，评估了几个性能指标，评估过拟合的发生。进一步评估模型的鲁棒性进行测试，其性能与图像数量减少。下文各节和分节简要介绍了所有流程。3. 数据集在我们的研究中，我们在公开可用的COVID-19放射摄影数据集上评估了建议的模型，该数据集从“Kaggle”（“COVID-19放射摄影数据库”）获得，包括总共21149张胸部X射线（CXR）图像。数据集包含四个类。COVID-19类别有3616张图像，肺部不透明度类别有6012张图像，正常类别有10192张图像，病毒性肺炎类别有1345张图像。所有图像都是299 299像素的灰度格式。数据集总结见表1。图 2描述了该数据集的四个类中的每一个的示例。4. 使用DCGAN的在计算机视觉中，神经网络的性能在很大程度上取决于足够数量的标记数据的可用性。这是医学成像领域最大的挑战之一。为了克服数据短缺，训练数据集通常通过简单的图像变换和颜色调整方法人工扩展，例如缩放、翻转、转换、增强对比度或亮度、模糊和锐化、白平衡等（Krizhevsky等人，2017年）。然而，这些增强的目的是把一个现有的样本变成一个稍微改变的样本.这些修改是有限的，并且不能为看不见的数据创建完全合理的替代方案（Motamed等人，2021年）。一种新的，先进的增强方法，克服了传统的数据增强方法的局限性是合成数据增强。4.1. 深度卷积GANGAN是一种有效的基于深度学习的生成模型，它使用最小-最大方案在没有监督的情况下生成合成图像。使用生成模型获得的合成数据具有更多的可变性，并丰富了数据集，以改善系统训练过程。GAN捕获训练数据分布，并基于相同的分布创建新的示例。这导致CNN模型的泛化能力提高，从而防止过拟合（Bowles等人， 2018年）。图2. 来自数据集I.U. Khan等人智能系统与应用16（2022）2001474×N××××× × ××Nn=1（）下一页（）下一页×××××××××××（）图三. DCGAN架构GAN结合了两个神经网络，称为生成器和判别器，它们通过最小化原始数据和生成数据之间的概率分布距离来创建新的数据实例。生成器的任务是生成看起来像原始训练数据的新的假（人工）数据实例。然后，人工神经网络区分假数据（人工生成的）和真实数据。如果伪造者可以识别假数据，它会将数据发送回生成器，生成器会更新假数据，再次将其发送给伪造者进行识别。在应用DCGAN之前，来自数据集的所有图像都已调整大小为224 224。在训练过程中，生成器网络通过最小化损失函数来提高其生成人工样本的能力。另一方面，通过最大化相似的损失函数，神经网络学会更好地区分原始样本和假样本。基本GAN的一些限制是监督学习、无法检测过拟合、在小数据集中使用时的不稳定性（Jin等人，2020年）。出于这个原因，我们使用DCGAN，它将GAN与深度CNN相结合，同时通过修改确保稳定的架构（Salehinejad等人，2018年）。DCGAN的架构和功能与原始GAN相似，除了卷积和生成器网络都使用卷积转置层。以下等式-在归一化层中，激活函数LeakyReLu和Conv2D转置并分别被整形为5656一百二十八，一百一十二11264和22422432.在最后一层中，使用conv2D层，我们获得了图像大小为224 224 3的输出。批量归一化（Ioffe和Szegedy，2015）用于稳定学习过程，并将输入归一化为零均值和单位方差。该算法将生成器网络的生成图像和源数据集的真实图像作为输入。然后，该输入经过四个块的卷积层的组合。卷积网络的每个卷积块包含Conv2D，LeakyReLu作为激活函数和dropout层。经过四个区块后，识别器识别图像是真是假。该分类器作为一个二元分类器，预测真实的假图像。因此，采用二进制交叉熵作为损失函数，如公式2所示（KoraVenu和Ravula，2020）：JBCE （ θ ）=-1∑[yn×log（hθ （ xn ））+（1-yn ）×log（1-hθ （xn ））]（ 2）这里，N是训练样本的数量，yn是训练样本n的目标标签（原始图像的标签是1，而伪图像的标签是1）。图像为0），xn是训练样本n的输入，h是模型，tion被用来训练生成器和递归网络（Koraθ神经网络权值θ。Venu和Ravula，2020）。minmaxVGAN（M，N）= ExPdata（x）[logM（x）] + EzPz（z）[log（1-M（N（z）]（1）如果生成的图像与真实图像非常相似，则识别器会误以为这是真实图像，并识别出伪造图像NM图像为真实。另一方面，如果生成器生成了一个假图像，其中，M是鉴别器，N是生成器，ExPdata（x）， Ez Pz（z）是所有真实和虚假实例的期望值，N z是映射到数据空间的生成器函数。X表示原始其中，M x是X来自原始数据分布而不是来自生成的数据分布的概率。P z z是从标准正态分布中采样的随机噪声变量，图3代表了本研究中使用的发电机网络的详细架构。最初，生成器将随机的100 1噪声向量作为输入，该噪声向量被馈送到密集层中并重新整形为1414512。我们使用四个convolution2D转置和一个conv2D层，在这个架构上采样的图像大小表示从14 14 512到224 224 3的大小。大小为14 14 512的数据通过第一个卷积2D转置，并被重新整形为图像大小28 28 256。在第二层、第三层和第四层中，架构相同。第一个Conv2D转置层的输出通过批处理转发不类似于原始图像的图像，则SVM将其识别为假数据，并且获取梯度，其通过反向传播更新生成器的权重。具有更新权重的生成器生成更好的假图像，并不断尝试欺骗伪图像识别假图像为真。通过这些生成和鉴别的循环，可以获得鲁棒的生成器，其能够产生与真实图像非常相似的假图像，并且可以用于增加特定数据集的图像的数量。4.2. 训练策略和增强数据集生成如前所述，我们的数据集包含四个类别，不同类别的样本数量不平衡。图像数量最多（10192）的是Normal类。我们通过创建接近正常类的图像编号来平衡其他三个类。对于训练DCGAN，使用调整大小的（224 ×224）数据集。为常态I.U. Khan等人智能系统与应用16（2022）2001475×表2使用DCGAN的原始和生成数据的数量类原始图像DCGAN训练图像DCGAN生成的图像总图像COVID-1936161800967313289肺混浊60121872789913911正常10192--10192病毒性肺炎134513451078312128共计=21165共计=28355共计=49520见图4。原始图像和DCGAN生成的图像类被认为是阈值，DCGAN被应用于其余三个类。该模型使用优化器Adam进行训练，学习率为0.0008，批量大小为128，损失函数为“二进制交叉熵”。我们使用训练时间和输出将epoch数基于原始数据集中的图像数量。因此，对于类Lung Opacity，模型被训练200个时期，因为图像的原始数量（6012）足以在这些时期内生成足够的变换图像。然而，对于COVID和病毒性肺炎类，图像数量不足以在200个epoch中生成所需数量的转换样本。对于这些类，epoch的数量被设置为250。增强后，数据集从21165张图像扩大到49520张图像。然而，我们没有为所有类别创建相同数量的图像，因为使用这样一个完全平衡的数据集可能无法有效地评估我们的分类模型的解释能力。表2显示了原始数据集中的图像数量、使用DCGAN生成的数据集数量以及增强后的图像总数。图图 4描绘了原始图像和DCGAN生成的图像。它可以可以看出，生成的图像与真实图像非常相似5. 图像预处理技术在将图像输入神经网络之前，图像预处理是确保模型性能和计算时间都得到优化的最重要步骤之一。本文研究的图像预处理包括利用几种常用算法去除伪影和增强图像.该数据集的胸部X射线图像具有若干伪影、噪声和低对比度。首先，通过应用形态学开放（Breuel，2007）从图像中去除伪影。随后，伽马校正（Dhar等人， 2021）和CLAHE（Hassan等人，2021）来改善图像的亮度和对比度。双边（Tomasi和Manduchi，2002年）过滤器被用来平滑像素，同时保留ROI的边缘。最后，使用名为“Spectrum”的ImageJ软件的过滤器（Beer-avolu等人，2021）被应用以突出异常。通过PSNR、MSE、RMSE和SSIM进行统计评估，以确保图像质量不会因这些处理算法而降低5.1. 伪影去除由于伪影会影响模型的性能，因此伪影去除是图像预处理的重要步骤。这是通过形态学的开口来完成的.5.1.1. 形态开为了应用形态学开口，图像首先转换为使用二进制阈值的二进制格式（Breuel，2007）。转换为二进制格式后，小噪声变得更加明显。使用核对二值图像应用形态学开放。该核的形状和大小基于要擦除的伪影的特性来确定。结构元素是标识和定义每个像素及其邻域的矩阵。在试验了几种内核形状和大小之后，应用大小为5 - 5的矩形内核，因为对于该内核，在保留必要信息的同时成功地去除了伪影。因此，实现了无噪声的二进制掩码，其随后使用逐位AND函数与原始图像合并。5.2. 图像增强胸部X射线细节由于其复杂的特征和隐藏的信息而通常难以解释，这使得模型区分类别具有挑战性。为了实现最佳性能，合适的图像增强技术可以帮助改善感兴趣区域（ROI）与背景的视觉区分。5.2.1. 伽马校正使用非线性变换，伽马校正修改图像的整体亮度和对比度（Dhar等人，2021年）。在这项研究中，伽马校正用于改善亮区和暗区的分布，目的是在暗背景下突出ROI。使用以下等式应用该算法：O=I（1/G）（ 3）其中I是输入图像，G是伽马值，O是输出图像。亮度和对比度的校正取决于伽马值G，其中G 1使像素显得较暗，而G> 1使像素显得较亮。<在对我们的数据集的几个gamma值进行实验后，确定了合适的gamma值。发现伽马值1.2导致最佳增强图像。5.2.2. CLAHECLAHE通过校正对比度水平的过度放大来平衡整体对比度该算法不是处理整个图像，而是将图像划分为称为图块的小区域，并对各个图块进行操作（Hassan等人，2021年）。为了应用CLAHE，使用两个参数，cliplimit和tilegridsize，其中cliplimit是要应用的阈值对比度值，tilegridsize是每行和每列中的图块的大小。这些参数值是在我们的数据集上用不同的值进行几次实验后得到40的限幅和8× 8的网格尺寸I.U. Khan等人智能系统与应用16（2022）2001476m-1n -1你好，女士E（×）=（×）表3图五. 各种ImageJ过滤器5.3. 验证所有预处理算法处理算法参数值最后，进行统计分析以表明图像质量不会由于算法而恶化（Montaha等人， 2022年）。的移除形态学结构元件=矩形下面给出这些验证方法的方程式图像开口内核大小=5× 5MSE可能是最简单和最普遍的损失函数。到伽马校正值=1.2CLAHE ClipLimit= 1.5，TileGridSize= 8×确定MSE，模型预测与实际数据之间的差异被平方，然后在整个过程中取平均值。8双侧滤器直径=9，sigmaColor= 75，sigmaSpace= 75整个数据集。MSE在数学上由以下等式定义时间复杂度：O（m，n），O（m，n）5.2.3. 双边i=0j=0双边滤波器是一种在保持边缘的同时平滑图像像素的方法。在高斯平滑中使用附近pixel值的加权平均（Tomasi和Manduchi，2002）。过滤器适用对更接近中心的piXel值的piXel值的色调权重，比更不相似的piXel值更重地对它们加权。由于这种色调加权，双边滤波器可以在平滑平坦部分的同时保留边缘。要应用该算法，需要使用参数diameter、sigmaColor 和 sigmaSpace 。 Diameter 是每个邻域的像素大小，sigmaColor是sigma的颜色空间值。随着该值的增加，附近的颜色开始相互混合。Sigma的坐标空间值是sigmaSpace。5.2.4. 频谱ImageJ的“查找表（LUT）”软件工具用于完成最终增强（Montaha等人， 2021年）。一种多色分色使用该滤波器实现，该滤波器应用于图像以分别显示受影响区域和周围细胞。LUT有许多过滤器。为了确定数据集的最佳过滤器，我们进行了实验，其中O是原始图像，P是处理后的图像，p和q表示O和P的像素，m、n表示像素p、q的行。MSE值的范围为0到1，接近0的值表示图像质量良好。如果该值大于0.5，则质量已被降级。值为0表示图像完全没有噪声。PSNR计算两张图片之间的信噪比。该比率用作原始版本和压缩版本之间的图像质量的度量。PSNR越大，图像质量越高PSNR的数学表达式PSNR=20log10（（MAX））（ 5）这里，MAX表示图像299）。8位图像的良好PSNR值通常在30和50dB之间SSIM是一种度量图像处理所造成的图像质量损失的指标。它需要两个图像：一个参考图像和一个具有相同图像源的处理图像。SSIM的公式有几个LUT过滤器命名为SSIM x y（。2μ x μ y+ c1）。2σxy+c2）（六）火蓝色和光谱的LUT 滤波器最适合我们的（，）=μ2μ2c）（σ2σ2c）数据集为“光谱”。图5表示在应用每个LUT滤波器之后的数据的状态。x+y+1x+y+2与图像处理相关的最佳参数值方法是在对数据集运行多个测试后选择的表3这里，µX和µy是两个图片的高斯窗口平均值（X，y）。方差表示为σ2和σ2，而pic的协方差表示为σ2和σ 2X y表示所有应用的图像处理技术的参数值。图6表示从伪影去除到图像增强的整个图像预处理过程。用σxy表示。C1和C2是用于稳定除法的两个变量，其中c1为0。012552和C20。03 2552，与默认值为0.01和0.03。SSIM的范围从0到1，1表示“完美的结构相似性”，0表示“没有结构相似性”。RMSE是一种常用的指标，用于比较见图6。图像预处理流程及结果增强I.U. Khan等人智能系统与应用16（2022）2001477××[∑D∑（ -）.）（× ×）x=softmax g（x∈ R（10））L（）下一页L.）∈（）∈表4十幅图像的MSE、PSNR、SSIM和RMSE值PSNRSSIMMSERMSE图片_131.680.99300.440.66图片_232.190.99540.390.62图片_331.980.99360.410.64图片_432.860.99160.330.57图片_531.560.99240.450.67图片_632.840.99550.330.57图片_732.240.99410.380.61图片_833.220.99500.300.54图片_932.090.99440.400.63图片_1032.010.99390.400.63对实际观察值的模型或估计。它表示测量的真值和预测值之间的欧几里得距离。RMSE可以表示为：1图像是H W C，其中H是高度，W是宽度，C是通道数。这些图像被划分成块，并转化为长度为m的序列对于给定的尺寸为H× W的图像x×C卷积令牌化的操作将是：x0=MaxPool（ReLU（Conv2D（x）（ 8）其中，卷积层（Conv2d）具有64个步长为2的滤波器，配备了ReLU激活函数。最大池层然后缩小Conv2D的结果特征图。卷积标记化块可以获取任何大小的输入图像。因此，CCT模型不要求所有图像块大小相等。由于这些卷积补丁，CNN层帮助模型保留局部空间信息然后，从第一块得到的图像块进入基于transformer的主干，其中Multihead self-attention（MSA）层和Multilayer perceptron（MLP）头组成编码器块使用层归一化（LN）、GELU激活和丢弃RMSE=Nj=1.mfi-m）2/N]2（7）通过Transformer编码器。层规格化应用后，CCT模型中的位置嵌入是可学习的。哪里表示求和， mfiM d2 是差异的平方，N是数据集大小。较低的RMSE，特别是接近0，意味着更少的错误和更好的图像质量。十个随机图像的计算PSNR、MSE、SSIM和RMSE值如表4所示。从表4中可以观察到，图像的PSNR值大于31，SSIM值大于0.99，MSE值大于0.33，RMSE值大于0.54，这表明预处理图像的质量良好。其余图像的PSNR、SSIM、MSE和RMSE值都接近这个范围，验证了我们的图像预处理算法的有效性。6. 该模型视觉转换器（Vit）可以同时处理大量的序列数据，并可以使用其自我注意机制来检测序列片段之间的长距离关系。这使得它们在图像分类任务中格外鲁棒（Huang等人，2022; Islam，2022; Khan等人，2022年）。然而，大多数真实世界的医疗数据集不足以训练ViT以获得令人满意的性能。CCT是一种具有卷积的混合紧凑型ViT，解决了这个问题。CCT模型使用CNN块作为修补块，具有维护局部图像信息的局部感受野。自注意机制收集图像块之间的关系并组合相关信息。6.1. 紧凑型卷积Transformer（CCT）CCT 架构中有两个主要模块，卷积令牌化和具有顺序池的Transformer。图7显示了CCT的详细机制。卷积令牌化块用于生成输入图像的补丁（Cubuk等人， 2018年）。扩充的维度Transformer主干的结果输出通过序列池化层进行池化，其中序列池化用作应用类令牌以将顺序输出映射到单个类的替代方法[10]。这种序列池化使网络能够对由Transformer编码器创建的潜在空间的顺序嵌入进行加权整个数据序列由序列池化层池化，因为它包括来自输入图像的各个部分的相关信息。该方法可称之为映射变换，记为T：R（b×n×d）→R（b×d）该操作可以描述为：xL=f（x0）∈R（b×n×d）（ 9）其中L是层Transformer编码器，其输出为xL或f x0。此外，由b，d表示的最小批量大小被认为是嵌入维数，并且n表示序列长度。后来，x L被馈送到线性层g x LR（ d×1 ），并且softmax激活函数（等式2）（10）应用。′Tb 1NL输出可以计算为：z=x′x L=softmax g（x L）T ×xL∈ R（b×1×d）（11）在第二维的池化之后，实现zR（b×d）然后，这通过线性分类层，并且图像被分类。6.2. 基本模型体系结构在这项研究中，提出了一个修改后的版本的CCT模型（MCCT），这是通过进行消融研究的基础CCT模型。图8示出了CCT的基本模型架构。基本CCT体系结构由多个模块和层见图7。 CCT的结构I.U. Khan等人智能系统与应用16（2022）2001478××××××图8.第八条。CCT的基本模型体系结构包括输入层、数据增强层、CCT标记器、多头注意层、正则化（随机深度）层、池化层、丢弃层、密集层和配备有softmax激活函数的输出密集层。该模型将尺寸为32 32 3的图像作为输入，数据增强层对输入图像执行各种几何增强。增强图像被馈送到CCT令牌化器块，并且输出图像数据被重新整形为维度64 128。最初，CCT令牌化器块的卷积层包含大小为2的步幅和大小为4的内核以及大小为4的池化层内核。标记化后，数据通过tensorflow插件，然后到达Transformer编码器块。该块包括特定序列中的几个层：层归一化（1），多头注意，正则化，层归一化（2），然后是两对dense和dropout层，dropout因子为0.1。另一个正则化层附加在Transformer编码器块的末尾。此图层的输出为维度64第128章又一次被人发现了正则化层之后是另一个Transformer编码块，和第一个一模一样第二Transformer编码器块的输出经过正则化层和归一化层。然后，归一化的输出通过密集层和softmax层，其产生维度为64 1的输出数据。这被转发到序列池化层，该层产生维度为一千一百二十八。最后，线性分类层将胸部X射线图像分为四类。此外，作为损失函数，选择分类交叉熵，并使用Adam优化器，学习率为0.001。该模型运行100个epochs，批量大小为128。6.3. 消融研究如上所述，我们已经通过改变层结构和调整超参数对基本CCT模型进行了消融研究，以实现最佳性能。进行了11项消融研究，包括增加或减少变压器编码器块的数量，改变激活函数和池层见图9。建议的MCCT模型架构I.U. Khan等人智能系统与应用16（2022）2001479（）下一页））TP+FNTN+FP类型，并尝试步幅大小，内核大小，池层内核大小，损失函数，批量大小，优化器和学习率。在完成所有消融研究后，所提出的MCCT模型具有更稳健的设计，具有更高的分类精度和更短的处理时间。消融研究结果见第7.2节。6.4. 建议的MCCT架构为了最小化时间复杂度和训练时间并优化性能，所提出的MCCT结构更短且更鲁棒。消融研究后得到的MCCT架构与具有较少Transformer编码器块的基础CCT模型非常相似。基本CCT架构包含两个Transformer编码器块，而MCCT模型仅包含一个Transformer编码器块，从而使模型更小并提供更快的训练时间。架构的其余部分保持不变，但模型超参数发生了一些变化，包括步幅大小和内核大小（图1）。 9）。与基于Transformer的模型不同，该模型不需要位置编码，这有助于保持低计算复杂度。复杂性自注意的计算复杂度为O n2。D其中输入序列长度是N，并且向量表示的维数表示为D。随着位置编码，的计算复杂性增加时间复杂度O（n）D+n. d2（Vaswani等人， 2017年）。由于位置编码不是必需的，MCCT模型和Transformer骨干网纯粹基于自注意机制，所提出的模型的训练和测试阶段需要更少的资源并且更快。这进一步提高了模型的有效性。6.5. 培训战略为了训练模型，批量大小设置为128，最大epoch数设置为100。Adam优化器的学习率为0.001。在多类情况下，默认损失函数是“分类交叉熵”（Lorencin等人，2021年）。如前所述，“Relu激活”用于预测每个类别的概率。训练数据集分割率为75%，验证数据集分割率为10%，测试数据集分割率为15%。我们使用了三台PC，每台都配有英特尔酷睿i5-8400处理器，NVidia GeForce GTX 1660 GPU，16 GB内存和256 GBDDR4 SSD存储，同时我们试验了各种型号和设置。6.6. 模型比较6.6.3. ResNet50ResNet50架构使用不同大小的卷积滤波器组合来处理CNN模型的恶化并减少训练时间。该架构总共包括48个卷积层，以及一个maxpool和一个average pool层。在这个模型中有大约2300万个可训练的参数。6.6.4. ResNet152ResNet152是另一个包含152层的ResNet模型。ResNet152的根本创新在于它能够成功训练超过150层的深度神经网络。ResNet被认为是一个很好的深度学习架构，因为它很容易优化，并取得了很好的效果。然而，由于网络结构中有许多层，它具有很高的时间复杂度。6.6.5. ResNet50V2ResNet50V2是原始ResNet50的修改版本。在ImageNet数据集上进行评估时，ResNet50V2的性能优于原始ResNet50和ResNet101。更改了ResNet50V2中块之间连接的传播概念6.6.6. MobileNetMobileNet是一种速度更快，体积更小的CNN设计，它使用了一种新型的卷积层，称为深度可分离卷积。MobileNet模型被认为是特别有用的移动和嵌入式设备上的实现，由于其适度的大小。7. 结果和讨论本节介绍并讨论了本研究的结果，包括各种消融研究和模型评价指标的结果。本节还包括关于混淆矩阵、准确度损失曲线、减少图像数量的性能评估的讨论，以进一步评估所提出的MCCT模型的有效性。7.1. 评估指标为了评估所提出的分类模型的性能，计算了几个度量。真阳性（TP）是模型准确分类阳性类别的结果。真阴性（TN）是模型准确预测阴性类别的结果。假阳性（FP）是模型预测阳性类别不准确的结果，假阴性（FN）是模型预测阴性类别不正确的结果。准确度（ACC）是正确预测的比例：使用32 ×32的图像大小，在准确性和训练时间方面将SIXTP+TNTP+TN+FP+FN（十二）6.6.1. VGG16VGG16是一个最先进的迁移学习模型，由16个加权层组成。该模型获得了92.7%的准确率为顶部精确度是指所有积极预测实际上是积极的百分比。召回率是正确预测的积极结果与所有积极预测的比率。ImageNet数据集中的五个测试结果。它还赢得了大规模视觉识别挑战赛（ILSVRC）的竞争，这是由OX福特视觉几何组。该

下载后可阅读完整内容，剩余1页未读，立即下载