没有合适的资源?快使用搜索试试~ 我知道了~
智能系统与应用17(2023)200160使用计算机断层扫描和X射线扫描对COVID-19病例进行多模态图像分类Nida Nasira,*,Afreen Kansalb,Feras Barneiha,Omar Al-Shaltone a,Talal Bonny a, c,Mohammad Al-Shabia,d,Ahmed Al Shammaa ea阿联酋沙迦沙迦大学科学与工程研究所b英国伦敦政治经济学院统计系c阿联酋沙迦沙迦大学计算与信息学院d阿联酋沙迦沙迦大学工程学院Khorfakkan University,Khorfakkan,阿联酋A R T I C L EI N FO关键词:机器学习迁移学习Adamoptimiser二进制交叉熵损失数据扩充A B S T R A C TCOVID-19在全球范围内大流行,新变种的出现加剧了快速有效识别COVID-19病例的需求。在本文中,提出了一种新的双模式多模式方法来检测新冠病毒患者。结合胸部X线/CT扫描图像和扫描提供的临床记录完成了这一点。数据扩充技术用于外推数据集。已经采用了五种不同类型的图像和文本模型,包括迁移学习。二进制交叉熵损失函数和亚当优化器被用来编译所有这些模型。多模态也可以使用现有的预训练模型进行测试,例如:VGG16,ResNet50,InceptionResNetV2和MobileNetV2。最后的多模态给出了测试数据的97.8%的准确性。这项研究提供了一种不同的方法来识别COVID-19病例,只需使用扫描图像和相应的注释。1. 介绍2019年12月下旬,在中国武汉,由SARS-CoV-2冠状病毒引起的COVID-19疾病首次出现(Phan,2020)。所有年龄段,包括儿童和青少年,都容易感染COVID-19,这可能导致危及生命的后果。截至2022年4月11日,世界卫生组织报告称,已有超过5亿例COVID-19确诊病例,导致6,250,000人死亡。SARS-CoV-2病毒可以通过直接接触或通过咳嗽或打喷嚏的飞沫传播。当COVID-19影响呼吸系统时,可导致严重肺炎,进而导致死亡(De Miranda TeiX eira,2020&)。为了检测SARS-Cov-2,使用逆转录聚合酶链反应(RT-PCR)测试。该测试相对复杂,产生的结果不太一致(Kucirka,Lauer,Laeyendecker,Boon,Lessler,&2020)。放射科医生进行的放射照相检查是目视检测COVID-19病毒感染的替代方法。然而,从X射线图像中检测感染具有挑战性,需要高水平的专业知识。放射科医师对X射线和CT图像的临床诊断产生75%的准确性(Satia等人,2013; Wong等人, 2020年)。因此,需要一种快速和更精确的方法来帮助医生识别COVID-19症状。在过去的几年中,深度学习(DL)已经广泛地用于医学领域中的检测领域,例如高血压检测(Nasir等人,2021)、糖尿病视网膜病变检测(Nasir等人,2022b)、癫痫发作检测(Barneih等人,2022)、睡眠呼吸暂停检测(Qatmh等人, 2022)和图像对象检测和图像分类(W o'zniak,SiRokka,&Wieczorek,2021)。在COVID-19疫情中,人工智能已广泛应用于诊断、社会控制、监测公共卫生和控制COVID-19患者等领域。为缓解COVID-19疫情对有限医疗资源造成的巨大压力,控制疫情关于这个问题的许多评论文章已经发表。然而,这些研究的结果是不确定的,很少有研究根据PRISMA系统地评估研究人员为抗COVID-19运动做出了重大贡献,* 通讯作者。电子邮件地址:nnasir@sharjah.ac.ae(N.Nasir)。https://doi.org/10.1016/j.iswa.2022.200160接收日期:2022年8月11日;接收日期:2022年11月21日;接受日期:2022年11月27日2022年11月30日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页:www.journals.elsevier.com/intelligent-systems-with-applicationsN. Nasir等人智能系统与应用17(2023)2001602文学正在迅速发展。经过适当训练的人工智能模型可以确保准确和快速的诊断,或帮助医生简化诊断并减少体力劳动。通过使用训练数据,AI模型可以检测出高风险患者,描述COVID-19的流行病学特征,并对疾病传播进行建模。基于人工智能的方法,例如重新利用现有药物,基于SARS-CoV-2的潜在突变模型筛选疫苗靶标,以及筛选作为潜在疫苗佐剂的化合物,可以帮助发现新药和疫苗。Dash等(2022)提出了一种独特的视网膜血管分类方法,本文推荐了一种定向滤波器和匹配滤波器的组合模型,用于改善具有弱血管对比度的非典型视网膜图像。本文提出了一种多模态的方法来检测是否患者是否为COVID-19阳性。除了使用患者的CT扫描/X光图像外,医生/护士记下的笔记也被考虑用于最终预测,这导致了更好的性能和有效的COVID-19病例检测。只能与COVID-19相关的特定关键词对检测非常有帮助。与此同时,即使是小规模数据集的问题也通过使用各种数据增强技术来解决,以增加数据中的观察次数,从而获得反映COVID -非COVID病例不平衡方面的真实情况的结果。在本文中,我们探讨了与以下贡献相一致的问题的解决方案:1. 连接文本和图像模型来预测COVID。2. 增强结果的比较:a)无增强,b)对整个数据进行增强,c)仅对训练数据进行增强。3. 比较基准CNN和建议的多模态方法在分类X射线扫描(以及三种图像模型)方面的性能。研究用于COVID检测的双模式(文本和图像)多模型的新颖性。这项研究将有助于对各种疾病检测的预防措施。使用二进制交叉熵损失函数和Adam优化器来编译所有这些模型。该模型使用默认的批量大小32和早期停止标准以及模型检查点回调进行训练。2. 文献综述利用人工智能(AI)和机器学习(ML)技术,许多研究人员开发了模型,通过胸部X光和CT成像诊断COVID-19El Asnaoui Chawki( 2021 ) & 使 用 七 种 不 同 的 深 度 学 习 模 型 ( 即 : ResNet50 、DenseNet201、 MobileNetV2 、InceptionResNetV2 、 InceptionV3 、VGG16和VGG19。总体准确率为82.80%,其中InceptionResNetV2达到最高准确率92.18%。Wang,Lin,Wong(2020 a)& 提出了COVID-Net,这是一种用于从X射线图像中检测COVID-19的CNN该网络使用COVIDX数据集进行训练,该数据集由13,975张胸部X射线图像组成该模型的测试准确率达到91%。作者Horry et al. (2020),比较了不同的CNN模型,然后选择并优化了VGG19模型。使用OpenCV库,他们通过应用直方图均衡化和纹理增强来预处理图像他们的模型能够使用胸部X光图像、CT扫描和超声检测COVID-19,准确率分别为86%、84%和100%。Zhang等人(2020)提出了COVID 19XrayNet,这是一种深度基 于 学 习 的 模 型 , 从 X 射 线 图 像 中 检 测 COVID-19 。 该 模 型 基 于ResNet32,具有两层,即,平滑层和特征提取层。该模型比原始ResNet32模型取得了更好的结果,准确率为91.92%。作者Ismael&S engür(2021)提出了支持向量机(SVM)用于COVID 19分类,并提出了几种预训练的CNN模型,即VGG16,VGG19,ResNet18,ResNet50和ResNet101用于特征提取,以达到94.7%的准确率。所使用的数据集由380张正常和COVID-19胸部X射线图像组成。Hemdanet al.Hemdan,Shouman,&Karar(2020)提出了COVIDX-Net,这是一个专门用于使用X射线图像检测COVID-19的深度学习作者对其他深度学习模型进行他们的研究表明,VGG19和DenseNet19达到了90%的最高准确率。Maghdid等人(2021)的作者结合了简单的CNN(单个卷积层,然后进行批量归一化,具有两个全连接层的校正线性单元(ReLU)和AlexNet模型。所提出的模型达到了94%的准确率。Hall,Paul,Goldgof,Goldgof(2020)&的作者使用VGG16的迁移学习策略。此外,他们使用数据增强来增加数据集的大小,实现了96.1%的准确率。在讨论部分对最新研究进行了比较,将拟议研究的结果与现有研究的结果进行了比较。3. 方法本节讨论数据集、模型及其架构,以及建议的方法。该数据集已经过数据扩充和文本分析。此外,与基本CNN架构一起讨论的模型架构是VGG16,Resnet50,MobileNetV2和InceptionResnetV2。3.1. 数据集描述本文中使用的数据是由Cohen,Morrison,&Dao(2020 a); Cohenet al.(2020 c)提供的公共数据集。数据包含对COVID-19检测呈阳性或怀疑患有COVID-19或其他病毒/细菌性肺炎的患者进行的胸部X光和CT扫描图像。与图像一起,元数据也可用,其中包含有关患者的信息,如他们的性别、年龄、临床记录和与扫描相关的其他附加记录。数据的2列-临床笔记和其他笔记通过字符串连接合并为一列。数据由535张图片组成。在这535张图像中,只有485张图像提供了相关的临床记录,分别只有483张和440张图像提供了有关性别和年龄的信息。年龄的缺失值用平均值插补,而性别的缺失值用众数填充。缺失的临床记录由空字符串填充。本文中的分类问题被转换为二元分类问题,除COVID之外的所有其他标签都被归类为“非COVID”。这导致数据不平衡,包括342例新冠病例和其余193例非新冠病例。数据分为训练、验证和测试数据集,其中训练数据占原始数据的85%,验证数据占10%,测试数据占5%。在预处理阶段,利用去噪函数对图像的噪声和模糊进行了修正。3.1.1. 数据增强考虑到数据集的不平衡性质,实施数据增强技术以使数据平衡,并将结果与不平衡数据进行比较。这些数据增强方法适用于文本和图像。扩增完成了 针对与非新冠肺炎患者相关的文本和图像,并以两种方式完成,一种是在整个数据上,另一种是仅在训练数据上。数据的增加使得数据仍然保持不平衡,但非新冠病例数量增加。因此,对于数据中的每一个非新冠病例,都增加了两个额外的观察结果。对于文本数据,增强是通过两种方式完成的-用同义词替换一定数量的随机单词,并在文本中随机交换单词。要替换的单词数量,N. Nasir等人智能系统与应用17(2023)2001603××()下一页()=()+()=()()()=()+图1.一、 图像增强:左:原始,中:旋转,右:亮度降低。swapped被选择为15,并且结果文本是增强文本。对于图像,也有两种类型的增强-旋转和降低亮度。由于处理医学图像,图像的反转是不可能的。增强图像旋转20度角。数据扩充完成两次,一次在整个数据集上,一次仅在训练数据集上。增强图像的示例在图1中示出。3.1.2. 文本分析通过绘制单词云和前20个一元语法、二元语法和三元语法来分析临床笔记。词云是一种可视化表示,通常用于可视化文本数据。它将文本分解为单词,并以不同的大小和颜色绘制单词,以表示其在数据中的频率。在词云中尺寸大得多的词被认为是数据中最频繁出现的词,而较小尺寸的词则不太频繁。Uni-grams指的是单独的单词。二元语法指的是成对的词在一起,而三元语法指的是三个词在一起的组。所有可能的这种组合采取和最频繁出现的词组,然后绘制。3.2. k倍交叉验证测试了三种不同的情况以获得最佳结果-没有数据增强时,仅对训练数据进行数据增强以及对整个数据进行数据增强。在这三个模型中,选择最好的模型,然后进行K折交叉验证以测试结果的有效性,因为数据很小并且数据分割是随机进行的。因此,K被选为10。对于10次迭代中的每一次,运行模型,保持一个折叠作为测试,其余作为训练数据。在运行模型时,验证数据大小选择为训练数据的30%。3.3. 模型架构Keras核心库中包含的最先进的预训练网络在ImageNet挑战中始终优于卷积神经网络。这些网络还显示出使用迁移学习技术(如特征提取和微调)泛化到ImageNet数据集之外的图像的强大能力。 下面讨论四种使用的CNN架构3.3.1. VGG16模型VGG16最与众不同的方面是它专注于使用步长为1的3 × 3滤波器的卷积层,而不是一堆超参数,并且始终使用相同的填充和步长为2的2 × 2滤波器的maxpool层。卷积和最大池层是以这种方式贯穿整个建筑。两个完全连接的层和一个softmax作为其最终特征被包括在内。VGG16中的16代表加权层数,即16。这个网络有大约1.38亿个参数,使其相当庞大(Simonyan Zisserman,2014&)。3.3.2. ResNet50模型ResNet或残差网络(由残差块组成)的引入缓解了不同之处在于,有一个直接连接,跳过了中间的一些层(这可能会因型号而异)。这种连接被称为由于这种跳过连接,层在没有这种跳过连接的情况下,输入这一项然后通过激活函数f,结果是H x f x。添加跳过连接后,输出现在为H x f x x。当输入的维度与输出的维度不同时,这种方法似乎有一个小缺陷,这可能发生在卷积层和池化层中。当f x的维数不同于x的维数时,可以采取两种方法之一:用额外的零条目填充跳过连接以增加其维数。为了匹配维度,使用投影方法,这是通过向输入添加11个卷积层来实现的。在这种情况下,结果是H xfxw 1。X.在这种情况下,我们添加了一个额外的参数w1,而在第一种方法中,没有添加额外的参数。ResNet中的跳跃连接通过允许梯度流动来解决深度神经网络中通过另一条捷径。另一种方式,这些连接帮助是通过允许模型学习恒等函数,这确保了高层的性能至少与低层一样好,如果不是更好的话(He,Zhang,Ren,Sun,2016&)。3.3.3. MobileNetV2模型在MobileNetV2中,有两种不同类型的块。一个步长为1的残差块和另一个步长为2的残差块用于缩小尺寸。这两种块都有一个11卷积,ReLU6层作为它们的第一层。一个深度卷积构成第二层,另外11个没有非线性的卷积构成第三层。如果再次应用ReLU,深度网络只在输出域的非零体积部分上具有线性分类器的能力(Sandler,Howard,Zhu,Zhmoginov,Chen,2018&)。3.3.4. InceptionResNetV2模型Inception-ResNet-v2卷积神经网络是在ImageNet数据库中的100多万张图像上训练的。使用164层,图像可以被分类为1000个不同的对象类别。N. Nasir等人智能系统与应用17(2023)2001604表1文档特征向量。文件我像一个苹果和香蕉他吃第1句11111100第2句00110011网络,包括键盘,鼠标,铅笔,和无数的动物。因此,该网络已经学习了各种图像的深入特征表示。该网络在接收到299 × 299的图片作为输入后,输出估计的类别概率列表。它是通过合并剩余连接和先启结构来实现的。在Inception-Resnet块中,各种大小的多个卷积滤波器与残差连接合并。除了避免深层结构带来的退化问题外,使用剩余连接可以加快训练 速 度 。 图 5 描 述 了 Inception-Resnet-v2 的 基 本 网 络 架 构( Mahdianpari , Salehi , Rezaee , Mohammadimanesh , Zhang ,2018&)。3.4. 拟议方法两种不同的模型架构尝试了分类问题。在第一种方法中,只考虑图像作为分类的基础。为此,实现了三种基本的CNN架构。在第一图像模型(模型1)中,由于数据的小尺寸并且为了避免过拟合,仅使用具有16个滤波器、内核大小(3,3)、长度为1的步幅和相同类型的填充的这一层之后是一个最大池化层,池大小为(2,2),步长为2。然后将输出平坦化并传递到具有64个单元的密集层上,并且激活函数ReLU和内核初始化器是均匀的。这是通过最终输出Dense层完成的,该层具有一个单元和激活函数sigmoid。第二个图像模型(模型2)遵循相同的架构,但不同之处在于卷积层有32个滤波器,密集层有128个单元。第三图像模型(模型3)通过包括卷积2D层、批归一化、最大池化和dropout层的3个组而变得更深,每个组具有增加的单元数量16、 32和64以及dropout百分比0.2、0.25和0.3。然后将其传递到具有100个单元的密集层,最后是输出层。 所有三种模型的结构如图1A和1B所示。6和图7所有这些模型都是使用二进制交叉熵损失函数和Adam优化器。使用早期停止标准和模型检查点回调,并使用默认的批量大小32训练模型。保存最佳模型,其中最佳被定义为具有最高验证准确度的模型,并且其用于对测试数据进行预测。单独的图像模型一个多模态的方法是利用合并的图像和文字, 输入.图像被传递到一个单独的图像模型,文本被传递到一个文本模型。这两个模型的输出被连接起来,然后传递到最终模型中,最终模型给出了最终的预测结果。 模型架构如图所示。 八、文本在传递给模型之前被转换为数字向量。由于我们处理的是医学数据,而笔记中的几个关键字在诊断中会产生很大的差异,因此通过计算文本中每个单词的频率,将每个文档转换为向量。例如,如果我们考虑两个句子-I like an apple and bananas和He ate an apple,那么这两个句子都可以通过以下方式转换为数字向量-考虑所有文档中的所有单词,并形成向量,使得向量中的每个值表示句子中相应单词的频率。因此,这两个句子的向量形式如表1所示。这是对数据中的所有文本进行的作为预处理步骤,文本被删除。停用词是指所有那些在句子中使用频率很高但不提供上下文信息的词这些词包括and,the,I,am等。除此之外,在医学文本中经常使用的短语,如patient,doctor,dr等也被删除。为了更容易实现,这些单词也被转换为小写。一旦每个文本被转换为文档特征向量,这些特征向量就作为输入传递给文本模型。虽然有更复杂的文本模型,如递归神经网络和BERT模型,但对于所提出的研究,使用了Bag Of Words方法这是由于护士/医生撰写的临床笔记中的特定关键词非常重要,可以帮助识别COVID-19的症状由于主要关注的是这些关键词及其为了测试这个假设,我们还使用了一个LSTM模型来看看它是否比BoW方法表现得更好。文本模型被创建为一个简单的2层深度神经网络。两个致密层都有64个单元。最后一层的输出作为输入传递到连接层和最终模型。所使用的图像模型是先前描述的所使用的第三图像模型。最终的级联模型只是一个具有16个单元和激活函数ReLU的密集层。然后是dropout层,最后是最终的输出层。再次使用二进制交叉熵损失函数和Adam优化器编译模型。使用相同的回调集来获得最佳模型。对于LSTM模型,文本被标记化并填充,以创建相同长度的所有向量。vector的最大长度是451。LSTM文本模型是使用嵌入层和LSTM层创建的。嵌入层中的输出单元数量为10,而LSTM层中的单元数量为16。还尝试了四个预训练模型作为自定义构建图像模型的替代。测试的 型 号有 :ResNet 50 、InceptionResNetV2 、 MobileNetV2 和 VGG16。文本模型和最终模型以及编译和训练条件保持不变。这仅在增强的训练数据上完成对于所有训练的模型,获得最佳模型并在测试数据上进行测试为所有模型的历史绘制了学习诊断曲线使用最佳模型,得到对测试数据的预测,并绘制混淆矩阵和ROC曲线多模态的完整方法如图所示。第九章4. 结果在与新冠病例相关的笔记中,如图10中的单词云所示,最常用的单词是胸部、双侧、发热、咳嗽、白天、病史。最常用的一对词是胸部X线摄影、干咳、呼吸急促、血氧饱和度、胸腔积液。使用频率最高的3组词语分别是正常范围升高、聚合酶链反应、发热干咳。对于非新冠肺炎病例相同的是夜间、胸部、左肺、肺炎、正常、上叶、下叶、左肺、中叶、体重减轻和右上叶、左下叶、获得的前后位X线片、人类免疫缺陷病毒。所介绍的新冠肺炎病例都有常见的症状--发烧、咳嗽等。顶部的uni-gram,bi-gram和tri-gram显示在图1和图2中。 十一比十三图像模型本身考虑对图像进行分类。考虑到第一个图像模型,当没有数据增强或仅对训练数据进行数据增强时,它的性能很差它未能识别许多新冠病例,并将其错误分类为非新冠病例,导致大量假阴性。学习曲线和结果如图14所示。当检查损失与时期的曲线时,可以看出,在没有数据增强的情况下,验证损失略高于训练损失,并且当数据增强仅在N. Nasir等人智能系统与应用17(2023)2001605表2业绩指标。模型精度灵敏度特异性精度F1分数Model 1无数据8月百分之七十点三七72.22%66.67%81.25%76.47%8月数据(全部)91.30%百分之九十点九一91.67%百分之九十点九一90.91数据8月(培训)百分之七十点三七66.67%77.78%85.71%75.00%Model 2无数据8月76.92%83.33%62.50%83.33%83.33%8月数据(全部)86.96%百分之九十点九一83.33%83.33%86.96%数据8月(培训)66.67%72.22%55.56%76.47%74.29%Model 3无数据8月62.96%61.11%66.67%78.57%百分之六十七点七五8月数据(全部)91.30%81.82%百分百百分百百分之九十数据8月(培训)55.56%44.44%77.78%百分之八十57.14%多模型无数据8月百分之九十六点三百分百88.89%百分之九十四点七四百分之九十七点三8月数据(全部)百分之九十七点八三百分之九十五点四五百分百百分百百分之九十七点六七数据8月(培训)百分之九十六点三百分百91.74%88.89%百分之九十四点一二迁移学习MobileNetV2百分之七十点三七66.67%77.78%85.71%75.00%ResNet50百分之九十六点三百分百88.89%百分之九十四点七四百分之九十七点三InceptionResNetV2百分之九十六点三百分百88.89%百分之九十四点七四百分之九十七点三VGG16百分之九十二点五九百分之九十四点四四88.89%百分之九十四点四四百分之九十四点四四表3与其他研究比较。参考文献使用的数据集方法/模型结果描述Sahinbas和Catak(2021)COVID-19 X射线图像+收集了50个阳性和50个阴性CNN在VGG16中的准确率最高,达到80%图像缩放到256*22,然后通过翻转和不同的角度进行增强研究提出了五个预训练的深度CNN模型,包括VGG16,VGG19,ResNet,DenseNet和InceptionV3,用于实现X射线图像的迁移学习Ohata等人(2020年) “1394张胸部X线图像(肺炎),有数据增强(Kermany等人, 2018年)CNN,MLP和SVM SVM得到了最高准确率98.5%使用CNN提取特征,然后使用迁移学习方法,并使用合并的机器学习方法对这些特征进行分类。Apostolopoulos和Mpesiana(2020)Shaik和Cherukuri(2022)来自Cohen等人(2020 d)的1427张X射线图像,无数据增强2483张SARS-CoV-2的图像,其中1252张被诊断患有该病毒(Soares等人,2020)COVID-CT的数据集(Zhao et al.,2020年)包含349个COVID-19 CT和463个来自216名患者的CNN最高准确率96.78%CNN对SARS-CoV-2的最高准确率=98.99,COVID-CT的最高准确度=93.33评估近年来为医学图像分类创建的CNN设计的有效性。本研究旨在提出一种有效的胸部CT扫描图像中SARS-CoV-2感染识别的集成策略。Wang等人(2020 b)ImageNet数据集,数据集的编号为18,567使用数据增强ResNet101和ResNet152准确率=96.1%他们的方法试图转移学习,整合模型,并将胸部X光照片分为三类:正常,COVID- 19和病毒性肺炎。中国(2020)COVID-19研究挑战数据集,包含323张没有数据增强的图像(Cohen等人,( 2020年b)CNN最高准确率97.19%CNN模型与Xception在准确性方面优于VGG16和Inception-ResNet-V2模型。[This Work]图像+文本数据集VGG 16,Resnet 50,MobileNet V2和Inception-ResnetV2多模态的结果在97.8%的准确性多模态方法与数据增强方法适用于文本和图像。训练数据由于数据扩充仅在训练数据上完成,因此在验证/测试数据中类之间的平衡是不同的,因此导致更高的损失和更低的准确性。但是,与没有进行数据扩充时相比,增加更多数据会导致验证损失,并且准确度在各时期更加稳定。即使是ROC曲线下的面积也是最高的,当类不平衡在训练,验证和测试数据集上是一致的。第二个图像模型的性能也不是很好,精度很低,特别是当数据增强只在训练数据上进行时。该模型存在高假阳性的问题。许多患者尽管呈阴性,但仍被称为新冠病毒阳性。该模型的结果如图15所示。与第一模型相比,第二模型的性能更不稳定。验证损失和准确性是非常不稳定的,因为模型被训练了更多的时期。ROC曲线下面积也比第一个模型小得多。与第一个模型一致,与有增强数据的情况相比,在没有增强数据的情况下性能更不稳定。N. Nasir等人智能系统与应用17(2023)2001606添加了额外的增强数据第三种图像模型在所有这些模型中具有最低的性能,这可以归因于由于小尺寸数据集而导致的过拟合。COVID患者被错误分类为没有COVID-19的情况非常多,导致大量假阴性。学习曲线和结果如图16所示。由于过拟合,该模型表现出与先前模型类似的不稳定行为。与前两个模型相比,该模型在分类方面也有更多的错误。ROC曲线的行为也是如此第三图像模型被用作用于多模态分类的图像模型。由于它是一个复杂的体系结构,因此文本模型非常简单。多模式方法在将患者分类为covid阳性或非covid阳性方面表现非常在所有3个案例中,只有一个案例被错误分类。与该模型相关的图表如图17所示。验证和训练准确率几乎达到100%,在各个时期的损失值更加一致,尽管当模型训练更多的时期时,似乎会出现轻微的过拟合总体上完成数据增强时的ROC曲线N. Nasir等人智能系统与应用17(2023)2001607图二. VGG16模型架构(Simonyan和Zisserman,2014)。数据几乎是完美的,给出了0.98的曲线下面积值。添加文本已经拍摄了模型的性能,而不仅仅是使用图像。最后,使用预训练模型的结果总结在表2中,学习曲线如图所示。十八岁ResNet50和InceptionResNetV2模型的性能优于其他2个模型。当使用MobileNetV2时,验证数据的性能非常差。这可以归因于模型的复杂结构。使用ResNet50时,验证和训练损失非常稳定,验证准确性几乎没有起伏。当使用InceptionResNetV2时,模型开始过拟合,这可以从验证损失的急剧上升尖峰和略微下降的验证损失中看出。但这和ResNet50模型只导致1个假阳性,所有其他情况都被正确分类VGG16模型从一开始就显示出过拟合的迹象,验证损失曲线向上上升,验证准确率曲线向下对数据的K折交叉验证的结果总结于图19中。每个折叠的所有准确度的平均值为85.1%,标准差为14.17%,这说明在92个测试数据中有近10个观察结果被错误分类。LSTM文本模型的结果如图20所示。在3个数据点被误分类的情况下,检验的准确率为88.89%5. 讨论模型在两种数据上进行训练,完全增强的数据和增强的训练数据。这有助于我们在两种情况下为我们提供模型,当有很多新冠病例时,以及当病例较少时。当对整个数据进行增强时,验证和测试数据是不平衡的,但大多数病例是非新冠病毒。当只对训练数据进行增强时,验证和测试数据也是不平衡的,但现在,大多数都是新冠病毒病例。在这两种情况下,模型都表现良好,只有一种情况被错误分类。5.1. 与其他研究的本节提供了对深度学习算法检测COVID-19阳性病例的重要评估,如表3所示,此外,还对其他类似深度学习方法与我们提出的模型进行了比较研究。和图三. ResNet50模型架构(Ji等人, 2019年)。N. Nasir等人智能系统与应用17(2023)2001608见图4。 MobileNetV2模型架构(Seidaliyeva等人, 2020年)。图五、 Compressed InceptionResNetV2模型架构(Mahdianpari等人, 2018年)。我们创建了一个讨论表(表3),以根据其他模型来评估我们的模型。根据表3,大多数数据集包含少量数据(用于训练和测试的有限图片)来创建和改进其模型。另一个值得注意的事实是,作者在本文中,作者使用VGG 16、Resnet50、MobileNetV2和InceptionResnetV2来更快、更可靠地创建模型,以便将其用作实时评估工具。迁移学习的所有模型都是标准的,因此与其他研究相比,它们的条件和参数是相同的。5.2. 性能指标为了提高精度,可以改变模型在调整时,您可能会注意到,图第六章 不同的 层:a)图像模型1,和b)图像模型2。通常导致较低的召回率,较高的召回率导致较低的准确率。类似地,任何机器学习模型的召回值都可以通过调整多个参数或超参数来改变。更高或更低图第七章 不同层次的图像模型3.N. Nasir等人智能系统与应用17(2023)2001609+见图8。 多模式架构。任何模型的召回都有特定的含义:具有高召回率,大多数阳性实例(TPFN)将被识别(TP)。 因此,FP测量的数量增加,而总体精度降低。然而,假设结果是低召回率,在这种情况下,它表明有许多FN(应该是积极的,但被标记为消极的),这意味着如果结果找到一个积极的例子,它更有可能是一个真正的积极。此外,虽然F1不如准确性直观,但它通常更有优势,特别是当类别分布不相等时。当假阳性和假阴性的成本相同时,准确性会提高。如果假阳性和假阴性的成本显著不同,则应同时考虑精度和召回率此外,回忆和敏感度成反比。苏-敏感性测试在患病的患者中产生更积极的结果,而精确的测试在没有发现的患者中显示没有疾病。应始终同时考虑灵敏度和特异性,以提供完整的诊断。此外,准确性 当数据集是对称的并且假阳性和假阴性的值几乎相似时,这是一种良好的质量度量。因此,其他参数在确定模型的性能方面起着重要作用。见图9。方法论图10. 临床笔记的单词云。N. Nasir等人智能系统与应用17(2023)20016010图十一岁临床笔记的顶部单元格。图12个。临床笔记的最上面的 两个字母。5.3. 所用模型的行为图十三. 临床笔记的前三格。算法用于更新神经网络的权值,该算法对每个权值进行微小的改变,以减少模型每个VGG块由2D卷积和最大池化层组成,如图2所示。随着CNN中层数的增加,模型拟合更复杂函数的能力也会增加。因此,更多的层保证了更好的性能。不要将其与人工神经网络(ANN)混淆,在人工神经网络中,增加层数并不总是会提高性能。反向传播它更新每个权重,使其朝着损失减少的方向移动。这只是由链式法则确定的权重的梯度。然而,随着梯度向后流动到初始层,值随着每个局部梯度而增长。结果,梯度变得越来越小,导致初始层的变化非常小。因此,培训时间大大增加。如果本地N. Nasir等人智能系统与应用17(2023)20016010见图14。 图像模型1结果[自上而下:无数据八月,数据八月(整体),数据八月(训练)]。图15. 图像模型2结果[自上而下:无数据八月,数据八月(整体),数据八月(训练)]。梯度等于1,问题就解决了。这就是ResNet的用武之地,因为它通过身份函数来实现这一点。因此,当梯度反向传播时,其值不会减少,因为局部梯度为1。深度残差网络(ResNet),如流行的ResNet-50模型,是另一种类型的50-层深度卷积神经网络架构(CNN),如图3所示。剩余神经网络通过插入快捷连接将普通网络转换为剩余网络ResNet比VGGNet简单,因为它们的过滤器更少。ResNet中不允许出现消失梯度问题跳过N. Nasir等人智能系统与应用17(2023)20016011图16. 图像模型3结果[自上而下:无数据八月,数据八月(整体),数据八月(训练)]。图十七岁多模态结果[自上而下:无数据八月,数据八月 (整体),数据八月(训练)]。连接起到梯度高速公路的作用,允许梯度自由流动。这也是ResNet有不同版本的主要原因之一,如ResNet50,ResNet101和ResNet152。Inception的设计是为了减少深度计算的计算负担,神经网络,同时实现尖端性能。由于计算效率会随着网络的深入而降低,Inception的作者有兴趣找到一种在不增加计算成本的情况下扩展神经网络的方法。 图 5显示N. Nasir等人智能系统与应用17(2023)20016012图18. 迁移学习[Top-Bottom:MobileNetV 2,ResNet 50,InceptionResNetV 2,VGG 16].另一方面,更深层次的网络是以牺牲规模和速度为代价的。物体检测任务必须能够在现实世界应用中的计算有限的平台上执行,例如自主车辆或机器人视觉。MobileNet是一个用于嵌入式视觉应用和移动设备的网络,旨在解决这一问题。MobileNet背后的想法是通过使用深度可分离卷积来构建更轻的深度神经网络。卷积核或滤波器通过利用滤波器进行输入像素的加权和并且然后跨图像滑动到下一个输入像素来应用于常规卷积层中的输入图像的所有通道。只有MobileNet的第一层使用这种常规卷积。深度可分离卷积是下一层,它是深度卷积和逐点卷积的组合。深度卷积独立地卷积每个通道。如果图像有三个通道,则输出图像也将有三个通道。输入通道使用该逐点卷积进行滤波。逐点卷积如下,图19号。K折交叉验证结果。InceptionResNetV2模型架构。Inception关注的是计算成本,而ResNet关注的是计算准确性。理论上,深度网络的表现应该优于深度网络,但实际上,深度网络优于深度网络是由于优化问题,而不是过度拟合。简而言之,网络越深,优化的难度就越大。为了实现更高的准确性,计算机视觉网络正在成为其类似于常规卷积,但具有1× 1滤波器。逐点卷积的目标是组合depth卷积输出通道以创建新的特征。因此,所需的计算工作比常规卷积网络少模型架构如图4所示。MobileNet的性能优于其他前沿卷积神 经 网 络 , 如 VGG16 、 VGG19 、 ResNet50 、 InceptionV3 和Xception。MobileNets是瘦的深度神经网络,非常适合移动和嵌入式视觉应用。它在流线型架构中使用了可分离的卷积,N. Nasir等人智能系统与应用17(2023)20016013图20. LSTM +图像模型的混淆矩阵和诊断曲线。使 用 两 个 简 单 的 全 局 超 参 数 来 有 效 地 权 衡 准 确 性 与 等 待 时 间。MobileNet可用于物体检测、细粒度分类、人脸识别、大规模地理定位和其他应用。以下是使用M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功