没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁24(2021)100620COV-SNET:基于X射线COVID-19分类☆Robert Hertel*,Rachid Benlamri地址:955 Oliver Rd,Thunder Bay,ON P7B 5E1,CanadaA R T I C L EI N FO关键词:冠状病毒COVID-19卷积神经网络深度学习胸部X光计算机视觉A B S T R A C T人工智能研究界最近一直专注于通过将深度学习技术应用于COVID-19患者的X射线扫描来诊断COVID-19。将COVID-19与其他肺炎诱发疾病区分开来是一项极具挑战性的任务,因为它与其他肺部疾病具有许多相同的成像特征。鉴于公众可获得的COVID-19 X射线数量很少,这一点尤其如此。深度学习专家通常使用迁移学习来抵消医学成像任务中通常可用的少量图像。我们的COV-SNET模型是一个深度神经网络,它在超过10万张X射线图像上进行了预训练。在本文中,我们设计了两个COV-SNET模型,目的是诊断COVID-19。实验结果证明了我们的深度学习模型的鲁棒性,我们的三类和两类模型的灵敏度最终达到95%。我们还讨论了这种方法的优点和缺点,主要关注公共X射线数据集对当前COVID-19深度学习模型的限制。最后,我们总结了这项研究未来可能的方向1. 介绍世界各地的医疗行业和研究人员一直在紧急寻求新的诊断COVID-19的方法。由于世界各国缺乏检测用品,许多COVID-19患者无法得到诊断,导致疾病进一步蔓延。为了帮助缓解这一呈指数级增长的需求,深度学习研究人员一直试图使用放射技术对2019冠状病毒病(COVID-19)的肺部表现进行成像。冠状病毒病19是由严重急性呼吸道综合征冠状病毒2(SARS-CoV-2)引起的,是一种空气传播疾病,可以在个体之间迅速传播。2019冠状病毒病爆发于2020年3月11日被世界卫生组织(世卫组织)正式确认为大流行的原因。实时逆转录-聚合酶链反应(RT-PCR)检测是目前诊断COVID-19的金标准[2]。 虽然这是目前诊断COVID-19的最佳选择,但据报道,测试的灵敏度[ 9 ]。RT-PCR测试的假阴性率可以随着时间的推移显着变化,它是管理。在约翰霍普金斯大学进行的一项研究中,RT-PCR检测率为26%。这种表现是在COVID-19症状出现后的第八天报告的[20]。RT-PCR检测准确性的巨大变化促使许多研究人员寻找其他可以替代或除了RT-PCR检测之外的检测。医学研究人员中的一个主要候选人是放射成像的使用。在COVID-19检测呈阴性但患者强烈怀疑患有该疾病的情况下,放射成像已被证明是有利的[26]。胸部X射线(CXR)和胸部计算机断层扫描(CT)是放射科医生用于检测个人COVID-19相关肺炎的最常见方式。这两种技术都有其优点和缺点。在比较CXR和CT扫描时,CXR通常更便宜,因此使用更广泛。这在发展中国家尤其如此,在这些国家,CT扫描仪的预算可能更具挑战性。X光机比CT扫描仪还有另一个优势,即它们通常被制造成便携式的。它们可以被物理地运送到重症监护室(ICU),患者可以留在原地。在深入研究可能有助于诊断COVID-19的深度学习算法的细节之前,首先考虑放射科医生在确定COVID-19☆本文件是加拿大自然科学与工程研究委员会(NSERC)资助的研究项目的成果* 通讯作者。电子邮件地址:rhertel@lakeheadu.ca(R.Hertel)。https://doi.org/10.1016/j.imu.2021.100620接收日期:2021年4月21日;接收日期:2021年5月21日;接受日期:2021年5月2021年5月27日网上发售2352-9148/© 2021作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊首页:www.elsevier.com/locate/imuR. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006202诊断.这些图像特征在使用显着图验证COVID-19深度学习模型的过程中非常重要。COVID-19在放射学成像中的常见特征包括双侧磨玻璃样阴影(Glucose),以外周为主[21]。GGO是放射学扫描中衰减增加的肺部感染部位。Song等人[34]还发现,随着疾病的发展,在患者中通常可以观察到实变。放射学中的这些合并区域表示患者其他通常不存在的材料Song等人也报道“50岁以上的患者比50岁或更年轻的患者有更多的肺实变病变。” 有 临床放射学证据显示 他们在当他们被感染时,负面健康结果的风险更大。Cozzi等人同样发表了一项研究,COVID-19患者表现为斑片状或弥漫性网状结节影和实变,以基底部、外周部和双侧为主。”经常受到影响。为了获得对感染患者肺部内COVID-19表现的视觉欣赏,图图1显示了两名COVID-19患者的胸部X光片,其中有一些已经讨论过的视觉标记。我们的研究一直专注于开发一种新的深度学习模型,该模型已被训练用于对疑似患有COVID-19的患者进行分类。我们工作的贡献有三方面。首先,我们提出的拟议COV-SNET模型能够诊断COVID-19,其准确度高于执业放射科医生在相关工作中报告的准确度[39]。其次,我们使用的数据集没有包含相关作品中包含的几个偏差来源。最后,我们的工作提出了一项全面的研究,将我们的新COV-SNET模型与其他现有的COVID-19深度学习模型进行基准测试。我们的工作从第2节开始,讨论了使用迁移学习诊断COVID-19的其他研究。在第3节中,我们将继续讨论我们提出的网络架构以及我们用于处理COVID-19患者X射线扫描的深度学习方法。在解释了这些方法之后,在第4节中,我们给出了我们的系统的实验结果。此后,我们将我们的模型与其他现有系统的性能进行比较,并讨论我们的方法的优点。最后,在第5节中,我们总结了我们的讨论这项研究未来可能的方向。2. 相关作品已经发表了许多关于在X射线图像上使用深度学习方法诊断COVID-19的论文。有各种各样的方法已经研究了这个问题和大量的公共COVID-19X射线数据集在流通。 以下是关于这一主题已发表的最重要论文的一些发现。COVIDX-Net [13]的设计者比较了七种2D现成架构。Hemdan等人[13]打算使用相同的培训和测试方法比较这些架构。Apostolopoulos和Mpesiana [4]采取了与Hemdan等人相同的方法。 几 架构 的 是 预训练 在ImageNet上权重 Hemdan等人[13]报告了使用VGG-19 [ 33 ]和DenseNet-201架构[ 14 ]的最佳架构Apostolopoulos和Mpesiana[4]他们发现VGG-19获得了最高的结果。这些报告中有几个主要缺陷问题研究 这些研究的数据集(尤其是Hemdan etal. [13]两者都太小,无法实现可靠的结果。他们也只使用了ImageNet,而忽略了使用一种特定于模态的迁移学习。 Apostolopoulos和Mpesiana [4]犯了错误,Kermany等人’我们注意到,使用该数据集的论文往往报告不切实际的评估指标。Khalifa等人[19]首先提出使用生成对抗网络(GAN)[10]来进一步增强输入到其分类器中的图像,并提高其诊断肺炎患者的准确性。作者将数据集的大小增加了十倍。他们认为这有助于他们的分类器避免过度拟合。他们尝试在他们的模型中使用几个深度学习分类器,最终决定使用ResNet-18 [12]。Waheed等人。[36]也设计了他们的模型,其中包含GAN,后来发布了类似于Khalifa等人的工作。他们的模型不同之处在于他们使用辅助分类器生成对抗网络(AC-GAN)[25]。他们的AC-GAN生成的合成图像被输入到VGG-16分类器中[33]。Khalifa等人。[19]犯了使用Kermany等人的[ 18 ]肺炎数据集。 Waheed等人 [36]通过使用COVID-19放射学数据库[ 29 ],看起来也犯了同样的错误。Wang等人[37]为诊断COVID-19而设计了用于训练这个定制设计的CNN的数据集被公开,并最终用于其他几篇研究论文。这图1.一、 2名50多岁的COVID-19肺炎男性的肺部显示(a)双侧实变和(b)甘精胰岛素(白色箭头)和线性混浊(黑色箭头)[7]。R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006203×dataset是公开可用的最大数据集之一,并且该数据集不包含在其他几个公共数据集中发现的许多错误。他们的模型展示了有希望的结果,并取得了准确率93.3%。 他们的模型是使用“机器驱动的设计探索策略”[ 37 ]构建的,该策略使用生成合成[ 40 ]。在COVID-19大流行之前,这一特定策略是作者之前一些研究的主题 他们的做法是能够自动生成高效的深度神经网络,并使用ResNet架构设计这些网络[12]。本文的作者还使用了一种名为GSInquire [22]的可解释性方法来验证他们的工作。Rajaraman等人。[30]创建了一个迭代修剪的深度学习集合模型来诊 断 COVID-19 。 作 者 首 先 训 练 了 几 个 流 行 的 CNN 模 型 ( VGG-16/VGG-19 [33],Inception-V3 [35],Xception [6],DenseNet-201[14]等)。单独的肺部X射线任务(模态特定任务)。使用较少的模型参数,并有助于提高模式l彻底修剪了他们的CNN他们使用几种集成策略组合了这些迭代修剪的CNN。他们发现加权平均是最有效的集成策略。像许多其他研究一样,错误地使用了Kermanyet al. 的[ 18 ]肺炎数据集。另一项值得考虑的研究是Wehbe等人。’出版物,试图诊断COVID-19使用一个大型私人来自美国医疗机构的数据集。这篇论文类似于Rajaraman等人。’然而,他们的数据集并没有像其他数据集那样在大小上存在缺陷。他们也没有使用Kermany等人的[18]数据集。该论文值得注意的是,作者组建了一个由五名放射科医生组成的团队来确定COVID-19的诊断 患者 此后, 比较了放射科医生与他们的整体模型。他们发现,五名放射科医生的共识只能以81%的准确率检测COVID-19。这些结果为确定疑似COVID-19患者的诊断任务提供了合理的贝叶斯误差估计。 该au-托尔的集合模型预测的准确率为83%,这是合理的,因为专家们的共识准确率为81%。先前研究无法将其模型与工作放射科医师的预测进行比较。在以前的许多论文中提到的评估指标也容易受到数据集大小的影响。较小的数据集有时会导致过度的promise结果。Yeh等[41]使用了几家医疗机构的私人数据集并将其添加到Wanget al. ’他们最初使用来自与王的COVID x数据集相同来源的图像来训练和测试他们的深度学习模型他们还使用了肺炎,COVID-19和来自两家医疗机构的正常X射线图像。他们获得了非常有希望的结果,并实现了95%至100%的COVID-19敏感性。他们拿出了来自医疗机构的第三个更大的私人数据集,看看他们的结果会如何随着额外的数据而变化这个更大的数据集导致他们的准确性下降,他们在测试集上实现了81.82%的COVID-19敏感性。这证明使用小型COVID-19 X射线数据集会导致不切实际的评估指标。 第三个私人数据集只包括306名额外的COVID-19患者,但这些增加的图像导致其深度学习模型的结果发生了巨大变化。Mangal等人。[23]基于ChexNet模型[31]创建了一个用于诊断COVID-19的计算机辅助检测(CAD)系统。ChexNet首先获得了研究界的关注,因为它能够诊断14种肺部病变。该模型使用DenseNet-121架构[14]设计,并已在超过100,000张X射线上进行了训练。 他们创造了3级和4级模型。Mangal等人[23]使用加权类激活验证了他们的模型[32]第三十二话该模型的一个缺陷是它使用了Kermany等人的数据集。 [18]在Kaggle上使用PaulMooney的胸部X射线数据集时[ 24 ]。这些人的肺的尺寸从儿童身上拍摄的X射线可能导致他们的最终分类器产生不可预测的结果。Haghanifar等人[11]对Mangal等人进行了改进。’他们构建了与Mangal等人不同的数据集。[23]用于训练他们的ChexNet模型。Hagnifar等人[11]犯了与Mangal等人[23]相同的错误,包括Kermany等人的[ 18 ]数据集。 Al-Waisyet al. [3]同样发表了一篇使用ChexNet模型的论文作者获得了一组比前两个提到的模型。不幸的是,使用Kermanyet al. 的[ 18 ] 数据 集是广 泛的,这在所有这些ChexNet模型中产生了一个重大缺陷。Islam等人。[16]开发了一种新的CNN-LSTM模型,用于通过胸部X射线诊断COVID-19。他们的模型在文献中的架构方面是独一无二的。在验证过程中,他们获得了结果中所有类别的准确性、特异性、灵敏度和98- 100%的F1评分。他们的模型似乎报告了看起来过于乐观的性能指标。当注意到他们的模型报告使用Kermany时,等人’Rahimzadeh等人[28]开发了一个深度学习模型,将Xception[6]和ResNet-50 [12]模型结合在一起。两个10形成两个模型的最后一个特征提取器层的2048个特征图s这种新颖的架构运行得很好,另外进行了五重交叉验证,以提高其结果的稳健性。总体而言,本文作者使用其模型取得了合理的成功,因为他们实现了91.4%的总体准确性和80.5%的灵敏度Panwar [27]等人构建并优化了一个具有ImageNet权重的VGG-19模型,以检测疑似患者中的COVID-19。他们的模型在X射线和CT扫描上都进行了训练。他们的模型都是二元模型,这些模型比较了COVID-19患者与正常患者、COVID-19与肺炎患者以及COVID-19患者与非COVID-19患者。作者还专注于生成Grad-CAM热图,以确保他们能够获得新冠肺炎的X光和CT扫描特征。他们的CT分类器数据集可能是足够的,他们用于比较COVID-19与肺炎患者的数据集存在偏倚来源,因为他们的X射线肺炎im-年龄来源于Kermanyet al. 的[ 18 ]数据集。Afshar等人[1]发表了一篇论文,学习诊断COVID-19的方法虽然文献中的绝大多数模型都使用CNN来检测COVID-19,但Afshar等人’CapsNet是一种替代模型,可以通过使用“通过协议进行路由”[ 1 ]。因此,这些网络中的胶囊能够达成[1]在X射线中。与之前提到的团队一样,作者在94,323张X射线上预训练了他们的COVID-CAPS模型,然后将模型微调为较小的COVID-19数据集。我们在这个实验工作是,作者包括Kermany等人。的数据集[ 18 ]时使用Kaggle 上的Paul Mooney的胸部X射线数据集[ 24 ]。Karthik等人[17]在他们的工作中提出了一种独特的CNN,它使用了一种带有区别性过滤器学习(DFL)的混合双分支(CSDB)CNN这种独特的建筑学“单个卷积层内的自定义过滤器,用于识别特定的肺炎类别。[17 ]他们将自己的模型与在相同的数据集上训练它们之后,它们的表现有望超过那些CNN。不幸的是,他们的数据集包含一个缺陷,即作者使用了来自Kermany等人的细菌性肺炎和肺炎X射线。的数据集[ 18 ]。R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006204×3. 拟议的网络架构3.1. 数据集在医学成像中开发深度学习模型的一个重要方面是从数据开始。在考虑此类项目的研究方向时,X射线图像和元数据的可用性非常重要。在我们的数据收集阶段,我们发现很难找到伴随X射线图像的元数据。没有足够的元数据来帮助开发实用的COVID-19诊断系统。有许多公开可用的数据集,但在分析这些数据集时,我们发现其中许多数据集都是错误的。Kaggle上的许多数据集和各种研究论文中使用的Kermany等人的[ 18 ]数据集。如前所述,该数据集包括一至五岁儿童的胸部X光片岁儿童的肺与成人的肺具有不同的我们还发现,绝大多数公开可用的数据集都没有提到它们是否按患者数量划分训练集和测试集。大多数数据集都包含了从医学研究论文中获取的COVID-19 X射线。 在许多这样的数据集中,可以找到同一个病人。 Wang等人’Wang等人[37]将他们的训练集和测试集按患者数量进行划分。与其他数据集相比,他们的COVID X数据集很大,并且“由13,870例患者病例的13,975张CXR图像组成”[ 37 ]。该数据集包含358个COVID-19图像,8066张正常图像,5541张肺炎图像。COVIDX数据集已被许多其他研究团队使用,目前是与其他论文一起测试新模式l结果的良好基准出于这些原因,我们决定在我们的研究中使用COVIDX数据集。我们将COVIDX数据集分为90%的训练集和10%的测试集。考虑到COVIDX数据集中的极端类别不平衡,这允许训练集中有适当数量的COVID-19示例。因此,多类训练集由258名COVID- 19患者、7966名正常患者和5441名肺炎患者组成。剩下10%的数据集用于验证,但在测试集中,又出现了类不平衡。因此,我们减少了测试集中正常和肺炎样本的数量,以匹配COVID-19样本的数量。 在这样做的过程中,我们得到了一个平衡的测试集,评估我们的模式l的表现。这个三级测试集最终包括100例COVID-19病例,100例正常病例和100例肺炎病例。在这项研究中还设计了一个二元分类器构建了我们的两类COVID-19与非COVID-19 X射线分类器,以将我们的方法与其他两类研究进行比较。因此,我们的二元训练集由258张COVID-19图像和13407张非COVID-19图像。 二元分类器的测试集由100个COVID-19 X射线和100个非COVID-19 X射线组成。我们首先在上述数据集上训练和测试了我们的深度学习模型,但后来又继续创建了另一组更大的训练集。鉴于COVIDX数据集中可用的COVID-19图像数量较少,我们扩大了该数据集中COVID-19图像的数量,以检查可能的过拟合。以前的研究[39,41]特别提到这是他们工作中COVID-19敏感性降低的原因。我们想调查更多的COVID-19图像是否会对我们的分类器的COVID-19敏感性进行了重大修正。我们创建的第二个训练集从517 COVID-19开始来自COVIDX 5训练集的图像[37]。第二个训练集还包括来自MIDRC-RICORD-1C数据库的922张图像[5]和来自BIMCV数据集的2474张图像[15]。因此,我们的第二个训练集由3913张COVID-19图像、7966张正常图像和5441张肺炎图像组成。对于二进制分类,我们还检查了我们的模型在3913张COVID-19图像和13417张非COVID-19图像的训练集上的效果。我们保留了原始的测试集作为基准,以测试我们的系统与我们以前训练的分类器和Wanget al. 的出版模型[ 37 ]。表1和表2显示了COVIDX训练集数据集以及我们的扩展训练集和共享测试集。3.2. 系统设计我们研究中的两种模型都是用DenseNet-121设计的[14]基本特征提取器并在ChestX-ray 14数据集上训练[38]。ChestX-ray 14数据集包含“30805名患者的112,120张正面X射线图像“[ 31 ]。 这种形式的特定模式迁移学习提高了我们的模式l捕捉COVID-19特征的能力。Den-seNet-121最早的层包含的图像.在最终确定基于DenseNet-121网络的新架构模型之前,对所提出的系统架构,COV-SNET网络,具有以下特点。在将我们的预训练权重加载到DenseNet-121网络中之后,我们添加了一个具有128个单元的密集层,一个丢弃率为10%的丢弃层,以及一个用于多类分类的3类softmax层我们的模型可以在图2中观察到。对于我们的二元分类器,我们用包含单个sigmoid激活函数的密集层替换了softmax层。表3显示了我们模型的详细逐层描述在训练我们的模型之前,我们注意到存在需要纠正的类不平衡。这主要是由于缺乏公开的COVID-19 X射线。在训练期间使用加权损失函数来校正这种类别不平衡。除了校正类不平衡之外,我们的训练还需要一些必要的预处理步骤。 我们使用数据增强方法,训练以增加我们的模式l对新例子的概括能力。对于我们的多类模型,我们将图像旋转设置为15%,垂直/水平平移设置为15%,图像剪切设置为15%,随机缩放设置为15%。对于我们的二进制模型,上述每个增强类别都设置为20%。在我们所有的模型中,我们还在增强过程中使用了水平翻转。在培训和测试期间,我们的批量大小为设置为32。使用Kera训练我们的COV-SNET模型的第一步涉及最初单独训练最后一层。每个网络的最后一层在TensorFlow 2.0中训练了9个epoch。在此训练过程中使用了Adam优化器。为了提高网络的性能,我们解冻了模型中的所有层,以进行进一步的训练。对于6个时期,我们离开了亚当优化器在其默认的学习率。在6个时期之后,我们将学习率固定为110- 5,并训练每个模型,直到它们的峰值感知。达成了协议。对于仅在COVIDX数据集上训练的模型,这需要10个epoch。对于在我们的大型训练集,这需要13- 14个时期。 在解冻模型中的层之前,我们在模型1的批次归一化层中固定了批次的移动均值和移动方差。这些批量归一化参数被固定到在ChestX-ray 14数据集上训练我们的模型所生成的权重。表1数据集-多类训练和测试集中的图像数量COVID-19正常肺炎COVIDX多类训练集25879665451我们的EX panded多类训练集391379665451多类COVIDX检测套装100100100R. Hertel和R. 本拉姆里表2医学信息学解锁24(2021)1006205[]×x6[]××12[]××24[]××16数据集-二进制训练和测试集中的图像数量COVID-19非COVID-19COVIDX二进制训练集25813417我们的EX panded二进制训练集391313417二进制COVIDX测试集100100表3图二. 用于COVID-19分类的拟议网络架构。是文献中使用的所有评估指标,并包含在我们的最终结果中。用于COVID-19分类的拟议网络架构。图层输出大小模型卷积112× 112 7× 7卷积,步长2池化56× 56 3× 3最大池,步幅2在对每个模型的最后一层进行9个epoch的训练后,每个模型的总体验证准确率在75%到80%之间。虽然这与先前研究中执业放射科医生的表现接近[39],但我们知道这一结果可以通过以下方法进一步改善:致密块状(一)56561 x 1 conv3x 3转换解冻每个模型中的图层模型解冻后模型对COVID-19的敏感度至少达到95%。整个过渡层56× 56 1× 1转换(1)28× 28 2× 2平均池,步幅2一组按类计算的性能统计信息,致密块状(二)28281 x 1 conv3x 3转换分类器可以在表4它们对应的混淆矩阵也可以在图1A和1B中看到。 三比六我们的三级模型训练了过渡层28× 28 1× 1转换(2)14× 14 2× 2平均池,步幅2最初的COVIDX训练集最终达到了最终的验证精度,致密块状(3)14141 x 1 conv3x 3转换84.3%。我们在扩展训练集上训练的3类模型获得了86%的验证准确率最终的准确性过渡层14× 14 1× 1转换(3)7× 7 2× 2平均池,步幅2在原始COVIDX训练集上训练的两类模型为88.5%。致密块状(四)771 x 1转换3x 3转换在我们扩展的训练集上训练的两类模型获得了87.5%的验证准确率。我们四个模型平均合并1× 1 7× 7全球平均合并液DNN单位,释放辍学分类类别softmax4. 实验结果4.1. 绩效评价COVID-19深度学习文献中报告的结果通常基于各种评估指标。准确度、特异性、灵敏度、精密度、召回率、阴性预测值(NPV)、阳性预测值(PPV)、F1评分和ROC曲线下面积(AUC)产生了可比较的结果,如图1A和1B所示。 七比八深度学习模型的评估指标永远不应该单独使用。在验证模式1的性能时是可靠的。 小型数据集可能仅包含数百张正在研究的特定病理学图像。他们往往容易产生不切实际的评价指标.为了确保深度学习模型能够提取正确的特征,显着图被广泛应用于医学成像。显着图很重要,因为它们可以告知设计人员深度学习算法是否被与成像病理无关的图像特征欺骗。深度学习算法通常会错误地锁定项链、医疗设备和X射线图像中出现的文本。在我们的研究中,使用Grad-CAM [32]来确定我们的COV-SNET模型是否符合COVID-19的正确特征,表4在COVIDX多类训练集上训练后的三类模型性能指标TPTNFPFNAcc.Sens.规格PPVNPVF1COVID-19951663450.8700.950.8300.7360.9710.84正常861928140.9260.860.9600.9150.9770.88肺炎721955280.8900.720.9750.9350.8740.82R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006206表5在COVIDX二进制训练集上训练后的两类模型性能指标TPTNFPFNAcc.Sens.规格PPVNPVF1COVID-1996811940.8850.960.810.8350.9590.89非COVID-1981964190.8850.810.960.9530.8350.876表6在我们扩展的多类训练集上训练后的三类模型性能指标TPTNFPFNAcc.Sens.规格PPVNPVF1COVID-19951703050.8330.950.8500.7600.9710.86正常931891170.9400.930.9450.8940.9640.91肺炎701991300.8970.700.9950.9890.8690.82表7在我们扩展的二进制训练集上训练后的两类模型性能指标TPTNFPFNAcc.Sens.规格PPVNPVF1COVID-1995802050.8750.950.800.8260.9410.883非COVID-1980955200.8750.800.950.9410.8260.865图三. 在COVIDX多类训练集上训练后,来自三类模型的混淆矩阵X正面胸部X光片Grad-CAM生成的热图包含颜色编码信息,突出显示图像的特征,与CNN的最终分类最相关。 图图9显示了我们的模型使用Grad-CAM生成的热图对COVID-19患者的性能。这些Grad-CAM热图的红色和橙色区域是每个图像中最相关的部分,两名患者都被确诊为新冠肺炎这些颜色过渡成蓝色 区域 的 的 最不相关 的每一个的部分 图像为我们CNN的最终分类做出贡献。我们采用的Grad-CAM使用模型最后卷积层中的最终特征图来生成这些重要区域。从我们的两个例子中可以看出,我们的Grad-CAM定位两个图像中的不透明度通常由放射科医生在评估这些病人时挑选。4.2. 讨论我们所有的COV-SNET模型都获得了比Wehbe等人的五位放射科医生的一致表现更高的评价指标。’虽然他们的数据集不可用,见图4。在COVID x二进制训练集上训练后,来自两类模型的混淆矩阵x。在这个时候,Wehbeet al. ’在Wehbe等人中表现最好的放射科医生。’放射科医师的最佳敏感性为76%。我们所有的模特都以相当大的优势击败了表现最好的放射科医生。他们的工作是有用的,因为它为设计师提供了有益的见解,深度学习模型是否提供了合理的基础性能指标。Wehbe等人的5名放射科医生[39]见表8。文献中的许多深度学习模型报告了优于Wehbe等人的放射科医生的表现。’一些论文报告的评估指标优于我们自己的也这可能是什么原因呢?许多论文已经纳入Kermanyet al. 的[ 18 ]数据集。该数据集包含1至5岁儿童的胸部X光片的孩子这些胸部X光片都是各种细菌性和病毒性肺炎。 Kermanyet al. ’ 许多设计师认为这些额外的R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006207图五. 在我们扩展的多类训练集上训练后,来自三类模型的混淆矩阵见图6。在我们扩展的二进制训练集上训练后,来自两类模型的混淆矩阵X分类在临床情况下对于排除其他可能的感染源然而,训练一个深度的如果相同的算法最终将被部署在成人肺上,则使用儿童肺学习算法。Apostolopoulos和Mpesiana [4] ,Khalifa et al. [19] ,Waheed et al.[36] , Rajaraman et al. [30] , Haghanifar et al.[11] , Mangal elal.[23],Al-Waisy et al.[3]伊斯兰教等人 [16]均采用Kermanyet al. [18 ]在他们的模型中。这些模型中有许多据我们所知,现有文献中只有一个其他深度学习模型使用与我们自己一样大的COVID-19数据集,同时也不会犯使用Kermanyet al.的错误。’[18]数据集。该模型由Wehbe等人发表[39],他们最终仅实现了75%的COVID-19敏感性。因此,仍然需要探索深度学习模型是否可以在使用比过去作者通常可用的更大的训练集的同时实现更高的COVID-19敏感性。需要一个正确构建的数据集来进行这项研究。在扩大王等人的[ 37 ] COVID x数据集,我们试图使用包含Kermany等人的公共数据集。的数据集[ 18 ]。我们在这些数据集上训练了DenseNet-121,DenseNet-201和Inception V3架构在这样做,我们获得了可疑的高性能指标,并分别在三类和两类模型上获得了98.0和99.6%之间的准确度。这些性能指标反映了我们在其他研究中发现的性能指标,这些研究犯了同样的错误。表9说明了我们的观点。它比较了Wehbe等人的放射科医生’其他研究中的深度学习模型产生不切实际的性能指标还有其他可能的原因。Kaggle和其他平台上的许多公共数据集并没有明确说明它们是否按患者数量划分了训练集和测试集。 如果深度学习模式L模型将更好地了解测试集中的特征。这种数据泄漏会导致不切实际的性能指标。公共数据集中的X射线文件经常被重命名,并且在许多情况下其原始源信息丢失。许多论文结合了几个公共数据集。他们经常这样做,而没有提到他们如何确保来自不同数据集的相同图像不会在自己的数据集中重复。一些论文中的数据集也很难重建,追踪最终包含在一些数据集中的图像链也很有挑战性。这些都是可能的因素,有助于一些研究的高性能指标,这些指标远远超出了实践放射学专家 我们决定使用Wanget al. ’因为数据集的设计者考虑到了正在讨论的这些问题。因此,与其他在线公共数据集相比,现在应该清楚的是,用于训练深度学习COVID-19模型的数据集的组成是文献中经常报告的高评估指标的主要因素之一。然而,还有另一个关键因素导致了这些不切实际的评估指标。COVID-19 X射线成像文献中的许多数据集没有足够数量的COVID-19图像。医学数据集中缺乏COVID-19 X射线图像有时会导致不可预测的结果。当添加可以在系统的评估度量中对由本领域的执业专家报告的性能进行校正这正是在Yeh等人身上发生的事情。的研究。 工作在Ref。[41]开始使用早期版本的COVIDX数据集。该研究的作者最初还使用了两家医疗机构的私人X射线图像。当作者仅在这些初始数据集上训练DenseNet-121分类器时,他们实现了96.8%的COVID-19敏感性。然而,这并没有持续下去,第三次医疗保险的纳入也没有改变。该机构这使得他们的模型最终对COVID-19的敏感度为81.82%。Yeh等的[ 41 ]最终数据集包含510张COVID-19图像。我们使用的COVIDX数据集有358张COVID-19图像。因此,我们最初的三类模型只包含了Yeh等人的COVID-19图像数量的70%。的[ 41 ]模型最初是在上面 训练 的。 我们的三级模型产生的COVID-19敏感度为95%。 Yeh-etal. ’[41]三级模型最终获得的COVID-19敏感度为81.82%。Wang等人’然而,我们怎么知道,如果我们训练了更多COVID-19图像?毕竟,研究界[39]中的一些人指出,在过去的小型COVID-19数据集上训练的模型中会发生过度拟合。最近,大量COVID-19图像已经变得可用,这些图像独立于先前的COVID-19数据集。这使得我们从原始的COVIDX数据集创建了一个扩展数据集,我们用来检查过拟合。经过进一步检查,我们发现我们的评估指标没有受到在扩展的COVID-19数据集上训练模型的影响。我们能够在我们的三类模型上使用此数据集保持相同的COVID-19敏感性(95%)。R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006208见图7。 (a)在COVIDX多类训练集上训练的三类模型和(b)在COVIDX二进制训练集上训练的两类模型的ROC AUC图。图8.第八条。(a)在我们的扩展训练集上训练的三类模型 和(b)在我们的扩展训练集上训练的两类模型的ROC AUC图。此后,我们继续使用相同的扩展数据集创建一个两类模型。我们最初的两类模型产生的COVID-19敏感度为96%。 在我们扩展的数据集我们获得了95%的COVID-19敏感度。 Wehbe等人’两类COVID-19模型获得了75%的COVID-19敏感性。 然而,他们的集成模型是在比我们的数据集稍大的数据集上训练的。他们的数据集包含4253张COVID-19图像。他们展示在他们的论文中,他们的模式L五位放射科医生在他们的研究中的一致表现。他们还认为,深度学习模型的高灵敏度在其他研究是由于公开数据集中缺乏COVID-19图像而引起的。我们之前写过,这确实是在叶的情况下,等人的[41]研究,但已经能够证明这不是我们的研究情况。扩展COVIDX数据集并没有显著影响我们分类器的性能在所有的研究中,使用Kermanyet al. ’表10列出了在数据集组成方面没有任何问题的模型之间的灵敏度比较。在表10中的论文中,我们只能将我们的工作与Wang等人的工作进行直接比较。’R. Hertel和R. 本拉姆里医学信息学解锁24(2021)1006209见图9。 两名不同的COVID-19患者在他们的Grad-CAM旁边显示他们的原始X射线,生成了热图。表8五名放射科医生用X射线诊断COVID-19的表现[39]。Acc.Sens.规格共识81% 70% 89%最佳放射科医生81% 76% 91%最差放射科医生76% 60% 75%[37] COVID-Net模型。我们的模型最终需要与他们不同的增强设置,以实现最佳结果。不幸的是,我们无法复制表10中的其他数据集。表10中的几篇论文提到他们的数据集是私有的。Wehbe等人[39]目前有最大的新冠肺炎我们在文献中找到的数据集,但不幸的是,它完全是私人的。然而,我们已经能够组装一个数据集,现在的规模更接近于Wehbe等人。的[ 39 ]私人COVID-19数据集。通过这样做,我们已经能够证明深度学习模型能够获得比以前报道的更高的COVID-19敏感性。表9过去基于DenseNet的模型与放射科医生的性能对比。论文综述F1 ACC COVID-19 Sens. Yeh et al.[41个]3级[第十一届]2级百分之九十四百分之九十八点六二–三级百
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功