没有合适的资源?快使用搜索试试~ 我知道了~
基于机器学习和深度CNN的冠状疾病诊断方法
医学信息学解锁24(2021)100621使用机器学习算法和深度CNN从相关基因和X射线图像诊断冠状疾病Nahida Habiba,b,*,Mohammad Motiur Rahmanaa计算机科学与工程系(CSE),Mawlana Bhashani科技大学(MBSTU),Santosh,Tangail,1902年,孟加拉国b孟加拉国Narayanganj,1400,Ranada Prasad Shaha大学计算机科学与工程系A R T I C L EI N FO保留字:COVID-19肺炎基因筛选函数语义相似度矩阵X机器学习CNNA B S T R A C T新型冠状病毒具有高度传播性,正在迅速蔓延,危及数百万人的生命和全球经济。为了消除变异和颠覆性扩张的链条,对感染患者的早期和有效诊断是非常重要的。不幸的是,与受感染患者的数量相比,许多国家缺乏检测设备。期望具有快速诊断,从疾病基因或从CT或X射线图像识别COVID-19。COVID-19导致患者流感、咳嗽、肺炎和肺部感染,其中大面积肺泡损伤和进行性呼吸衰竭可导致死亡。本文提出了两种不同的检测方法-第一种是基于基因的筛查方法,用于检测冠状病毒疾病(中东呼吸综合征相关冠状病毒,严重急性呼吸综合征冠状病毒2和人类冠状病毒HKU 1)并将其与肺炎区分开来。这种新的医疗保健方法利用疾病基因来建立基因之间的功能 语 义 相 似 性 。不 同 的 机 器 学 习 算 法 - eXtreme Gradient Boosting , Naive Bayes , Regularized RandomForest,Random Forest Rule-Based Model,Random Ferns,C5.0和Multi-Layer Perceptron,都是在语义相似性上进行训练和测试,以分类冠状动脉疾病和肺炎疾病。最好的表现模型,然后ensem- bled,产生近93%的准确性。本文提出的第二种诊断技术是自动化COVID-19诊断方法,其使用胸部X射线图像使用深度CNN技术对正常与COVID-19和肺炎与COVID-19图像进行分类,实现99.87%和99.48%的测试准确度。因此,这项研究可以帮助提供更好的治疗COVID-19。1. 介绍由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引起的COVID-19是一种高度传染性疾病。冠状病毒被认为只感染动物,直到2002年 在 中 国 广 东 发 生 由 SARS-CoV 引 起 的 严 重 急 性 呼 吸 道 综 合 征(SARS)爆发[1]。在2005年,人类冠状病毒HKU1首次被发现。近十年后,另一种名为中东呼吸综合征冠状病毒(MERS CoV)的地方性冠状病毒出现在中东国家。我们现在已经看到了COVID-19的爆发2019冠状病毒病于2019年12月从中国武汉爆发,迅速在全球蔓延,影响约215个国家的人民。2020年2月12日,世卫组织警告称,由于COVID-19,如果不加以控制,数百万人将死亡,并于2020年3月11日宣布其为大流行病[2]。根据Worldometers数据显示,超过2100万人感染,死亡人数超过76万[3]。随着新病例成倍增加,这一流行病已成为一个严峻的数字。社交距离和接触者追踪是世界卫生组织(WHO)提出的控制这种病毒感染传播的两种有效技术[4]。因此,为了避免病毒的快速传播,大多数国家强制实施封锁,这扰乱了日常生活和社会经济条件。然而,局势并没有完全得到控制。对受感染的患者进行有效的筛查有助于他们被隔离,并立即接受治疗和护理,以减轻病毒的传播[5]。逆转录聚合酶链反应(RT-PCR)是公认的COVID-19标准诊断方法[6]。然而,由于RT-PCR检测试剂盒、检测试剂、适当的实验室环境、PPE和专业知识的数量不足以满足需求,污染率迅速增加。* 通讯作者。1902年孟加拉国坦盖尔桑托什Mawlana Bhashani科技大学计算机科学与工程系。电子邮件地址:nahidahabib164@yahoo.com(N. Habib),mm73rahman@gmail.com(M.M.Rahman)。https://doi.org/10.1016/j.imu.2021.100621接收日期:2020年10月26日;接收日期:2021年5月18日;接受日期:2021年5月24日2021年5月28日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuN.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006212因此,研究人员正在尝试开发替代检测技术。目前,机器学习和深度学习被用作有效诊断疾病的成功人工智能技术。X线摄影方法比CT扫描图像更容易和更经济。因此,大多数研究人员更喜欢使用X射线图像,而不是CT图像。几乎所有的冠状动脉疾病都是从感冒样症状开始,然后发展为肺炎。COVID-19的症状可从轻度到重度,包括发热、咳嗽、呼吸困难到肺炎、严重急性呼吸综合征、感染性休克、多器官衰竭,严重病例还会导致死亡[7]。据报告[3],在活动性病例中,2%的患者为危重患者,98%为轻度患者。研究发现,随着病毒遗传结构的轻微变化,症状也在逐渐变化。在目前的一些病例中,发现的冠状病毒阳性患者没有任何症状。由于这些原因,基于基因的COVID-19检测方法可以成为其他方法的一个很好的替代方案。为了降低发生某些疾病的风险并在早期阶段检测这些疾病,可以使用个体遗传组成的知识给定一组与某种疾病相关的疾病基因,它们就可以用来进一步寻找该疾病的候选基因[9]也可以检测和区分它与其他疾病。本研究旨在通过展示两种快速有效的诊断技术来减轻传统COVID- 19诊断方法的局限性,即基于基因的冠状病毒病检测方法和用于诊断COVID-19的自动计算机辅助诊断(CAD)工具,以通过胸部X射线图像将其与肺炎和健康区分开来。首先收集和预处理与疾病相关的基因和胸部X射线图像。对疾病基因应用了多种技术来计算它们之间的功能相似性度量矩阵。国家生物技术信息中心(NCBI)和基因本体(GO)在线数据库用于这些目的。然后,将不同的机器学习算法应用于矩阵以进行成功预测。通过使用具有模型权重的预训练的CheXNet深度卷积神经网络(CNN)来合并X射线图像[10],以从肺炎与正常健康图像中诊断COVID-19。本文的主要贡献是:➢ 一种从疾病基因诊断电晕病的新方法,具有良好的性能。➢ 进行了广泛的实验,以选择性能最佳的机器学习(ML)模型的最佳基因功能相似性措施。➢ 利用ML模型的集成技术来增加类,量化精度➢ 开发了一种自动计算机辅助COVID-19检测方法,用于从胸部X射线图像中使用转移学习的深度CNN模型。➢ 对不同的图像预处理技术进行了对比研究以达到最佳的分类精度。➢ 对不同的图像增强技术进行了实证研究,以处理有限的数据集并解决CNN模型论文的其余部分组织如下:相关作品展示了文献综述可以在第2节中找到。第3节介绍了本研究的拟定材料和方法。第4节描述并讨论了结果。最后,在第五章中对本研究的结论和未来的工作进行了展望.2. 相关作品现代技术使诊断和治疗比以往任何时候都更容易和方便。大型数据集的可用性和深度学习的成功使得诊断任务的结果更加准确。本节重点介绍了以下机构的研究和工作:与这项研究有关的其他团体截至撰写本文时,冠状病毒仍在传播,这对数百万人造成了危险。为控制COVID-19的传播,筛选大量疑似病例以采取适当的隔离和治疗措施是当务之急。然而,RT-PCR检测过程是耗时的,有时也会显示假阴性结果,因此研究人员正在尝试开发替代检测技术。论文[11]使用基因功能相似性来识别疾病基因。Jianpeng Zhang等人开发了一种深度学习模型,用于从活动病例的胸部X射线图像中检测COVID-19 [6]。在文章[12]中,不同的在线胸部X射线数据集被组合,重新排列,然后将迁移学习方法用于这种疾病检测。论文[7,13]还开发了一种自动化的深度CNN模型,用于使用X射线检测和区分COVID-19与肺炎。Lin Li等人提出了一种称为COVNet的深度学习神经网络模型,用于COVID-19检测,并使用CT扫描图像将其与肺炎和其他肺部疾病区分开来[14]。Hemdan等人[15]提出了具有七种不同CNN模型的COVIDX-Net-VGG 19,DenseNet 201,ResNetV 2,InceptionV 3,InceptionRes-NetV 2,Xception,MobileNetV 2,使用25张COVID-19阳性和25张正常X射线图像诊断COVID-19。该模型在VGG19和DenseNet201上获得Zheng等人[16]提出了一种称为DeCoVNet的深度CNN模型,用于从非COVID-19正常CT图像中检测COVID-19,准确率为90.1%。SarhanA.M.等人的模型。[17]提出了小波和SVM模型的融合,以区分COVID-19和正常X射线图像,获得94.5%的准确度。Nasrin等人[7]对50张COVID-19与50张正常图像进行了二进制分类,并使用ResNet 50获得了98%的最高分类准确率。由Ozturk等人提出的DarkCovidNet [18]获得了二进制的98.08%和三个类别的87.02%的准确率。Wang等人。[19]使用CT图像将COVID-19从Pneu-monia使用修改的Inception(M-Inception)深度模型。该模型实现了82.9%的分类准确率Ying等人执行了两个二元分类任务-COVID-19 vsPneumonia获得86%的准确率,COVID-19 vs Normal获得94%的准确率,使用DRE-Net模型使用CT图像[20]。Sethy和Behera [21]提出了一种模型,该模型将ResNet 50特征与SVM分类器融合,并实现了COVID-19与肺炎分类的95.38%准确率。他们提取了预训练CNN模型的特征,然后使用SVM分类器作为最终层。其他一些模型也被用于多类分类的目的Xu等人[22]使用肺部CT图像检测甲型流感病毒性肺炎(IAVP)和健康病例的COVID-19的性能准确率达到86.7%Mangal等人的CovidAID[23]使用预训练的CheXNet模型,并实现了90.5%的性能准确率。COVID-Net是Wang和Wong [5]的深度CNN模型,在分类COVID-19、非COVID-19和正常图像方面达到了93.3%的准确率。Asif等人[24]使用预训练的Inception V3模型从三个类别分类中诊断COVID-19,胸部X光检查的测试准确率为96%。库马尔河[25]等人提出了一种模型,将X射线图像分类为COVID-19,正常和肺炎图像,准确率为97.7%。肺炎是一种传染性肺部疾病,可造成呼吸困难和严重的呼吸问题,并伴有肺泡炎症。COVID-19的主要症状之一是肺炎。因此,我们认为,很难区分肺炎和COVID-19。从肺炎疾病基因中适当地识别COVID-19疾病基因,反过来又意味着从肺炎中识别COVID-19。基于基因语义相似性分数训练的ML分类器可以通过推断基因之间隐藏的语义相似性来识别疾病基因。由于AI和ML工具在诊断肺炎方面表现出高效的性能,它们也可以成功地应用于诊断COVID-19。为了抑制冠状病毒的快速传播,有必要对所有疑似病例进行筛查、隔离并立即提供治疗。本研究提出了一种新的电晕诊断技术N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006213使用疾病基因的疾病,在区分冠状动脉疾病和肺炎方面表现良好。此外,这里提出了一个微调的CheXNet CNN模型,该模型在Pneumonia数据集[26]上进行预训练,用于从X射线图像诊断COVID-19,该X射线图像提供两个分类任务-COVID-19 vs Pneumonia和COVID-19 vsNormal图像。3. 拟定的材料和方法提出的方法演示了不同的步骤,从数据收集到电晕检测使用基于基因的方法和CAD方法。图1的图表显示了所提出的方法的示意图。3.1. 数据源这里开发了两种不同的筛查方法,用于从疾病基因和胸部X光图像诊断冠状病毒病和COVID-19。为此目的,从NCBI基因数据库收集所有类型的冠状病毒和智人由于COVID-19是一个新术语,网上只有少数基因可用因此,基于基因的诊断研究集中在三种类型的冠状病毒疾病,如中东呼吸综合征相关冠状病毒,严重急性呼吸综合征冠状病毒2和人类冠状病毒HKU1。国家生物技术信息中心(NCBI)[27,28]是美国国立卫生研究院(NIH)的一个分支,也是美国国家医学图书馆(NLM)的一部分,包含一系列数据库。NCBI基因数据库是一个免费访问的在线数据库,收集了大量已知和预测的基因。Tawsifur Rah的在线man,这是“Kaggle的COVID-19数据集奖得主”,用于基于CNN的CAD方法。该数据集收集了来自Cohen JP [30]和不同出版物的COVID-19图像以及来自Paul M [31]的Kaggle肺炎数据集的肺炎和正常图像。该数据集由1200张COVID-19图像、1341张正常图像和1345张病毒性肺炎图像组成。图2总结了X射线数据集。3.2. 数据准备数据预处理是提高数据质量的重要步骤之一,数据,并将原始数据转换为更合适和更有效的格式。收集的冠状病毒和肺炎基因根据其权重值进行重排,因为高权重基因位于顶部并相应地排序。基因以包含广泛信息的摘要格式收集。通过去除不相关的信息来挖掘基因,并且创建仅具有基因id和疾病类别列的组合来自两个类别的基因的结构框架。冠状病毒有108个基因,肺炎病例有252个基因。在收集到的基因中,有24个是两种疾病共有的。这24个共同基因从两种疾病基因中删除,导致84个冠状动脉疾病基因和228个肺炎基因。由于存在的肺炎基因比冠状动脉疾病基因多,ML模型可能会略微偏向肺炎。因此,为了避免模型的偏差,这两种疾病的84个最高权重基因用于进一步处理。表1显示了预处理和基因挖掘前后的基因数量。X射线图像被重新缩放到0快不同的图像预处理和增强技术,如直方图均衡化(HE),自适应直方图均衡化(AHE),Gabor滤波(GF),直方图的有向分量(HOG)和本地二进制模式(LBP)被应用到所收集的X射线图像。 在这些技术中,AHE作为图像对比 增强技术表现良好。然后将图像大小调整为224× 224,因为建议的CNN模型仅接受224× 224大小的图像3.3. 基因功能相似性矩阵计算基因功能相似性是生物学和生物信息学研究的一个广泛领域,包括基因聚类、疾病基因预测、蛋白质间相互作用等。基因间的功能相似性是基因间术语语义关系的定量度量。它传递了更多关于基因功能和序列关系的信息,并且可以存储为矩阵。基因表达谱、蛋白质-蛋白质相互作用(PPI)网络或基因本体(GO)可用于鉴定基因及其产物的功能相似性。这项研究确定功能相似性的基础上GO注释。基因本体(GO)是最常用的词汇表,用于表示具有明确定义的结构和手动管理的基因功能[32]。基因本体(GO)术语被构造为分层有向无环图(DAG)。生物学过程(BP)、分子功能(MF)和细胞成分(CC)是三个图1.一、 电晕检测方法的示意图。N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006214==-IC(t1)+IC(t 2)(1,2)=×××表1图二. 用于COVID-19检测的X射线数据集。两个术语可以定义为:基因数据集摘要。simWang(A,B)=∑t∈(TA<$TB)SA(t)+SB(t)(五)疾病类别收集的基因共同基因忽略共同基因预处理和挖掘后的基因数量SV(A)+SV(B)其中SA(t)是与项A相关的GO项t的S值,SB(t)是与项B相关的GO项t的S值。SV(A)和SV(B)是语义电晕病108 24 84 84GO项A和B的值假设g1和g2是由GO肺炎252 228 84GO提供的正交本体Resnik [33]、Jiang [34]、Lin [35]、Schlicker [36]和Wang等五种语义相似性度量方法[37]这里使用最大(max)和最佳匹配平均策略(BMA)组合策略作为基因功能相似性的定量测量的方法。Resnik、Jiang、Lin和Schlicker测量是基于信息量(IC)的方法,Wang是基于图的方法。基于IC的方法基于两个GO术语的最具信息性共同祖先(MICA)术语的IC来计算它们之间的语义得分[11],并且可以被定义为- IC(t)-log(p(t));其中,p(t)是在给定GO语料库中使用GO术语t的使用概率。而Wang语义相似性度量则是使用了一种新的DAG结构来估计基因之间的语义相似性上述语义相似性度量可以表示为[38]- Resnik方法Resnik方法可以定义为:simResnik(t1, t2)=IC(MICA)(一)项集合GO 1 {go 11,go 12 go 1 m}和GO2 {go21,go22 go2n}。为了找到两个基因g1和g2的语义相似性得分,使用它们的GO术语集合GO1和GO2的语义相似性得分利用R语言GOSemSim软件包实现了四种方法--max、avg、rcmax和BMA来合并多个GO术语的语义最大语义相似度组合技术计算所有可能的GO术语对上的最大语义相似度得分{go 11,go 12 <$go1m}和{go21,go22 <$go2n}在这两个GO项集合GO 1和GO2之间。例如,它找到所有对(go11,go21)、(go11,go22)、(go11,... go2n)、(go12,go21)、(go12,go22)、(go12,... go2n)、 ... ... (go1m,... .... )之间的语义相似性。go2n),然后选择最大值作为基因g1和g2之间的语义相似度值,如下面的等式:simmax(g1,g 2)= max1≤i≤m,1≤j≤nsim(go 1i,go 2j)(6)BMA方法还找到成对的语义相似度值,并计算每行和每列上的所有最大相似度的平均值,并定义为:∑m max sim(go 1 i,go 2 j)+∑nmaxsim(go 1i,go2j)Lin方法Lin方法可以定义为:simLin(t1,t 2)=2 IC(MICA)simBMA(g1, g2)=i=11≤j≤nM+ni=11≤j≤m(七)Rel方法(二)3.4. 机器学习模型的构建和评估监督机器学习方法能够训练隐藏的Schlicker提出的关联方法结合了Resnik从给定的数据集中提取基因关系,然后使用所学习的知识来区分疾病基因和非疾病基因。的simRel测试t2 IC(MICA)(1-p(MICA))IC(t1)+IC(t 2)Jiang方法。Jiang和Conrath(三)基因功能相似性为所有Res、Lin、Rel、Jiang和Wang度量返回169172个矩阵。为了表示生物概念,使用了4万多个GO术语但是,GO语义相似性仍然为一些缺乏GO信息的基因返回空值。由于语义相似性仅返回0和1之间的值,因此空simJiang(t1,t 2)= 1-min( 1,IC(t 1)+IC(t 2)- 2IC(MICA))(4N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006215)Wang方法。给定两个GO项A和B,这些项之间的语义相似性值需要被移除而不是替换为0。对于Res、Lin、Rel和Jiang测度,有32个基因和Wang测度有31个基因的空值分别产生137 140和138 141个矩阵。因此,剩下的最后一个基因是138王N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006216具有140个特征列和1个标记列的测量和具有139个特征和1个标记列的137个基因用于所有其他测量。然后将基因数据集分为训练数据集和测试数据集,其中80%的数据作为训练数据,20%作为测试数据。下表2显示了每个测量的可用基因的总数。然后,机器学习算法eXtreme Gradient Boosting(XgbLinear)、朴素贝叶斯(NB)、正则化随机森林(RRF)、基于随机森林规则的模型(rfRules)、随机蕨类植物(rFerns)、C5.0(C5)和多层感知器(MLP)在训练基因数据集上进行训练,并进行五重交叉验证,并在剩余的20%测试数据集上进行测试。其中XgbLinear和RRF模型对采用最大组合技术的Wang测度的检验精度最高,达到82.14%。而MLP与BMA结合的Rel测度性能最好,约为89.29%。xgbLinear是一种极限梯度提升方法,可用于使用xgboost库的分类和回归。为了找到最好的树模型,它使用了一个特定的梯度提升方法,使用更准确和成功的估计。NB是一种基于贝叶斯定理的监督分类算法。它预测最佳类的方式类似于贝叶斯定理从给定的先验知识中找到最佳假设RRF实现了一个正则化的随机森林算法,可用于分类和回归。它将树正则化框架应用于RF,并且可以选择相关和非冗余特征的紧凑特征子集[39rfRules同时充当分类和回归模型。它生成了一系列的rFerns是一种机器学习分类算法,它扩展了朴素贝叶斯算法。它可以被认为是一个受约束的决策树,在树的每一级执行相同的二元测试。C5.0是一种分类算法,以生成决策树而闻名。它可以用于小型和大型数据集,其决策树相对容易理解和部署。MLP是一种有监督的分类和回归算法,广泛应用于图像和语音识别。它是一个多层前馈人工神经网络,从一组输入生成一组输出。MLP使用反向传播。为了获得更准确的分类结果,使用堆叠集成技术来集成机器学习模型。堆叠集成是一种适用于两个级别的模型的技术。基本级别或底层使用原始数据集作为输入来集成所有基本模型,Meta级别或顶层包含使用基本级别的输出作为输入的模型。在本研究中,XgbLinear,NB,RRF,rfRules,rFerns,C5模型被用作基础模型,MLP被用作顶层模型。顶级模型对疾病进行预测,无论是冠状病毒病还是肺炎。选择具有最大组合技术的Wang测量用于集成,因为它们对所有七个产生最佳分类结果表2可用的基因数据。分类器图3显示了叠加系综模型的示意图。3.5. 图像增广在基于CNN的CAD方法中执行两个二元分类任务-COVID-19 vsNormal和在对胸部X射线图像进行预处理后,它们被标记为0和1,其中1表示COVID-19图像,0表示另一类图像-两个分类任务的正常或肺炎然后将图像因此,有836个COVID-19,942个正常训练图像和364个COVID- 19,399个正常测试图像用于COVID-19与正常分类。对于COVID-19与肺炎图像分类,有836个COVID-19和945个肺炎训练图像以及364个COVID-19,400个肺炎测试图像。用有限数量的数据训练深度CNN模型可能会导致模型过拟合。因此,该模型可以在训练数据上表现良好,但无法泛化。因此,为了人为地增加训练数据量并克服过拟合问题,仅对训练数据集应用增强。的使用15μ m的旋转范围来增强训练图像,最接近的填充模式。3.6. CNN模型构建这项研究使用了CheXNet CNN模型,这是一种微调和转移学习的CheXNet模型,以前被参考文献[10]&[45]用于肺炎检测。最初的CheXNet模型由斯坦福大学的研究人员提出[40],是一个121层的DenseNet架构。CheXNet首先在ImageNet数据集上进行预训练,然后在[41]的CXR数据集上进行训练。在我们之前的肺炎检测研究中,微调的CheXNet模型是在[26]数据集上训练的在这里,迁移学习的CheXNet模型在最后一层使用Softmax激活函数进行二进制分类,在所有其他激活层使用ReLU激活函数。 图图4(a)表示CheXNet模型架构,图4(b)显示了具有预训练权重和微调的拟议CheXNet模型架构。该模型使用亚当优化器和二进制交叉熵损失函数,并以32的最小批量进行端到端训练。在微调期间,第1层至第409层保持冻结,而其余的第410层至第437层进行训练。在扁平化之前,Max具有20%脱落的合并用于COVID-19与正常分类器,具有20%脱落的全局平均合并用于COVID-19与肺炎分类器。完全连接的密集层由512、128和64个神经元组成,在最后一层之前的丢失率为10%。在用40个epoch的训练数据集多次训练CNN模型之后,测试数据集在模型上进行测试并进行预测。4. 结果和讨论本节提供了结果,并讨论了当前研究项目的拟议方法和材料的每个步骤的输出。结果在以下小节中描述语义相似性度量基因总数=80%训练基因数据=20%测试基因数据=4.1. 数据收集和编制电晕基因+肺炎基因第137号决议=54+83林137= 54+109= 44+ 65 28= 10+ 18109= 44+ 65 28= 10+ 18从NCBI基因库收集的基因数据是两个汇总类型的文本文件,一个用于冠状动脉疾病,另一个用于肺炎。在冠状病毒和肺炎之间发现了24个共同基因热尔江83137= 54+83137= 54+83109= 44+ 65 28= 10+ 18109= 44+ 65 28= 10+ 18疾病它们从两个文件中删除,并从两个类中选择84个最高权重的基因,以保持平衡,无偏的数据集。在从收集的基因数据文件中预处理和挖掘基因之后,创建包含ENTREZID和Class列的数据框架。的王138= 54+83110= 44+ 66 28= 11+ 17图中所示为该框架的头部。以下5项─基于基因的筛选方法中的所有过程均在N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006217图三. 堆叠集成模型。见图4。 (一). CheXNet模型的架构设计。(b). 提出了具有预训练权重的微调CheXNet模型。在windows 10,64位环境下的R编程语言在基于CNN的CAD方法中,使用AHE对比度增强技术对收集的X射线图像进行预处理。增强的COVID-19、正常和肺炎图像如图所示。 六、70%的图像现在被用作训练图像,并对其进行增强,以人为地增加训练图像的数量剩下的30%的图像用于测试CNN模型。4.2. 基因功能语义相似性度量计算语义相似度可以用来度量基因本体的功能R包org.Hs.eg.db [42]和GOSemSim [43]用于基因语义相似性矩阵。N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006218图五、 基因输入系统的负责人。估计。由于COVID-19是一个新术语,冠状动脉疾病的一些基因信息和肺炎的极少数基因信息缺乏返回空语义相似度分数的GO信息。语义相似度只返回0到1之间的值,因此需要删除空值。然后使用8:2的比例构建训练和测试数据集。在Resnik、Lin、Rel、Jiang和Wang等语义相似性度量方法中,Wang方法采用最大合并技术,取得了最好的结果。4.3. 使用基于基因的筛选进行为了确定冠状动脉疾病基因和肺炎基因之间隐藏的功能相似性,对XgbLinear、NB、RRF、rfRules、rFerns、C5和MLP机器学习分类器进行训练,并对冠状动脉疾病基因和肺炎基因功能相似性进行测试。任何机器学习算法的性能在很大程度上取决于可用的数据量。庞大的数据可以使算法比有限的数据更准确。这是我们研究的主要缺点。由于冠状病毒的大量基因数据和更新的GO信息不可用,机器学习(ML)模型的准确性受到了负面影响。上述七个ML模型使用5倍交叉验证技术对训练数据集的五个相似性矩阵中的每一个进行训练,使用两种组合技术,总共产生70个分类器,并对测试数据集进行预测。还计算了每个ML模型的灵敏度和特异性。表3和表4分别显示了使用max和BMA组合技术在功能相似性分数上构建的各种机器学习分类器的性能表3和表4示出了在xgbLinear、NB、RRF、rfRules、rFerns模型、C5模型和MLP模型,采用Resnik、Lin、Rel、Jiang和Wang测度,采用max和BMA技术,采用Rel的MLP对BMA技术的分类效果最好,达到89.29%。相比之下,其他模型在Rel测量上表现不佳此外,所有的模型表现良好的王最大技术措施。因此,选择具有最大组合技术的Wang测度图7表示Wang测度与max技术的所有七个ML模型的混淆矩阵一 些 其 他 的 ML 模 型 , 即 , 随 机 森 林 , cforest , gamboost ,bstsm,bstTree、XgbTree、SVM、C5.0Cost等方法也被应用于基因功能相似性度量。但这些模型在合奏中表现不佳,被忽略了。为了从ML模型实现更准确的性能,使用堆叠集成技术集成模型( XgbLinear,NB,RRF,rfRules,rFerns,C5和MLP)。MLP充当堆栈上的顶层模型,并基于所有其他基础模型的响应进行预测。叠加集成方法将分类精度从82.14%提高到92.86%。图8显示了具有灵敏度和特异性评分的集成模型的混淆矩阵该模型的敏感性为90.91%,特异性为94.12%。[11]的作者在基于基因的筛选方法上获得了80%的AUC值,以鉴定ASD疾病候选基因。由于该技术尚未被其他研究人员应用于电晕检测任务,因此所提出的模型可以成为电晕疾病和肺炎检测的理想支持模型,其分类准确率约4.4. CNN模型基于CNN的CAD方法的所有任务,包括培训和表3X gbLinear、NB、RRF、rfRules、rFerns、C5和MLP模型在Resnik、Lin、Rel、Jiang和Wang测量上识别电晕病的平均准确度(使用max技术)。ML模型的平均精度王林江xgb线性64.29%64.29%53.57%46.43%82.14%NB64.29%60.71%57.14%57.14%78.57%RRF64.29%53.57%53.57%53.57%82.14%rfRules57.14%57.14%53.57%53.57%71.43%rFerns60.71%60.71%64.29%64.29%百分之七十五C553.57%64.29%71.43%百分之七十五百分之七十五MLP60.71%64.29%60.71%57.14%百分之七十五表4使用BMA技术,X gbLinear、NB、RRF、rfRules、rFerns、C5和MLP模型在Resnik、Lin、Rel、Jiang和Wang测量上识别电晕病的平均准确度。ML模型的平均精度ResnikRel林江王Xgb线性71.43%57.14%64.29%64.29%64.29%NB64.29%53.57%53.57%64.29%百分之七十五RRF67.86%57.14%53.57%57.14%67.86%rfRules60.71%53.57%57.14%67.86%71.43%rFerns百分之五十53.57%53.57%64.29%71.43%C571.43%60.71%67.86%67.86%71.43%MLP78.57%89.29%71.43%百分之七十五百分之七十五见图6。 增强COVID-19,正常,肺炎图像。N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)1006219×图7.第一次会议。在Wang 测 度上 利 用 最大 组 合 技术 得 到 了(a)X gb线性(b)NB(c)RRF(d)rf规则(e)rFerns(f)C5和(g)MLP模型的混淆矩阵x.测试是在Mac操作系统上使用Google colab GPU和keras框架(使用TensorFlow后端)在python中完成的。具有224 224的固定图像输入大小的增强的训练胸部X射线图像数据集被馈送到预训练的CheXNet模型用于训练。该模型在40个epoch中进行多次训练,然后在测试数据集上进行测试。对于COVID-19与正常图像分类,该模型实现了99.87%的测试准确度,对于COVID- 19与肺炎分类,获得的准确度为99.48%。下面的图9和图10表示两个分类任务的混淆矩阵和学习曲线用于展示每个时期训练准确性和损失学习曲线见图8。 层叠集成模型的混淆矩阵对于这两种建议的分类器(COVID-19 vs Normal和COVID-19与肺炎)在不同时期的报告见图11和图12。 12个。N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)10062110见图9。 COVID-19与正常分类的性能参数混淆矩阵见图10。 COVID-19与肺炎分类性能参数的混淆矩阵4.5. 与不同型号的本节旨在将拟议的基于CNN的COVID- 19检测模型与现有模型进行比较。在本研究中使用了迁移学习的微调CheXNet模型,因为它在分类COVID-19与正常图像和COVID-19与肺炎图像方面表现出更好的性能。使用Google colab gpu和python中的keras框架(使用TensorFlow后端),在相同的mac操作系统上,在相同的COVID-19放射学数据集[29]上训练、验证和测试了6X个不同的预训练模型模型VGG-16,VGG-19,Resnet 50,EfficientNet,MobileNetV 2模型在Image-Net数据集上进行了预训练,在CXR数据集[41]上预训练的CheXNet模型用于比较。表5和表6描述了这些six模型与所提出的CheXNet(在肺炎数据集上预训练)模型的实验结果,用于COVID-19与正常图像分类,COVID-19 vs Pneumonia图像分类。从表5和表6中可以清楚地看出,在Tawsifur的相同数据集上,所提出的模型提供了比现有模型更好的性能[29]。Tawsifur等人还提出了一种对正常和COVID-19图像进行分类的模型,准确率为99.7% [44]。COVID-19的诊断可以通过CT扫描图像或胸部X光图像进行。在不同数据集上与其他二元和多类分类模型的比较结果也证明了该模型优于其他最先进的COVID-19诊断模型。表7总结了不同模型在不同数据集上与我们提出的模型性能的比较。上述比较表明,拟议的二进制COVID-19诊断模型的性能优于二分类模型和多分类模型。因此,它可能成为抗击COVID-19大流行的重要支持工具。图十一岁COVID-19与正常分类模型的准确性和损失曲线。N.哈比卜和M. M. 拉赫曼医学信息学解锁24(2021)10062110图12个。COVID-19与肺炎分类模型的准确性和损失曲线。表5不同模型对COVID-19与正常分类的同一数据集的实验结果CNN模型精度精度召回特异性F1得分混淆矩阵XCheXNet九十九点二一百分之九十八点五二百分百百分之九十八点三五九十九点二五358 60 399ResNet50百分之九十九点三四百分之九十八点七六百分百百分之九十八点六三百分之九十九点三八359 50 399VGG-19百分之九十九点六一九十九点二五百分百百分之九十九点一八百分之九十九点六三361 30 399MobileNetV2百分之九十九点六一九十九点二五百分百百分之九十九点一七百分之九十九点六二361 30 399VGG-16百分之九十九点七四百分之九十九点七五百分之九十九点七四百分之九十九点七三百分之九十九点七四363 11 398EfficientNet百分之九十九点七四百分之九十九点五百分百九十九点四五百分之九十九点七五362 20 399该模型九十九点八七百分之九十九点七五百分百百分之九十九点七三九十九点八七363 10 399表6不同模型对COVID-19与肺炎分类的同一数据集的实验结果CNN模型精度精度召回特异性F1得分混淆矩阵XCheXNet百分之九十九点零八百分之九十八点七六百分之九十九点五百分之九十八点六三百分之九
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- FPGA时序设计的Viso形状库,visio画fpga时序图
- blog:开发者博客hexo
- lcdmod-开源
- 仿小刀娱乐网模板PHP版(带7色皮肤) v5.15.zip
- SignalHire - find email or phone number-crx插件
- pyicalmerge:将多个 ics 文件合并在一起,并为 Google 日历上传做好准备
- CellSpecificAnalysis:精神分裂症基因表达的细胞类型特异性分析
- 基于STM32实现的数据采集+心率检测仪(原理图、PCB、程序源码等).zip
- RESTFulLinq:RESTFulLinq是将LINQ查询流畅地发送到您的API的简便方法
- 双电梯控制器,电梯一体化控制器,Verilog
- LabVIEW 中的数字型数据 3 - 数值的单位-综合文档
- Python仿真区块链,适合毕业设计项目或课题研究。汇智网提供.zip
- Search by Image-crx插件
- SIPAA_Installer:SIPAA系统的安装程序
- yukar:Chrome扩展JavaScript代码编辑器
- VC++点云数据显示,OPENGL图像渲染.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功