COVID-19疾病分类的智能计算技术研究

55 浏览量更新于2023-12-06 收藏 652KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

数据科学与管理4（2021）10研究文章智能计算技术在COVID-19疾病分类的应用博卢瓦吉河Akinnuwesia，*，Stephen G.放大图片作者：Fashotoa，Elliot Mbungea，Adedoyin Odumabob，Andile S.Metfulaa，Petros Mashwamaa，Faith-MichaelUzokac，Olumide Owolabid，Moses Okpekue，Oluwaseun O.阿穆萨fa斯威士兰大学（前斯威士兰大学）科学和工程学院计算机科学系，Kwaluseni M201，Manzini，斯威士兰，斯威士兰b拉各斯州立大学理学院计算机科学系，地址：Ojo，Lagos State，102105，尼日利亚c加拿大阿尔伯塔省卡尔加里皇家山大学计算机科学与信息系统系T3E6K6d阿布贾大学计算机科学系，900105，尼日利亚南非夸祖鲁-纳塔尔大学遗传学系f尼日利亚翁多州Akungba-Akoko Adekunle Ajasin大学文学院英语系，邮编342111A R T I C L E I N F O保留字：COVID-19机器学习智能分类器早期鉴别诊断A B S T R A C T临床方法用于诊断COVID-19感染的患者，但有报道称，几名最初检测为COVID-19阳性并患有一些基础疾病的人在进一步检测后结果为因此，临床方法的性能并不总是得到保证。此外，COVID-19感染者的胸部X射线图像数据大多用于COVID-19诊断的计算模型中，而在计算模型中使用常见症状，如发热、咳嗽、疲劳、肌肉疼痛、头痛等尚未报道。在这项研究中，我们采用了七种分类算法，以实证方式测试和验证它们在使用上述症状诊断COVID-19时的有效性我们尝试了逻辑回归（LR），支持向量机（SVM），朴素贝叶斯（NB），决策树（DT），多层感知器（MLP），模糊认知图（FCM）和深度神经网络（DNN）算法。该技术进行了随机欠采样和过采样。我们的研究结果表明，类不平衡，MLP和DNN优于其他。然而，在没有类别不平衡的情况下，MLP，FCM和DNN在使用随机欠采样时优于其他算法，但DNN在使用随机过采样时具有最好的性能。这项研究发现MLP、FCM和DNN是比LR、NB、DT和SVM更好的分类器，因此医疗软件系统开发人员可以采用它们来开发基于智能的专家系统，医务人员和患者可以根据上述症状用于COVID-19的鉴别诊断。然而，性能的测试不能仅限于传统的性能指标。1. 介绍世界卫生组织（世卫组织）的每周COVID-19流行病学报告显示，截至2021年10月23日，全球COVID-19确诊累计病例超过2. 4亿例，死亡人数超过490万人（世界卫生组织，2020年a）。尽管几个国家正在进行疫苗接种计划，但由于出现了不同的SARS-CoV-2（严重急性呼吸道综合征冠状病毒2型）变体，总是报告新病例在丹麦、英国、巴西、尼日利亚和南非等国报告了SARS-CoV-2变体，如Cluster 5、SARS-CoV-2 VOC 202012/01、501 Y.V2和P.1 这些变异有可能削弱人体自然或因接种疫苗而建立的免疫系统的强度，从而降低病毒对人体影响的中和作用（世界卫生组织，2020 a，2020 b）。SARS-CoV-2新发感染的持续和长期高发病率，与SARS-CoV-2不同变种的发生相比，同行评议由Xi交通大学负责* 通讯作者。电子邮件地址：bakinnuwesi@uniswa.sz（学士学位）Akinnuwesi）。https://doi.org/10.1016/j.dsm.2021.12.001接收日期：2021年8月3日;接收日期：2021年11月29日;接受日期：2021年12月6日2021年12月9日在线发布2666-7649/©2021 Xi'an Jiaotong University.出版社：Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表数据科学与管理杂志主页：www.keaipublishing.com/en/journals/data-science-and-managementB.A. Akinnuwesi等人数据科学与管理4（2021）1011继续给各国政府、私人组织和医疗保健系统带来压力。SARS-CoV-2在世界上最致命的病毒中排名第11位，死亡率为2.3%（Anne，2020）。这些数字要求在处理SARS-CoV-2及其变体时引起严重关注这种情况令医生和政府感到担忧因此，我们设计了多项公共医疗和社会措施，以确保通过强制性面部掩蔽、社交距离、接触者追踪、体温检查、尽量减少社交聚会和酒精销售/消费以及提供疫苗等形式充分应对该疾病然而，这些措施受到隐私、数据安全、行动自由和社交、缺乏IT基础设施、IT技能不足、识字率低和易用性等因素的负面影响（Mbunge等人，2021年）。这些因素影响了民众在应对COVID-19时接受和完全遵守政府法规的决定，并进一步影响了疾病的传播，因此需要提高SARS-CoV-2的诊断能力和系统测序。因此，已经开发了许多临床方法来诊断SARS-CoV-2。然而，有报道称假阴性率在5%至40%之间（Arevalo-Rodriguezet al.，2020; Long等人，2020; Weissleder等人，2020年）。在中国和新加坡进行的研究报告了少数假阴性结果的情况，分别为29%和11%（Fanget al.， 2020; Lee等人， 2020年）。这意味着临床方法不能保证COVID-19的准确诊断或分类，这可能归因于所获得标本的类型和质量、检测时的疾病持续时间以及特定检测。因此，科学家需要用计算智能方法来补充临床诊断方法，以确保接近100%的准确诊断和分类。此外，COVID-19与其他疾病（如疟疾、艾滋病毒/艾滋病、结核病、流感和肺炎）具有相似的症状，这使得COVID-19在早期阶段的鉴别诊断不可避免，特别是当感染非常轻微且无法确定感染是疟疾、艾滋病毒/艾滋病、结核病、流感还是肺炎时。很少有研究报告使用胸部计算机断层扫描（胸部CT）（一种医学成像技术）对COVID-19进行鉴别诊断，其中一些研究在Long et al. （2020）、Murthy等人（2020）、Zeng等人（2020）和Zuo（2020）。我们推断，研究中提出的计算模型更多地关注胸部X射线图像的使用，而不是其他常规症状，如发热或寒战、咳嗽、呼吸急促或呼吸困难、疲劳、肌肉或身体疼痛、头痛、味觉或嗅觉丧失、喉咙痛、充血或流鼻涕、恶心或呕吐以及腹泻。此外，当所呈现的症状仍然非常轻微并且胸部CT将不能够在肺部和心血管系统的X射线图像中显示令人信服的结果时，模型不适合于早期诊断据作者所知，没有研究使用上述常规症状开发基于智能的系统，用于使用软计算、机器学习、深度学习、专家系统和决策支持系统（DSS）的分类算法使用COVID-19感染患者的非图像数据集进行然而，COVID-19感染患者的胸部X光图像数据大多用于使用卷积神经网络（CNN）等深度学习算法进行诊断因此，我们有动机进行一项实验研究，通过考虑上述常规症状并使用症状的非图像数据集，可应用于COVID-19疾病早期鉴别诊断的各种智能分类器我们的具体目标是使用可用的COVID-19非图像诊断数据集来测试基于智能的分类器的性能，即，模糊认知图（FCM），支持向量机（SVM），逻辑回归（LR），多层感知器（MLP），朴素贝叶斯（NB ），决策树（DT ）和深度神经网络（DNN）在准确率，F-测量，召回率，精确度，平衡准确率，马修斯相关系数（MCC）和庄家信息（BM）方面。的目标是确定在COVID-19早期鉴别诊断中具有最佳性能的分类器。这为该领域的未来工作铺平了道路，以开发诊断系统，该系统可以使用上述常规症状应用最佳分类器进行COVID-19的早期鉴别诊断。因此，我们有以下研究问题（RQ）：a. RQ-1：最适合COVID-19差异诊断的分类是什么b. RQ-2：每个分类器的性能如何，(a) 以上的准确性，精确度，召回率，F-措施，马修斯相关系数，平衡的准确性，和庄家信息？本文通过介绍所列分类器在应用于COVID-19诊断时的行为，对现有文献做出了贡献，使用基于常规症状的非图像COVID-19数据集（例如，发烧、头痛、呕吐、腹泻等）并且在本报告的时候，这在文献中还没有报道早期的研究更多地关注COVID-19患者基于图像的胸部X光数据进行诊断，最常用的分类器是DNN。本文的其余部分组织如下：第2节概述了用于诊断COVID-19的临床方法，详细讨论了鉴别诊断，并回顾了COVID-19疾病鉴别诊断的相关工作。提出了诊断方法的优点和缺点。第三部分介绍了材料和方法。结果和讨论在第4节中给出，其中对上述基于智能的技术进行了详细的讨论和分析第五节是结论和管理含义。2. 文献综述已经为COVID开发了几种临床诊断方法-19. 然而，使用基于智能的计算方法来应对COVID-19不可低估。将其他智能计算方法与临床诊断方法相结合，将有助于提高BM和MCC的平衡精度。本节简要介绍了鉴别诊断以及用于COVID-19诊断的临床和计算方法的定性特征，并讨论了当前这些方法的局限性。2.1. 鉴别诊断鉴别诊断是一个明确的过程，有助于区分具有相似症状和风险因素的疾病它是对患者进行的系统诊断过程，旨在准确诊断与其他相关疾病具有相同症状并且在相同条件下存活的疾病（Mann，1990; Sand，2015; Uzoka等人，2016年）。需要进行鉴别诊断，因为医生很少直接从表现中明确诊断疾病，特别是在症状与许多疾病相关的情况下（Jain，2017）。例如，包括HIV/AIDS、疟疾、流感、结核病、COVID-19、埃博拉病毒病（EVD）、霍乱等在内的疾病具有一些类似的症状。因此，当患者表现出这些症状中的一个或多个时，医生需要对他们进行鉴别诊断过程，以便在多种相关疾病中确定实际疾病。鉴别诊断过程需要权衡一种疾病的概率与可能导致患者患病的其他相关疾病的概率鉴别诊断在医学上的许多事例中已显示出它的有用性. 它帮助挽救了本来会失去的生命，我们已经看到许多人因为忽视鉴别诊断而几乎失去生命。一个值得注意的例子，一个生命几乎失去了由于无知的鉴别诊断是一个小女孩，B.A. Akinnuwesi等人数据科学与管理4（2021）1012Rutledge（2017 ）中报告的Isabel名称。这名女孩被诊断出患有chickenpo X，她的家庭医生误诊，导致错误的治疗，她在医院呆了大约60天，几乎失去了多器官衰竭和心脏骤停的生命。所有这些都是由于误诊，而误诊本可以通过鉴别诊断来避免，以便在第一时间获得正确的诊断虽然鉴别诊断需要时间，但它对确保医生得到正确的诊断和治疗的帮助是不可否认的。2.2. COVID-19诊断COVID-19的起因归因于SARS-CoV-2。在文献中已经确定了许多与病毒相关的健康并发症，包括以下-呼吸系统衰竭、心脏和心血管系统并发症、炎症并发症、血栓栓塞性疾病、神经障碍和多器官功能障碍（Alpdagtas et al.， 2020; McIntosh，2020）。研究人员正在不懈地研究诊断和治疗COVID-19的各种临床方法，以减少已确定的健康并发症病例因此，采用的一些临床诊断方法包括胸部X线片、胸部CT、床旁肺部超声检查、临床怀疑、核酸扩增试验（ NAAT ）、床旁 NAAT（Caliendo和Hanson，2021）。CT诊断通常用于SARS-CoV-2的辅助诊断，并且通过使用rRT-PCR（反向实时PCR测定）反应的呼吸道或血液样本的核酸扩增测试（NAAT）的阳性结果来证实诊断（Dai等人， 2020年）。然而，据报道，rRT-PCR诊断方法具有局限性。言下之意，病毒载量低时，检出率也低。因此，这导致偶尔出现错误的结果。同样，使用这种方法，病毒的严重程度和进展也无法得知。尽管存在这些缺点，但自冠状病毒爆发以来，rRT-PCR诊断方法一直然而，接受测试的人数尚不令人满意。这可以归因于这种诊断方法相对昂贵的事实。Lieberman et al. （2020），Nalla et al. （2020）指出，在理想环境中，NAAT具有分析灵敏度。这意味着NAAT可以准确检测已知含有病毒RNA的测试样品中的低水平病毒RNA。然而，作者报告说，尚未对SARS-CoV-2 NAAT的准确性和预测价值进行系统评价。美国（US）食品药品监督管理局（FDA）的一份报告指出，BD Max System检测中BD SARS-CoV-2试剂的假阳性结果约占3%（FDA，2020）。因此，美国的临床实验室工作人员和医疗保健人员因该检测的假阳性结果风险增加而受到警告。因此，FDA建议临床实验室工作人员和医疗保健人员应考虑进行替代授权检测，以确认任何假定为阳性的检测结果。据报道，假阴性率范围为5%至40%（Arevalo-Rodriguez等人，2020; Long等人，2020; Weissleder等人，2020年）。Fang等2020年，中国报告了51例发热或急性呼吸道症状患者，最终使用SARS-CoV-2 RT-PCR检测呈阳性，但在进行的初步检测中，15例患者（29%）的结果为阴性。在一项类似的研究中（Lee等人， 2020），其中70名患者检测呈阳性，8名患者（11%）的初始鼻咽检测呈阴性。这些研究证实，一些患者在最初的测试中反复呈阴性，但在四轮或更多轮测试后，他们后来测试呈阳性这意味着会出现假阴性结果，因此建议进行几轮测试，以确认结果的准确性。在Alpdagtas et al. （2020年），对COVID-19的各种临床诊断方法进行了评估，重点是它们的优缺点及其性能。免疫学和RT-PCR检测方法被认为是COVID-19的最佳诊断方法然而，这些诊断方法的知识只掌握在受过专业训练的医生手中。非专业人员不能自行使用。病人也不能因此，作者建议生产床旁（POC）诊断器械，该器械可以在很少或没有医生支持的情况此外，使用诊断方法并不总是保证准确性，因此需要开发具有更高水平的实用性、准确性和精确性的更好的方法同样，在Uygun-Can和Acar-Bolat（2020）中，使用RT-PCR和CT检测方法检测孕妇中的COVID-19，作者确定两种检测工具的结合可以提供准确和安全的诊断。这意味着两种或更多种临床诊断方法的组合可以保证更好的准确性和精确度。临床诊断方法的其他实例已用于诊断COVID-19，并在文献中报道：核酸检测、CT、免疫学检查、肺超声、F-FDG PET/CT（Ardakaniet al.2020; Mertens等人，2020; Wan等人，2020; Xie等人，2020）; RT-PCR，POC，病毒抗体的免疫测定（Giri等人， 2020年; He等人， 2020年;Wu等人， 2020）; POC、多重测定、CT成像、基因组测序、电子显微镜和PCR（Luo et al. 2020; Udugama等人， 2020）;基于多核苷酸的分子检测、POC免疫诊断、放射照相分析/传感系统、生物传感原型和RT-PCR（Mahapatra和Chandra，2020）;使用机器学习算法的临床计算机辅助诊断（CAD）（Ardakani等人， 2021年）;人工智能（AI）使医学成像（Yuan等人，2020）;基于分子的测定，POC，rRT-PCR（Yang等人， 2020年）。我们的扣除额如下：a. 大多数研究集中在衡量COVID-19诊断的临床方法的准确性b. 这些研究提供的信息有助于指导卫生专业人员进行无错误的COVID-19诊断测试。同样，这些信息指导研究人员识别每种临床方法的局限性，从而开发出更好的检测COVID-19病例的临床方法。c. 该等工作证实，使用单一临床方法检测COVID-19并不能保证如预期般获得准确结果。然而，在诊断COVID-19病例的过程中，当两种或更多种临床方法结合使用时，总是可以看到更好的性能。因此，建议卫生人员在COVID-19诊断过程中探索方法组合。d. 临床常用的方法有RT-PCR、POC、分子生物学检测和胸部CT。e. 检测灵敏度可能受样本质量、疾病持续时间和特定检测的影响。所有临床方法的共同局限性如下：a. 使用一种临床诊断方法并不总能保证准确性。因此，需要进行替代授权试验，以确认灵敏度和特异性。两种或多种测试方法的组合有助于确认测试结果的准确性。b. 它们是实验室测试，需要设备齐全的实验室。因此，建立测试实验室是昂贵的，测试是相对昂贵的，需要一些时间。c. 测试机器相对昂贵（例如，PCR机器），很少有实验室能负担得起。d. 医生/患者需要前往合格的实验室使用PCR仪，这可能需要几个小时或几天，具体取决于患者的位置和最近的COVID-19检测实验室。因此，不能立即收到结果B.A. Akinnuwesi等人数据科学与管理4（2021）1013e. 该等方法需要训练有素的医务人员在实验室进行测试;然而，实验室缺乏合资格医务人员，且由于COVID-19病例不断增加，为数不多的人员不堪重负且疲惫不堪因此，在某些情况下可能会出现假阴性结果f. 使用临床诊断方法的性能并非最佳，因此，需要使用计算算法应用基于人工智能的系统，有助于确保在平衡准确性、精确度、特异性和灵敏度、庄家信息（BM）和MCC方面获得更好的性能2.3. 用于诊断COVID-19的基于计算智能的方法在本小节中，我们回顾了过去应用基于计算智能的算法诊断COVID-19的工作，以期识别患者的卷积神经网络（ CNN ）在 Mahmud et al. （二零二零年）开发CovXNet模型，用于检测COVID-19及肺炎。该模型的准确率为97.4%。类似地，在Singh等人中开发了COVIDScreen。（2021）使用CNN。该模型有助于进行COVID-19的鉴别诊断，准确率为98.67%。同样，SVM应用于（Jin et al.，2021）进行胸部X光检查，以进行COVID-19的鉴别诊断。准确率为98.642%。在中国，一个研究小组开发了基于LR的模型，以确定疑似病例中COVID-19严重程度的独立预测因素（Xu et al.， 2020）;Iwendi et al. （2020），其中随机森林（RF）模型用于预测受感染患者的COVID-19严重程度。以同样的方式，LR被用于预测COVID-19患者的死亡风险，准确度为70%（Bhandari等人，2020年）。此外，RF算法用于预测COVID-19患者的死亡率，准确率达到95%。 Fleitas等人（2020）亦应用多变量LR识别COVID-19症状，并以46%的特异性检测到COVID-19感染病例。在Silahudin和Holidin（2020年）中，开发了一种使用朴素贝叶斯（NB）技术诊断COVID-19的专家系统。类似地，朴素贝叶斯决策支持系统（DSS）在Awwalu等人中提出。（二零二零年）进行COVID-19检测。Groumpos（2020）应用模糊认知图（FCM），通过考虑因果关系因素来检查COVID-19的整个谱。由于无法获得所需的实际数据，作者无法保证模型的性能。然而，该模型是使用从文献中生成的数据进行测试的建立了FCM在基于因果因素的COVID-19分类中的优势，这为未来的研究提供了方向还开发了用于COVID-19检测的混合模型。为实施例（Sethy等人，2020年），结合SVM和CNN开发了一个模型，用于检测肺炎患者和健康人群中的COVID-19患者。准确度和特异性均为95.33%Alakus和Turkoglu（2020）使用来自600名患者的18项实验室发现评估了用于检测COVID-19感染的6种不同临床预测模型模型中考虑的技术有：CNN、递归神经网络（RNN）、人工神经网络（ANN）、长短期记忆（LSTM）、CNNRNN和CNNLSTM。评价结果显示，准确率为86.66%，F1评分为91.89%，精确率为86.75%，召回率为99.42%，AUC为62.50%。LR、DT（决策树）、SVM、DNN和RF（随机森林）也被应用于COVID-19的早期检测，性能结果为0.971 AUC，0.82灵敏度（Sun等人， 2020年）。Hassan-tabar等人（2020）使用CNN和DNN诊断COVID-19患者，CNN的准确率为93.2%，灵敏度为96.1%，而DNN的准确率为83.4%，灵敏度为86%。类似地，CNN和LR被用于开发CovNet 30系统，该系统用于Gour和Jain（2020）自动诊断COVID-19。CovNet30的分类准确率为92.74%，灵敏度为93.33%。Yoo等人亦使用决策树（DT）及CNN构建分类筛选器以检测COVID-19。（二零二零年），而分类器的准确率为95%。 CoroNet由Khan等人提出。（2020）和Oh等人（2020）。CoroNet是一种基于DCNN的模型，用于使用胸部X射线图像检测COVID-19感染。 CoroNet的准确率为89.6%，精确率为93%，召回率为98.2%。所采用的分类算法为深度CNN及DNN。Mukherjee等人也进行了类似的实验。（二零二零年），分类准确率为96.28%。模糊逻辑和DNN被用于Shaban等人。（2021）的性能结果为97.658%的准确率，96.756%的精确率，96.55%的召回率和96.615%的F-测量。MH-COVIDNet在Canayaz（2021）中提出用于诊断COVID-19。采用DNN和基于元启发式的特征选择技术开发MH-COVIDNet。使用X射线图像作者报告总体分类准确率为99.38%。在Mansouret al. （2021）提出了特征相关朴素贝叶斯（FCNB）模型，并取得了99%的检测准确率。LR和DCNN用于开发分类器，准确率为98.5%。在Alqudah et al.于二零二零年三月一日，COVID-19病例的分类使用CNN、SVM及RF算法进行，以比较其表现。CNN被认为是性能最好的，测试准确率为95.2%。我们的推论是，计算模型更侧重于使用胸部X光图像数据诊断COVID-19，而不是其他常规症状，如发热或寒战、咳嗽、呼吸急促或呼吸困难、疲劳、肌肉或身体疼痛、头痛、味觉或嗅觉丧失、喉咙痛、充血或流鼻涕、恶心或呕吐以及腹泻。在COVID-19感染的早期阶段，当上述常规症状较轻且似乎感染了疟疾或疟疾时，这些模型并不有用。在此阶段，胸部X射线图像可能无法呈现预期结果，因为呼吸/心血管系统未按预期失真。截至本研究之时，作者尚未发现任何使用上述常规症状进行COVID-19诊断的任何分类器或分类器组合的研究。2.4. 基于智能的分类器2.4.1. 模糊认知图（FCM）FCM是一种知识表示算法，它利用模糊图结构来表示概念之间的因果关系，从而表示概念之间的因果值概念之间的关系有助于计算概念对相互影响的程度。COVID-19与几种症状和风险因素（即，概念）相互影响症状/风险因素对的关系和强度是根据医生的经验知识定义的，在大多数情况下是模糊的。医生们根据以往的经验酌情处理FCM可用于解决与COVID-19患者分类相关的模糊问题。FCM图的带符号和加权弧描述了症状/风险因素之间存在的因果关系，因此说明了症状/风险因素之间的相互关系以及症状/风险因素如何相互影响（Kosko，1986; Papageorgiou和Stylios，2008）。Papageorgiou和Stylios（2008）提出的FCM的以下特征使其适用于COVID-19的分类和鉴别诊断a. 模糊C均值算法用于因果知识的获取和表示，以及因果知识的推理过程。这是确定每种COVID-19症状相对于其他症状的因果强度所必需的。b. 这是一种神经模糊算法，可以帮助解决决策问题，如COVID-19分类问题。 FCM在医疗诊断过程中的认知决策中的优势是B.A. Akinnuwesi等人数据科学与管理4（2021）1014在Chandiok和Chaturvedi（2016）中提出。有人指出，FCM有助于代表用于医疗诊断的专家系统所需的认知知识。这是用于合理的决策和艾滋病的预测。c. 同样，FCM支持疾病的鉴别诊断 Lopes等人（2013）在用于尿消除改变的差异诊断的DSS的开发中利用FCM。d. FCM的权重可以使用学习算法进行训练和更新因此，可以计算COVID-19所有症状对之间关系的权重。2.4.2. 支持向量机SVM是一种有监督的机器学习（ML）技术，应用于分类和回归问题。一般来说，它最好应用于分类问题（Land and Schaffer，2020; PisnerandSchnyer，2020）。支持向量机算法可以处理多个连续变量和分类变量的数据集。它标记数据（即，输入和输出）进行分类。它是一个非概率的二进制线性分类器。基于SVM的模型使用标记数据进行训练。它是多维空间中超平面中不同类的表示。SVM以迭代的形式生成超平面，以最小化误差。SVM专注于将数据集划分为不同的类，以找到最大边际超平面（MMH）。因此，分类为训练系统进行数据处理提供了基础支持向量是最接近超平面的数据点，而超平面是在具有不同类别的一组对象之间划分的决策空间该算法实现了数据的最佳分离，使超平面周围的边界最大化，甚至在两侧之间。SVM分类算法快速可靠，并且在有限的数据量下表现良好。以下是SVM的特征，使其适用于COVID-19的分类和鉴别诊断a. SVM 是一种二进制线性分类器（ Noble ， 2006;Pisner andSchnyer，2020），它最适用于两组分类问题。有鉴于此，SVM可用于构建学习模型，该模型可将COVID-19患者准确地分为两组（即，真阳性COVID-19和真阴性COVID-19患者）。b. SVM相对简单且易于解决分类问题（Pisner和Schnyer，2020）。c. 在样本数据量有限的情况下，SVM明显地产生平衡的预测性能（Pisner和Schnyer，2020）。这使得它适用于有限的COVID-19数据集。2.4.3. 决策树（DT）DT应用于分类和回归问题。它包含监督学习方法。Yoo等人报告了使用X射线成像对COVID-19病例进行分类的决策树应用。（2020年）。同样，DT算法已被应用在Atieh等人。（2019）用于预测种植体周围疾病。此外，如Kamadi et al. （2016年）。DT的优点如下（Gupta，2017）：它简单且易于理解、解释和可视化;变量筛选和特征选择是隐式执行的;它适应数值和分类数据;它解决了多输出问题;数据准备所需的工作相对较少，树的性能不受参数之间的非线性关系的影响。然而，DT具有以下缺点（Gupta，2017）：过度拟合问题和方差;需要使用bagging和boosting方法降低;如果某些类占主导地位，则会创建有偏树;在贪婪算法的情况下，不能保证最优决策树。2.4.4. 朴素贝叶斯（NB）NB是一种直观的分类方法，使用贝叶斯假设预测变量之间的独立性尽管在现实生活中，预测因子之间的完全独立性是不可能的（Dinant，2018; Ray，2017）。它使用监督学习方法。NB用于大型数据集。该算法简单、快速、易于实现，分类精度优于其他分类算法，尤其是在独立预测子假设成立的情况下。NB有Gaussian、Multinomial和Bernoulli类型。由于NB估计测试数据所需的训练数据较少，因此训练时间更短它与预测器特征和数据点的数量成线性比例它适用于二进制和多类分类问题。Mansour et al.（2021）使用NB模型诊断COVID-19患者。同样，Silahudin和Holidin（2020）使用NB技术对专家系统进行建模，以诊断COVID-19，Awwalu等人。（2020）使用多项式NB算法为COVID-19诊断开发DSS。2.4.5. 多层感知器（MLP）MLP是具有最少三层节点或神经元的前馈ANN（即，输入层、隐藏层和输出层）。除输入神经元外，每个神经元都使用非线性激活函数。MLP采用反向传播算法进行训练。排列良好的神经元网络有助于使用机器学习算法进行数据建模，从而促进准确的处理和准确的决策。 MLP被训练来执行给定的任务，基于MLP的模型有助于分析数据，从而识别数据中的模式。使用MLP的优点如下：模型复杂和非线性的问题;表现出很好的大数据;它是能够推广的;它的容错性高;良好的模式识别。鉴于上述优点，MLP已被用于开发诊断COVID-19的模型，具有显著的性能。例如，MLP应用于Salman et al. （二零二零年）进行X光影像分类，以检测患者体内的COVID-19。类似地，Hammam等人提出了使用MLP的COVID-19早期视力诊断。（2020年）。此外，Mohammadi等人将MLP和LR结合起来开发了一种用于COVID-19诊断的混合模型。（2021年）。作者在准确性、灵敏度和特异性方面为基于MLP的模型建立了良好的性能。然而，一些局限性归因于MLP，如计算密集和耗时，缩放问题，模型性能依赖于训练质量然而，解决方案并不总是有保证的。2.4.6. 逻辑回归（LR）LR是一类应用于分类问题的监督学习技术它用于预测基于二进制的因变量的概率。因此，因变量的数据编码为0（负/否）或1（正/是）。逻辑回归方程的一个示例见方程（1）（Brownlee，2016）：y<$e^（b0<$b1*x）/（1<$e^（b0<$b1*x））（ 1）其中y：预测输出;b0：偏差或截距项;b1：单个输入值（x）的输入数据中的每一列都有一个相关的b系数（一个常数实值），必须从训练数据中学习LR是一种简单的机器学习算法，它在疾病检测的医疗诊断问题中得到了很好的应用，使其成为COVID-19患者分类的良好算法。例如，LR被应用于若干研究中（Roland等人，2020; Shang等人，2020年; Song等人， 2020年），以预测感染患者的COVID-19严重程度。Fink等人也提出了基于LR的系统，（二零二零年），以验证入院时COVID-19诊断预测的结果。2.4.7. 其他深度学习分类器深度学习分类器，如递归神经网络（ RNN ）、生成对抗网络（GAN）、径向基函数（RBFB.A. Akinnuwesi等人数据科学与管理4（2021）1015-þ¼ΣRBFN、自组织映射（SOM）、深度信念网络（DBN）、受限玻尔兹曼机（RBM）和自动编码器是其他可以应用于疾病诊断的算法，但我们在本研究中没有考虑它们，因为它们不适合我们的数据集。相反，它们最常用于分析视觉图像，时间序列数据，自然语言处理和机器翻译（Biswal，2021）。3. 材料和方法3.1. 数据收集和数据预处理的数据从https://github.com/burakalakuss获得/COVID-19-临床，包含600条患者记录。3.2. 数据预处理和建模为了克服过度拟合和离群值，需要对数据进行预处理。使用WEKA和Python库Scikit-learn（sklearn）进行数据预处理。在这项研究中，我们实验LR，SVM，NB，DT，MLP，FCM和DNN算法通过校准它们的参数。该等算法应用于重新采样的数据，以使用随机欠采样和过采样方法消除类别不平衡（520例COVID-19阴性病例和80例阳性病例COVID-19临床数据集分为训练数据集（80%）和测试数据集（20%）。本研究使用训练数据集训练COVID-19分类模型，并使用测试数据集衡量模型性能，以确保分类模型的结果稳健。根据Elujide et al.（2021），分类问题可以使用单标签和多标签方法建模。本研究采用了单标签方法和二进制分类问题。对于深度神经网络模型，使用两个COVID-19指标实现两层神经网络，以对临床COVID数据集进行分类。3.3. 性能度量分类算法的表现乃根据以下表现指标计量：准确度、精确度、查全率、MCC、平衡准确度及庄家信息量（BM）。4. 结果和讨论我们对分类器进行了定量分析。COVID-19的临床数据集包含600个患者记录条目，包括ID、一组症状和状态（标签）特征。本节回答：RQ-1：适用于COVID-19鉴别诊断的分类方法是什么？RQ-2：每个分类器在准确度、精确度、召回率、F-测量、MCC、平衡准确度和BM方面我们对以下分类算法的有效性进行了实证测试和验证：LR、SVM、NB、DT、MLP、FCM和DNN。算法进行了随机欠采样和过采样。分类算法须进行随机欠抽样，以将类别不平衡转换为目标变量的平衡类别（520例COVID-19阴性病例及80例阳性病例）。我们使用以下指标评估了分类算法的性能：准确度，精确度，召回率，F-测量和MCC，而平衡准确度，BM，MCC，准确度，精确度，召回率，F-测量被认为是基于百分比分割的FCM（80%用于训练，20%用于测试）。COVID-19数据集实验使用Python和R.根据Chicco和Jurman（2020），大多数数据科学家和机器学习专家使用混淆矩阵来评估二进制分类。最近很少有研究报道，基于准确性和F1分数的类不平衡数据集以及MCC结果的性能评估结果是不够的，因为它将两者之间的比率积极的和消极的考虑。MCC越接近1，二进制分类越好;MCC越接近1，二进制分类越差。奇科等人（2021）声称，在评估二进制分类时，MCC是一个比平衡准确性、BM和标记性（MK）更可靠的性能指标。我们比较了使用随机欠采样的结果，并将其与基于使用百分比分割的分类算法相结合如表1所示，在类别不平衡的情况下，MLP在准确率、精确率、召回率、F-测量和MCC方面优于LR、NB、DT和SVM同样，DNN在准确率，召回率和F-measure方面表现最好如表2所示，在没有类别不平衡的情况下，MLP在准确率、精确率、召回率、F-测量和MCC方面优于LR、NB、DT和SVM，而DNN在使用过采样的情况下表现最好。此外，我们比较了在python和DNN中具有80%训练百分比分裂和20%测试百分比分裂的类不平衡数据集与没有类不平衡数据集的结果（在分类算法中集成了随机欠采样和过采样，以消除80%训练百分比分裂和20%测试百分比分裂的类不平衡），参数如下：epoch 150，batch_size 10，loss binary_crossentropy和adam optimizer。两层被添加到Keras的序列模型中，带有ReLu和Sigmoid激活函数。比较表1和表2，发现表1中的分类算法使用传统的评估性能度量（即，准确度、精确度、召回率和F-测量），但它在MCC性能指标方面表现不佳表1中的性能是由于过拟合。而在表2中，他们的成绩在准确率、精确率、召回率和F-测量方面有所下降. 因此，我们的发现表明，在没有类不平衡的情况下，MCC作为性能指标的性能改善率对于所有分类器都非常高，而其他指标的性能则有所下降。这与Chicco和Jurman（2020）的主张一致，即MCC是确定最佳分类器的最佳性能指标没有类不平衡。我们注意到，在表1中，MLP和DNN中机器学习算法的所有性能指标都高于80%，这使得它们比其他算法更好地分类，但MCC远不是100%;而在表2中，DNN是最好的分类器，尽管MCC值接近100%。此外，本报告还总结了FCM模型的开发，该模型分析COVID-19症状并确定状态为阳性或阴性。 FCM模型是使用COVID-19数据集的二十（20）个概念开发的。概念之间的每个关系的权重是从权重矩阵中提取的，该权重矩阵是使用等式（2）给出的简化版本的赫布学习算法从

下载后可阅读完整内容，剩余1页未读，立即下载