没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于修剪的过采样技术和平滑的Bootstrap响应用于Covid-19的Prasetyo Wibowo,Chastine Chalachah信息学系,智能电气和信息技术学院,印度尼西亚泗水,阿提奇莱因福奥文章历史记录:2021年5月1日收到2021年7月28日修订2021年9月25日接受2021年9月30日网上发售保留字:过采样平滑引导恢复不平衡数据机器学习COVID-19A B S T R A C T冠状病毒病(COVID-19)被世界卫生组织(WHO)宣布为大流行性疾病,至今仍未结束由于COVID-19的感染率增加,因此需要计算方法来预测感染COVID-19的患者,以便与传统诊断相比加快诊断时间并最大限度地减少人为错误。然而,负数据的数量高于正数据的数量可能导致影响分类性能的数据不平衡情况本研究提出了一种新的过采样技术,TRIM-SBR,用于生成诊断COVID-19感染患者的小类数据。由于数据的泛化问题,过采样技术的发展仍然具有挑战性。所提出的方法是基于修剪通过寻找特定的少数地区,同时保留数据的泛化,导致少数数据种子,作为基准,在创建新的合成大小的数据,使用自举恢复技术。准确性、特异性、灵敏度、F-测量和AUC用于评估数据不平衡情况下的分类器性能。结果表明,TRIM-SBR方法提供了最好的性能相比,其他过采样技术。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍自2020年3月11日起,冠状病毒病(COVID-19)被世界卫生组织(WHO)宣布为大流行性疾病,它传播到114个国家,共有超过118,000例病例和4,300例死亡。来自Chen的研究报告(Chen等人,2020年)显示,51%的观察患者患有慢性疾病,其中11%的患者病情恶化并死于器官衰竭。来自Mahase的文章(Mahase,2020)指出,与严重急性呼吸综合征(SARS)和中东呼吸综合征(MERS)相比,COVID-19的死亡率较低。然而,COVID-19导致更多死亡病例,与SARS和MERS相似。这是因为COVID-19是一种死亡率低但传播速度比SARS和MERS更快的疾病*通讯作者。电子邮件地址:chastine@if.its.ac.id(中国)(Abraham)。沙特国王大学负责同行审查因此,如果发现,最好尽快治疗,以避免任何并发症。COVID-19诊断测试可以通过三种方式进行:侧流测试(LFT)、聚合酶链反应(PCR)和计算机断层扫描(CT)。所有三种诊断测试都有优点和缺点。LFT测试的优点是,与其他诊断测试相比,它具有最低的价格,但有时会给出不准确的结果。PCR测试结果比其他诊断测试更可靠,但需要更长的时间,因为它需要实验室分析比其他诊断测试。最后一种是CT扫描,可以给出准确的结果,但需要特殊的工具和经验丰富的工作人员进行测试。LFT和PCR具有相同的采集方法,即从鼻或喉后部采集拭子这两种诊断检测具有不同的工作方法,PCR检测通过检测病毒RNA(遗传物质),而LFT检测患者样本中包含的病毒特异性由于与PCR相比灵敏度结果较差,LFT的使用已成为讨论的热门话题(Deeks和Raffle,2020; Armstrong,2020; Kmietowicz,2021)。由于LFT不能在无症状患者中检测到,因此灵敏度较差,并且由Ferguson的研究报告证实(Ferguson et al., 2021),其结论是LFT不能检测非常早期或非常晚期的感染。世卫组织建议,初始检测可以使用LFT,而对于确诊,https://doi.org/10.1016/j.jksuci.2021.09.0211319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comP. Wibowo和C. 吉卜恰沙特国王大学学报7831检测可以使用PCR检测(世界卫生组织(WHO),2020)。PCR检测的高消耗使得CT扫描成为诊断感染COVID-19患者的替代方法CT扫描的工作方式是在胸部区域使用X射线拍摄图像。放射科医生将检查图像,以识别与COVID-19疾病相关的异常。已经进行的研究表明,CT扫描具有比PCR更好的结果(Ai等人,2020;Long等人,2020年; Zheng等人,2020年)。然而,研究人员不推荐CT扫描作为主要诊断测试(Dennie等人,2020; Dickson等人,2020; Hope等人,2020;Laghi,2020),并建议使用PCR代替。另一种选择将两种诊断测试结合起来以获得更好的检测性能。虽然PCR和CT扫描已经产生了预期的结果,但与传统诊断相比,需要一种计算方法来加快诊断速度并最大限度地减少人为错误。使用不平衡数据集时的主要挑战是阴性测试结果的数量与阳性测试结果相比是不平衡的,反之亦然。这个问题也经常发生在计算机视觉中(Wang等人,2019; Oksuz等人,2020; Wang等人,2020)和大数据(Rendón等人,2020年; Wibowo和Reichah,2021年),其中类不平衡问题可能严重影响分类方法。当分类方法用于不平衡的数据集时,机器学习算法的结果将对大多数类产生偏见,因为结果通常集中在准确性上。它导致了这样一种现象,即总体结果具有非常高的准确性,但对少数数据的数据一般来说,有两种主要策略来解决数据不平衡,即成本敏感方法和恢复方法(Leevy等人,2018年)。代价敏感方法是一种考虑误分类代价的方法,使总代价最小化,从而更适合于复杂数据集。这种对成本敏感的策略的缺点是,当应用于小数据集或具有显著的偏斜数据(Zhang等人,2011; Lu等人,2019年),因此本研究将采用重新分配方法来缓解数据不平衡的问题。(Longadge和Dongre,2013;Nanni等人, 2015年)。缓刑是解决阶级不平衡数据集中的问题(Estabrooks等人,2004年)。此恢复过程尝试更改训练数据,以使数据分布平衡。重新抽样分为欠抽样和过抽样两类。过采样通过创建新样本、复制少数数据类来对类数据进行采样,欠采样通过从多数类中减去或删除样本来对类数据进行采样。本研究的重点是过抽样技术,因为大多数类数据具有相关的信息进行处理,使用过抽样技术将导致更平衡的少数类数据。然而,这将增加过拟合的风险(Santos等人, 2018年)。过采样技术的一种现有技术是合成少数过采样技术(SMOTE)(Chawla等人,2002年)。该方法在原始少数类之间的特征空间上生成样本数据,通过选取每个少数类,并沿着从少数类中选出的最近邻的直线引入样本数据。SMOTE然而,SMOTE有一个缺点,即过度泛化,其中样本数据被生成到大部分区域中(Bunkhumpornpat等人,2009年)。这是因为SMOTE不考虑多数类区域的分布。本研究提出了一种新的过采样技术,用于COVID-19感染患者的诊断分类。主要贡献概述如下:TRIM-Smoothed Bootstrap Resception(TRIM-SBR)是一种用于减少过度泛化问题的方法,该问题通常发生在将合成数据形成具有均匀分布的合成数据效应的多数类区域时。我们的方法是基于修剪寻找一个特定的少数地区,同时保持数据的一般性,使它会找到少数数据集,同时过滤掉不相关的数据。修剪结果将产生少数数据种子,用作复制数据的基准。为了保证重复数据的均匀分布,使用了引导恢复技术来创建新数据。对各种学习算法进行广泛的实验,以便与当前最先进的研究进行比较。本研究还将展示如何预处理数据并创建新特征,以捕获COVID-19数据集中的基本特征本文分为五个部分。第1节介绍了突出的问题。第2节介绍了材料和支持理论的细节。第3节概述了拟议工作的方法,第4节描述了实验结果,然后在第5进行讨论和分析。2. 相关作品在疫情期间,尤其是在发展中国家,PCR作为主要检测诊断的需求增加,需要较长的诊断时间,以延迟预防COVID-19传播的初步步骤。第一批尝试计算方法的研究人员是(Yan等人,2020年),他对新型冠状病毒肺炎重症患者的生存率进行了预测。本研究采用乳酸脱氢酶(LDH)、淋巴细胞和超敏C反应蛋白(hs-CRP)三项指标,对武汉地区404例感染者的血液标本进行检测。使用的预测模型是XGBoost,因为它可以通过在树创建过程中为每个特征提供重要值来进行基于树的解释。结果表明,准确率为93%,死亡率预测值为100%,存活率预测值为90%。虽然这项研究的准确性很好,但作者建议进一步研究3,000多例患者数据和80例临床数据。此外,Vaid等人,2020年)预测纽约市COVID-19阳性患者的死亡率。这项研究使用了从五家不同医院获得的3,055例COVID-19阳性患者数据,使用决策树。通过得出年龄特征、炎症标志物、凝血参数和D-二聚体是模型的基本特征的结论,获得的AUC预测结果为84%。该分析的缺点在于,其仅在分类评估中使用AUC度量值来证明分类模型的准确性(Batista等人,2020)尝试使用机器学习方法预测急诊患者的COVID-19诊断。这项研究使用了235个数据,其中15个特征来自于Albert Einstein医院的患者数据,使用了五种机器学习算法:神经网络、随机森林、梯度增强、逻辑回归和支持向量机(SVM)。本研究获得了良好的结果,平均AUC值为84%,灵敏度为74%,F1评分为75%。此外(Soares et al.,2020年),根据599名患者的结果进行了一项侧重于血液检测的分析。该模型采用支持向量机,并增加了一个SMOTE产生的合成数据。结果表明,该方法的灵敏度为70%,特异性为85%。与Batista相比,本研究然而,最大的缺点是缺乏探索的reservation方法,这可能有更好的结果比主要的算法。●●●P. Wibowo和C. 吉卜恰沙特国王大学学报7832COVID-19数据具有数据不平衡和癌症、糖尿病和肝炎数据等医疗数据的特点(Dua和Graff,2019)。因此,需要数据平衡方法来产生良好的评估结果。在数据不平衡中,重叠是研究人员面临的一个常见问题,当数据高度偏斜时,重叠就成为一个关键问题(Vuttipittaysakol和Elyan,2020)。重叠的问题也得到了支持这篇论文的结果表明,类不平衡和类重叠之间存在非常强的关系,这影响了分类的性能( García 等 人 , 2006;Almutairi 和 Janicki , 2020; Stefanowski ,2013)。克服重叠的一种方法是选择要采样的实例(Fernández等人,2018年)。该策略旨在通过选择最接近的样本或根据该地区少数民族类别的数量不重复数据来减少数据集中的重叠和噪音。就COVID-19而言,目前的数据处理非常有价值。因此,在本研究中,欠采样技术不是一个好的选择因为它的主要缺点是在分类过程中可能丢弃潜在的有价值的数据(Batista等人,2005年)。过采样技术是本研究中的最佳选择,因为它在处理时不会丢失数据。几项研究证明,过采样技术可以改善不平衡数据集的测试评估,例如Akbani等人,2004),其试图通过考虑每个少数数据的成本,使用SMOTE方法将过采样技术添加到医学数据。结果表明,使用过采样技术的数据在敏感性评估指标中从36%显著增加到70%。一些研究比较了几种过采样方法,例如SMOTE、Borderline-SMOTE和随机过采样(Douzas等人,2018年)。结果显示,与初始数据相比,F1评分和AUPRC结果显著增加。通常使用几种过采样技术来克服数据不平衡问题。随机过采样方法(ROS)通过随机复制一组选定的少数类来操作(Batista等人,2004年)。由于抽样过程是随机进行的,选择函数将发现很难找到两个类之间的差异随机过采样方法的缺点是增加了分类的训练时间,以及在复制少数类数据时可能发生过拟合(Ganganwar,2012),从而使类不平衡更糟。合成少数过采样(SMOTE)技术基于特征而不是基于样本的少数类别之间的相似性来创建人工样本(Chawla等人,2002年;他和加西亚,2009年)。该合成示例将基于少数类别的K个最近邻的部分或全部来创建分段线根据所需的过采样数据量,随机选择邻居。有许多扩展使用SMOTE作为平衡类分布的技术Borderline-SMOTE用于在边界线附近的少数类和同类的周围区域(Han等人,2005年)。与原始SMOTE相比,borderline-SMOTE不合成数据,而是专注于边界区域中的数据,以便帮助在类之间创建区域。用于不平衡学习的自适应合成采样(ADASYN)方法使用少数类中的密度分布作为用于合成每个少数样本中的数据的标准(He等人,2008年)。这种方法可以区分每个少数样本中的密度分布,并根据需要添加尽可能多的少数样本以平衡多数类。这种方法有助于根据建模的困难集中少数类中心。安全水平-SMOTE是一种在生成合成数据之前为少数样本数据创建安全水平的方法(Bunkhumpornpat等人,2009年)。每个合成数据都将以最高的安全级别进行处理,以便所有合成数据都只在安全区域内安全水平比取决于每个样本数据集和每个样本数据区域。DBSMOTE使用基于密度的聚类方法,并生成与每个少数数据一起合成的样本(Bunkhumpornpat等人,2012年)。DBSMOTE可以在重叠区域工作,例如Borderline-SMOTE,但与Borderline-SMOTE的区别在于它可以保持少数类和多数类的准确性。下一种方法是通过找到大多数类实例的相似性并将它们分组到一个称为CDSMOTE的类中来执行类分解(Elyan等人,2021年)。该方法试图在不消除关于多数类的信息的情况下减少多数类的优势。基于距离的方法被称为基于Mahalanobis距离的过采样(MDO)技术 , 这 是 一 种 基 于Mahalanobis 的 多 类 方 法 ( Abdi 和 Hashemi ,2015)。MDO合成数据是基于其他少数类在每个类平均值中使用相同的 Mahalanobis 距 离 创 建 的 。 Vuttipittay-mongkol ( Vuttipittay-mongkol和Elyan,2020)使用模糊C均值方法消除重叠类,以准确识别阴性和阳性类。在确定阴性和阳性类别之后,使用Borderline-SMOTE的概念进行数据复制,使得复制的数据在少数区域。3. 方法3.1. 不平衡数据集系统设计是为了获得一个良好的预测模型,如图所示。1.一、在对数据集进行数据建模之前,先进行数据预处理,得到理想的数据集。数据预处理包括数据清洗、数据约简和数据转换。将进行数据清理和缩减,以消除被认为不会显著影响模式数据或干扰分类评估结果的数据。在数据变换中,特征相关用来寻找特征之间的相关性,并找到任何具有几乎相同特征的特征,使数据处理更简单。数据预处理对评价结果影响很大。然后,应用数据建模以获得最佳预测模型,即重点使用机器学习。首先,使用Holdout方法将数据集分为两部分,即训练数据和测试数据。采用过采样技术来加强训练数据中类间的值。超参数优化被应用于在每个分类模型中产生最优的模型评估。3.2. 提出的过采样方法所 提 出 的 方 法 被 称 为 TRIM-Smoothed Bootstrap Resistance(TRIM-SBR),其目的是减少过度泛化的问题,通常发生在合成数据形成多数类区域时,合成数据的影响是均匀分布的。如图2所示,所提出的方法分为两个部分:修剪和数据复制。TRIM方法用于修剪部分,这是一种预处理方法,用于避免在过滤不相关数据的同时使用贪婪方法来寻找少数数据集时过度泛化数据。然而,这种方法不能保证最佳的全局结果,但提供了对最优集合的合理估计(Puntumapon和Waiyami,2012)。修剪结果将产生少数数据种子,用作复制数据的基准。使用平滑引导技术来创建新数据,以确保数据的重复均匀分布。该技术将通过测试减少过拟合-P. Wibowo和C. 吉卜恰沙特国王大学学报7833ð-Þ2¼左 ;对Fig. 1. 系统设计。图二. 所提出方法的框图。对属于数据重复类的观测值进行维数估计,以最小化数据冗余。3.3. 修剪方法TRIM是一种旨在避免数据过度泛化的方法。其基本思想是确定少数民 族 数 据 的 收 集 与 数 据 之 间 的 普 遍性 和 精 确 性 之 间 的 最 佳 折 衷(Puntumapon等人,2016年)。等式(1)用于测量数据的精度和泛化。TRIM crite越高,jminorityj的值是少数数据的度量。为了获得TRIM增益增益种子数据,评估两个单独的数据集并与TRIM进行比较。如果T Gain>TRIM,则通过执行二进制分离器操作来获得种子数据。jminorityleftj和jminorityrightj是左少数数据子集和右少数数据子集之和;N是样本数据的总数,Nleft和Nright是左子集数据和右子集数据的数量。结果,等式(2)将被公式化如下:. . 少数..少数二号!值越小,种子数据将越精确和一般。2N左N对TRIMj少数群体jNT-增益 最大值P. Wibowo和C. 吉卜恰沙特国王大学学报7834Q布吕德 4ðÞ11B22ffiffiffiffiffiffiffiffiffiffiffiffi当量(2)被设计为捕获重新采样数据的特征。第一个特点是根据少数数据的几个样本创建新的合成数据,以评估少数数据的精度。另外,第二个特征-这是因为合成数据总是在凸包中生成yj。在得到h*j*矩阵平滑之后,通过等式(4)通过高斯核执行数据分布,其中l是平均值,r是标准偏差的值,并且r2是方差。少数民族的数据。的目的增益测试是为了识别hj。41r^位于凸包外部的大多数不相关数据过滤掉算法1给出了TRIM的伪代码qdnqpx1e-αx-lα2算法1 TRIM(N)Input:data(N)输出:种子(Seed)方法:1. D={}2. 将数据N添加到D3. while(D不为空)4.Trim= ComputeTRIM参数5.DataSplit =数据j中的分割点多数为左j或j多数权利 j6.TrimSplit=maxDataSplit(ComputeTrimSplitD;DataSplitD)7.如果“修剪分割”>“修剪”,8.将数据D拆分为D左和D右9.如果(j个多数左j== 0),10.D新型 =D右11.其他12.D新型 =D左13.end if14.D=D新15.end if16.Trim= ComputeTRIM参数香港赛马会ppr2r2算法2给出了伪码平滑自举响应算法2 SMB(N)Input:data(N)输出:合成少数类(样本)方法:1. X=按顺序垂直变换N个2. Y=按顺序水平变换N个3. Xmin=将X和Y4. CalcStd=ComputeStdDevelopXmin5. ValueData=ReturnValueDataN6. 最小值X =ReturnValueIndexXminIndex7. H矩阵= ComputeMatrix CalcStd;Value Data;ValueX min//使用等式38. 样本={}9. 对于N中的每个索引,10.随机数11.值Xmin =ReturnValueIndexXminIndex12.Hindex= ComputeRandomIndexRand;ValueXmin17.DataSplit=数据中的拆分点18.TrimSplit=maxDataSplit(ComputeTrimSplitNodeD;DataSplitNode D)19.如果“修剪分割”>“修剪”,20.将数据D拆分为D左和D右21.向左添加数据D到D22.将数据D向右添加到D23.end if24. end while25. 返回种子13.数值高斯¼计算高斯分布H矩阵使用等式414.将值高斯添加到样本15. 端16. 返回样本4. 实验及结果讨论4.1. 数据集描述[Xmin½Hindex];3.4. 数据复制方法随机过采样示例(ROSE)是一种采用平滑自举方法的数据复制方法(Menardi和Torelli,2014)。该方法在形成新的合成数据时有三个主要过程,即:● 以概率2选择y<$^yj2y● 在Tn选择xi;yi为yi<$$> y,概率为pi<$nj● 其中,KHj是xi上的中概率分布,取决于矩阵参数Hj在操作上,ROSE需要Hj矩阵来复制数据。理论上,平滑矩阵的选择会 影 响 KHj 的 大 小 。 以 前 的 研 究 在 选 择 平 滑 参 数 时 讨 论 了 这 一 点(Bowman和Azzalini,1999; Silverman,1986)。从可用的备选方案的数量中,选择了高斯核具有对角平滑矩阵Hj^diag。hj;·· ·;hjasin本研究https://github.com/praswi-该数据集是公开访问和匿名的,有111个特征,包含来自患者检查结果和实验室数据的5,644个患者数据。数据集总结见表1。如表1所示,许多缺失数据是由于医疗人员的决策,这需要一个复杂的过程,该数据集表1COVID-19数据集的特征。特征值总数据5,644吉吉1d特征数量数据比较阴性:阳性90:10rq是标准偏差的样本估计值其观测值属于以下类的第q维的值特征上的数据频率为空65%-100%P. Wibowo和C. 吉卜恰沙特国王大学学报7835¼¼¼=¼-1/44.2. 预处理和数据转换第一步是调查COVID-19患者的阴性和阳性数据分布在多大程度上是基于可变的SARS-COV-2检查结果。结果表明,正数据值为0.09886,负数据值为0.90113。因此,它得出结论,数据不平衡。然后,确定待处理的每个特征变量中空数据的百分比。删除包含超过50%空数据的特征是获得可靠数据集的正确选择(Salgado等人,2016年)。来自111个特征的数据中约有65%包含空数据,因此通过删除包含空数据的变量数据来进行数据清理。数据清理过程产生了39个可以进一步处理的可变数据。在该数据集中,可以基于简化患者的疾病变量将一些变量组合成新的变量18个疾病特征可以作为一个新的变量。这个特征是分类的,它包含了一个人是否受到疾病的影响。One Hot Encode是一种通过创建额外的变量来区分各种特征类别,从而将分类特征转换为二进制变量该技术已用于医学领域,以简化数据集,这些数据集在数据未 被 转 换 时 通 常 过 于 复 杂 ( Wollenstein-Betech 等 人 , 2020;Dickson等人,2020; Schwab等人,2020年)。18个疾病特征的转换结果成为一个名为has_disease的新特征。下一步是检查数据集中每一行的空数据.基于行的数据检查发生,因为数据经历完全随机缺失(MCAR)和随机缺失(MAR)(Salgado等人, 2016年)。当观察数据缺失时发生MCAR,MAR发生在观测数据中缺少概率数据时,其仍然依赖于观测数据,但与特定特征数据无关。可以删除来自MCAR或MAR的数据,以简化将用于建模的特征。通常用于克服缺失数据问题的技术之一是列表删除或病例删除(Kang,2013; Newman,2014)。此技术将消除该行上的所有现有数据。对5644行数据进行了第一次检查,结果是大约3 596行数据中有32个空特征变量。然后使用规则清理数据,如果数据中填充的特征变量少于26个,则数据将被删除。最终结果留下1,588个数据准备处理用相关函数来寻找重要的变量相关性特征使用斯皮尔曼技术,因为它可以同时处理分类和数字特征(Khamis,2008)。几个变量之间有很强的相关性。在SARS-COV-2检查结果变量中,可以在该数据集中看到关键变量。变量白细胞、血小板、嗜酸性粒细胞和has_disease的值接近负面积,而单核细胞和年龄变量显示正相关。从所得到的相关性,两个特征变量彼此高度相关,例如血细胞比容、血红蛋白和红细胞。此外,平均红细胞血红蛋白(MCH)和平均红细胞体积(MCV),以便两者都可以减少,以减少由数据集处理的特征变量的数量。基于来自特征相关性的经验法则(Hinkle等人, 2003),红细胞压积、血红蛋白和红细胞彼此具有高度相关性。获得高评估是因为红细胞压积、血红蛋白和红细胞的特征包括在血液学参数中,因此根据SARS-COV-2检查结果取最高值,即,红细胞(Gligoroska等人,2020年)。还有高度相关的特征:平均红细胞血红蛋白(MCH)和平均红细胞体积(MCV)。这些红细胞指数中包括两个变量,因此根据SARS-COV-2检查结果选择最高值,即,本试验中使用的平均红细胞体积(MCV)(VonTempelhoff等人,2016年)。图3是使用主成分分析(PCA)来减少数据集的维度以有效地可视化数据的预处理的最终结果4.3. 建模将该方法与随机过采样(ROS)、SMOTE、Borderline- SMOTE和ADASYN四种不同的重采样技术进行了比较.此外,本研究使用了两种不同类型的模型,即:随机森林(RF),逻辑回归(LR)和支持向量机(SVM)。为了使对模型的偏差最小化,使用超参数选择和优化(Wong等人,2019; Schwab等人,2020年)。对于每个预测模型,通过选择基于在预定的列表范围内,如表2所示。评估每个超参数优化性能,并在测试集的每个模型中选择4.4. 评估指标矩阵中常用的值有四个特征,即:真阳性(TP)、假阳性(FP)、假阴性(FN)和真阴性(TN)的数量。TP和TN是指测试集中被正确分类为阳性和阴性的样本数量。相比之下,FN和FP表示来自测试集的被错误地分类为阴性和阳性的样本数量。通常的分类评价标准是使用准确性。当数据集的大小在类之间相对平衡时,该度量提供了一个全面的画面。在度量准确度部分中,样本数据的百分比按照等式中的定义正确计算(五)准确度TP公司简介专属性旨在测量有多少阴性实际样本数据被预测为阴性,如等式中所定义(六)专属性TNTN灵敏度/召回率旨在测量有多少正的实际样本数据被预测为正的,如等式中所定义的(七)Sensitiv ity RecallTP TP和FN之后,测量多少阳性预测数据是阳性预测,称为精确度,如等式中所定义。(八)精密TPTP精密FP在不平衡数据的情况下,获得高精度和召回率是非常困难的,并且经常发生其中一个模型在一个度量上获得高值,但另一个非常低的情况。F-Score是一个度量,它解释了精确度和召回率的平均权重,以从等式中定义的两个度量中获得平衡的结果。(九)F措施2精确度:召回查全率为了实现两个类别的良好结果,使用ROC曲线组合足够的阳性和阴性类别指标。ROC是一种图表类型,显示TP率与FP率的对比。ROC还表明,每个分类器可以增加真阳性而不增加假阳性。ROC曲线下面积(AUC)是一个试图告诉模型在2000 - 2010年的表现有多好的值。P. Wibowo和C. 吉卜恰沙特国王大学学报7836¼----图三. COVID-19数据集的分布,红色为少数类,蓝色为多数类。表2用于实验的超参数范围。模型与超参数选择随机森林树木数量10、50、100、200、500特性auto,sqrt,log2,0.5,0.1,0.3Depth of the tree树的深度2,8,16,32,64,128样本数量2、4、8、16、24叶片数1、2、5、10、15、30Logistic回归惩罚l1,l2正则化强度C 100、10、1、0.1、0.01、0.001支持向量机正则化C 0.1,1,10,100,1000核系数自动,1,0.1,0.01,0.001,0.0001核类型线性、多边形、rbf、sigmoid类之间的标签。获得的值越高,模型就越能区分类别标签。使用Eq. (10)其中TP率是被归类为“阳性”的“阳性”TP实例的百分比AUC1生育率24.5. 结果讨论TRIM-SBR类的分布结果见图4。TRIM-SBR在数据复制中采用高斯分布,使分布结果更加均匀。这种数据分布增加了数据方差,从而可以改进建模评估。TRIM-SBR的有趣之处在于,它显示了数据分布中心外部区域的一系列少数民族数据重复,从而加强了少数民族数据区域。表3显示了通过过采样处理的训练数据的多数和少数数据的组成。在原始数据中,类数据的数量不均衡,多数数据占86.27%,少数数据占13.72%。这是一个问题,因为不平衡的数据可能会导致正在创建的模型中的偏差;在这种情况下,过采样技术用于在平衡类数据时提供令人满意的结果可以看出,TRIM-SBR、ROS、SMOTE和Borderline-SMOTE给出了平衡的结果,多数和少数数据的百分比为50%。与ADASYN给出的结果相比,少数人的结果比多数人的结果更重复这是因为ADASYN根据少数族裔数据的密度进行了重复。当少数民族数据仍然没有进入ADASYN的平衡标准时,它将被复制,直到根据密度分布认为少数民族数据是平衡的。表3表明,所有过采样技术都成功地平衡了少数数据,使其与多数数据相等。表4显示了COVID-19数据集上五种过采样方法的分类准确性、特异性、灵敏度、F-测量和AUC结果。准确度在识别与预测响应相关的预测值方面具有重要作用。总体模型的结果为83%-91%,最佳过采样方法为Borderline-SMOTE,结果为91.74%。Borderline-SMOTE和TRIM-SBR结果之间的比较具有约3.3%的差异,这表明TRIM-SBR与本实验的最佳结果非常具有竞争力具体性试图找出有多少相关值被预测为对所有实际上健康的人都是正确的。获得的结果是基于ROS和Borderline-SMOTE持有的最佳过采样方法的82%-97%之间的评估,即,百分之九十七点一二与TRIM-SBR相比,存在7.70%的差异,表明所提出的方法可以与其他过采样方法进行比较。高边界-SMOTE结果是使用最近邻概念从重复数据中获得的,从而增加了相邻数据之间的相似性。灵敏度是本研究中的关键评价指标,因为它最大限度地减少了所用模型中的假阴性。所得结果在47%~ 82%之间,最佳过采样方法为TRIM-SBR和ADASYN,即,百分之八十二点三五TRIM-SBR的高灵敏度值是由于数据的多样性和均匀重复性查准率和查全率具有相互依赖的特点。F1得分值是一个度量,它解释精度和召回的平均权重,以获得两个度量的平衡结果。实验结果在57%~ 66%之间,最佳过采样方法为TRIM-SBR、SMOTE,P. Wibowo和C. 吉卜恰沙特国王大学学报7837-图四、TRIM-SBR的数据类分布表3图五. ROC曲线比较TRIM-SBR。TRIM-SBR可以一致地保持数据泛化。TRIM-SBR方法利用数据分布丰富了合成数据的多样性,提高了类的区分度。本实验中的后续比较将所提出的模型与其他研究人员的最新技术进 行 了 比 较 , 如 表 5 所 示 。 使 用 来 自 Hospital Israelita AlbertEinstein的相同数据集,主要区别在于预处理方法和使用的模型。该方法的准确度、特异性、灵敏度和AUC分别为88.43%、89.42%、82.35%和90.41%,之所以获得如此高的结果,是因为它通过清理对模型没有显著影响的数据来预处理数据,并且TRIM-SBR的添加加强了少数类,如果存在数据不平衡,则通常会导致建模倾向于检测多数类。过采样可以改善建模结果的证据也在使用SMOTEBoost的第二个模型 结 果中 显 示 , 特异 性 , 灵敏 度 和AUC 的 结 果分 别 为 85.98% ,70.25%,86.78%。然而,当比较训练数据组成的结果过采样。过采样属性#Class(maj; min)%分类(最大值;最小值)原始数据13(415(66)(86.27; 13.72)TRIM-SBR13(415; 415)(50.00; 50.00)ROS13(415; 415)(50.00; 50.00)击杀13(415; 415)(50.00; 50.00)边界-SMOTE13(415; 415)(50.00; 50.00)ADASYN13(415; 417)(49.87; 50.12)和边界-SMOTE,即,百分之六十六点六七。这意味着TRIM-SBR与所有过采样方法相比都具有很强的竞争力。TRIM-SBR试图概括所有少数数据,因此精确度和召回率之间的权衡效应对该方法的评估结果由于不平衡数据集具有非常高的分散数据的特性,导致机器学习模型的所有结果都低于67%。AUC值试图找出模型区分类别标签的程度获得的值越高,模型在区分类别标签方面就越好。AUC的实验结果在82%-90%之间,TRIM-SBR的结果最好,即,百分之九十点四一图5示出了TRIM-SBR的 AUC分类器,其在86%-90%之间,表明使用所提出的技术,它表明灵敏度值是这种建模中最大的弱点,因为SMOTEBoost生成的数据的泛化非常小。尽管过采样可以改善建模结果,但选择不正确的技术可能会导致评估不充分。例如,使用SMOTE技术的第三个模型显示灵敏度值为43.00%。灵敏度检测有多少预测患者被标记为COVID-19阳性,因此低值指示区分模型感染COVID-19或未感染的患者的难度。当讨论预处理数据时,一种方法选择直接数据采样,如第四个模型所示结果分别基于特异性、灵敏度和AUC指标80.00%、80.60%和84.20%的评价。这种建模方法在数据的最小变化方面有一个弱点,这可能导致要处理的数据范围最小。然而,由于处理的数据和特征太多,它也会影响所使用的建模。第五个模型试图处理数据集中包含的所有数据特异性、灵敏度和AUC的评价结果分别为49.00%、75.00%和66.00%。获得该结果是因为没有过采样技术来平衡不平衡的数据,从而影响正在处理的模型的特异性P. Wibowo和C. 吉卜恰沙特国王大学学报7838表4实验结果比较。模型过采样准确度(%)特异性(%)灵敏度(%)F1评分(%)AUC(%)随机森林TRIM-SBR88.4389.4282.3566.6790.41ROS90.0897.1247.0657.1490.27击杀90.9195.1964.7166.6790.36边界-SMOTE91.7497.1258.8266.6789.99ADASYN90.0896.1552,9460.0089.17Logistic回归TRIM-SBR83.4784.6276.4766.5290.38ROS85.1286.5476.4759.0989.2击杀85.1287.5070.5957.1489.2边界-SMOTE83.4785.5870.5954.5589.88ADASYN82.6482.6982.3557.1489.08支持向量机TRIM-SBR86.7888.4676.4761.986.37ROS87.691.3564.7159.4686.99击杀88.4391.3570.5963.1683.6边界-SMOTE86.7890.3864.7157.8982.41ADASYN85.9588.4670.5958.5485.61表5将所提出的模型与其他最先进的研究人员进行比较模型数据集大小全体特征精度特异性灵敏度AUC(选择)(选择)(%)(%)(%)(%)具有RF超参数的小行星5644(481)一百一十一(十三)88.4389.4282.3590.41具有SVM的SMOTEBoost(Soares等人, 2020年)小行星5644(599)一百一十一(十六)–85.9870.2586.78利用人工神经网络(ANN)的SMOTE(Banerjee等人,小行星5644(598
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功