没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁25(2021)100690代价敏感学习方法的性能分析及其在不平衡医学数据中的应用Ibomoiye Domor Mienye,Yanxia Sun*约翰内斯堡大学电气和电子工程科学系,约翰内斯堡,2006年,南非A R T I C L EI N FO保留字:代价敏感学习不平衡分类机器学习医疗诊断A B S T R A C T许多现实世界的机器学习应用需要使用高度不平衡的数据集来构建模型。通常,在医学数据集中,健康的患者或样本占主导地位,使他们成为大多数类,而生病的患者很少,使他们成为少数类。研究人员提出了许多机器学习方法来预测医疗诊断。尽管如此,类不平衡问题使得分类器难以充分学习和区分少数类和多数类。代价敏感的学习和恢复技术被用来处理类不平衡问题。本研究的重点是通过修改一些著名的算法,如逻辑回归,决策树,极端梯度提升,和随机森林的目标函数,然后使用它们来有效地预测医疗诊断的鲁棒成本敏感分类器。同时,相对于重新排序技术,我们的方法不会改变原始数据的分布。首先,我们实现了这些算法的标准版本,为性能比较提供了一个基线。其次,我们开发了相应的成本敏感算法。对于所提出的方法,它是没有必要改变原始数据的分布,因为修改后的算法在训练过程中考虑不平衡的类分布,从而导致更可靠的性能比当数据被重新采样。四个流行的医疗数据集,包括皮马印第安人糖尿病,哈伯曼乳腺癌,宫颈癌风险因素和慢性肾病数据集,在实验中使用,以验证所提出的方法的性能。实验结果表明,与标准算法相比,代价敏感算法具有更好的性能.1. 介绍医疗保健技术和机器学习(ML)的进步通过有效的疾病预测,患者监测和临床决策挽救了许多生命[1]。这些进步还提供了大量的医学数据。需要进一步的研究和开发,以避免对疾病的不准确预测,这可能对患者造成危险[2]。同时,在ML研究中,类不平衡问题也是一个被广泛研究的问题.根据定义,阶级不平衡可以被称为一种现象,其中多数阶级超过少数阶级一个巨大的因素[3,4]。研究表明,医疗数据大多是不平衡的[5],大多数类别(阴性或健康患者)的数量显着超过少数类别(阳性或患病患者)。通常,用于二进制分类任务的大多数ML算法假设类的均匀分布。因此,当使用不平衡的数据进行训练时,模型会被大多数类,从而降低模型这个问题它是如此重要,以至于被视为机器学习研究的十大挑战之一[7]。此外,ML算法假设误分类错误(假阴性和假阳性)相等[8]。然而,这种假设在不平衡的分类问题中可能是危险的,例如医疗诊断,欺诈检测和访问控制系统[9]。例如,错误分类一个积极的实例比错误分类一个消极的样本成本更高。与此同时,重新分配技术已被用于平衡不平衡数据集中的类分布[10]。恢复方法旨在通过对多数实例进行欠采样或对少数实例进行过采样来手动平衡数据;有时,两种方法都使用。然而,重排序技术可能会忽略一些可能有价值的数据,并增加不必要的实例的计算成本。从本质上讲,欠采样和过采样方法都改变了各个类的分布[11]。* 通讯作者。电子邮件地址:ysun@uj.ac.za(Y。Sun)。https://doi.org/10.1016/j.imu.2021.100690接收日期:2021年6月4日;接收日期:2021年7月30日;接受日期:2021年2021年8月3日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuI.D. Mienye和Y. 孙医学信息学解锁25(2021)1006902同时,存在另一种称为成本敏感学习(CSL)的方法,该方法考虑与样本误分类相关的成本[12]。成本敏感学习不是通过采样技术人为地创建平衡的类分布,而是通过利用成本矩阵来解决不平衡类问题,该成本矩阵概述了与各种类的错误分类相关的成本[13]。根据定义,成本敏感学习可以被认为是ML的一个子领域,它考虑了模型训练期间分类错误的成本[8]。研究表明,成本敏感学习在数据集具有倾斜类分布的应用中产生增强的性能[14]。一般来说,ML算法旨在最小化训练期间的误差,并且可以利用几个函数来计算模型在训练数据上的误差或损失。在成本敏感学习中,对错误分类进行惩罚,这被称为成本。成本敏感学习的目标是最小化模型对输入数据的误分类成本。因此,该算法试图最小化总误分类成本,而不是优化准确度[15]。此外,最近的研究表明,成本敏感学习和不平衡分类之间存在高度相关性;因此,用于成本敏感学习的概念框架和算法可以被固有地采用不平衡的分类任务[16]。此外,一些研究工作已经表明,当试图解决不平衡的分类问题时,成本敏感学习会带来更好的性能[11],并且它是比采样技术更合适的方法一些研究工作已经提出了许多方法来分类不平衡的医学数据,如参考文献中所述。[5、14]。但是,这些方法中的大多数都侧重于数据重新存储,例如在引用中。[3、17、18]。尽管已经有大量关于不平衡医学数据分类的论文发表,但重点一直是重新分类方法。本研究的目的是提供一个总体概述的不平衡分类问题和ML算法适合于这种分类问题的重点是医疗数据。在这个过程中,我们开发了一些成本敏感的ML算法,与标准算法进行比较研究。此外,虽然其他关于成本敏感学习的研究工作已经提出了单一的CSL算法,但这项研究工作实现了许多CSL算法,并在选定的医疗诊断数据集上分析了标准和成本敏感ML算法之间的预测性能。研究的算法有逻辑回归(LR),决策树(DT),极端梯度提升(XGBoost)和随机森林(RF)。同时,我们在这项研究中使用了四个医学数据集,包括皮马印第安人糖尿病,哈伯曼乳腺癌,宫颈癌危险因素和慢性肾脏病数据集。本文其余部分的结构如下。在第2节中,我们简要地回顾相关作品。第3节介绍了成本敏感的学习框架和算法在这项工作中使用。第4节讨论了本文使用的数据集和性能评估标准。在第5节中,我们给出了实验结果,然后对这些结果进行了分析和讨论。最后,第六部分对全文进行了总结,并对未来的研究方向进行了展望.2. 文献综述本节提供了一个简要的概述和审查的一些相关工作,类不平衡的问题和成本敏感的学习方法在医学诊断。2.1. 班级不平衡问题概述尽管最近在机器学习和深度学习方面取得了进展,但类不平衡问题仍然是研究人员面临的挑战[19]。在具有来自两个类或组的数据示例的二进制分类任务中,当一个组(少数类)具有比另一个组(多数类)更少的实例时,数据被称为具有类不平衡。在众多的不平衡分类问题中,兴趣类别是少数类别,即,医学数据中的阳性或患病患者。在医学诊断应用中,大多数患者没有疾病(即,大多数或阴性类别),并且预测那些患有疾病的人是至关重要的。因此,使用不平衡的医疗数据进行学习和准确预测是具有挑战性的,并且通常需要非传统的ML算法来获得合适的性能。此外,在不平衡的医疗数据中,ML模型通常会过度分类大多数类别,因为它们的先验概率较高。因此,少数类中的样本比多数类中的样本更容易被错误分类[19]。许多研究已经提出了解决不平衡分类问题的方法。例如,Kuo等人[20]提出了一种使用信息粒化(IG)概念的技术。该算法通过将多数类中的样本收集到颗粒中来平衡数据中的类比。该算法的第一步使用元启发式技术,如遗传算法K-均值,粒子群优化,人工蜂群K-均值生成一组IG。第二步使用分类器使用患者数据预测前列腺癌生存率。类似地,Liu等人。[21]提出了一种两步ML技术,使用不平衡数据集预测脑卒中。第一步使用随机森林回归进行缺失数据填补,第二步使用基于自动超参数优化的深度神经网络对不平衡数据进行分类。该方法实现了增强的脑卒中预测。解决类不平衡问题的几个先前的工作可以被拆分数据级和算法级的方法。数据级方法通过重新排序方法修改数据的类分布,以创建平衡的数据集。虽然重新排序技术已被广泛使用,但它们具有一些缺点,因为它们改变了数据的原始类别分布[22]。准确地说,欠采样可以删除在学习过程中可能至关重要的重要信息,而过采样可能导致过拟合,有时会增加计算成本[22]。Blagus和Lusa [23]提出了一个详细的理论和实证研究,重点是合成少数民族过采样技术(SMOTE)。该研究将SMOTE应用于几个真实和模拟的不平衡数据集,以解释该算法的行为。同时,SMOTE算法在医学领域也得到了广泛的应用在不平衡的数据集中提供类平衡。例如,Zeng等人[24]将SMOTE与Tomek链接技术相结合,以平衡三个医学数据集,从而提高了研究中八个分类器的性能。此外,Xu等人。[25]提出了一种改进的方法,通过结合面向错误分类的SMOTE(M-SMOTE)和编辑的最近邻(ENN)对不平衡的医疗数据进行分类,同时使用随机森林分类器对样本进行分类。该研究利用了10个不平衡的医学数据集,与其他经典的检索技术相比,该方法获得了更好的性能。Shilaskar等人[26]使用SMOTE和改进的粒子群优化(M-PSO)方法来平衡医疗数据集。本研究使用五种最大类属分类器对重采样数据进行分类,并分析重采样技术与数据级方法相比,算法级方法分类器,例如集成学习和成本敏感学习。包围学习方法利用多个学习算法来实现比使用单独算法时更好的分类性能[5]。最近提出的一些用于医学诊断的集成学习方法[27,28]已经取得了良好的性能。Zhu等人。[29]提出了一种使用结合随机森林和特征选择技术的算法对高维不平衡医疗数据进行分类的方法。该技术包括高维数据的降维和目标变量的分类。实验结果表明,该方法在高维医学数据中取得了较好的分类精度。此外,一些混合集成方法[5,17]已经被提出;这些方法结合了响应和集成学习I.D. Mienye和Y. 孙医学信息学解锁25(2021)1006903i=1×()下一页技术.参考文献[30]对用于不平衡分类的集成学习方法进行了深入的回顾。虽然集成学习可以提高性能,但多个分类器的组合是一个复杂的过程,并且会导致更高的训练时间。 最近的研究[11]表明,成本敏感学习可以确保算法正确地分类少数类,并且不会影响其复杂度或计算时间。2.2. 医学诊断中的代价敏感学习研究许多关于机器学习应用于医学诊断的研究工作通常采用传统的ML算法和通过集成学习[27,29],人工神经网络(ANN)[31],进化算法[32],稀疏自动编码器(SAE)[33]等改进的算法。然而,少数研究工作已经将成本敏感学习应用于医学诊断。成本敏感学习涉及修改算法的目标函数,以确保它更专注于准确预测少数类。最近,成本敏感学习被应用于分类慢性肾脏疾病(CKD)在参考。[34];该研究工作提出了一种成本敏感的集成方法,该方法结合了特征排序功能。通过与7种分类算法和8种特征选择技术的比较该研究得出结论,成本敏感学习是解决CKD不平衡分类的准确且成本有效的方法。对成本敏感的学习也被用于检测乳腺癌,是女性中最常见的癌症之一由于数据集的倾斜类分布,乳腺癌分类难以实现,从而导致标准ML算法应用于该分类时在参考文献[35]中,开发了一种对成本敏感的XGBoost,并将其应用于乳腺癌检测,该研究利用了四个具有不均匀类分布的乳腺癌数据集。结果表明,代价敏感的XGBoost算法在所有四个数据集上都取得了优异的性能。此外,通过整合博弈论开发了成本敏感的决策树分类器[36]。该算法使用了杠杆拉动的概念,多臂强盗博弈在树形成过程此外,Gan等人[41]将树增强朴素贝叶斯算法和成本敏感自适应提升(AdaCost)算法应用于不平衡的医疗数据。在几个医学数据上测试了所提出的al-出租m,包括宫颈癌风险因素数据集和克利夫兰心脏病数据集。实验结果表明,该算法的性能优于一些国家的最先进的方法。成本敏感神经网络 也 被 发达国家; 在参考文献[42]中,提出了一种成本敏感的深度学习方法来预测医院再入院。医院阅片任务的早期预测确保了医疗从业者的及时干预,这是预防严重并发症所必需的。该方法涉及使用卷积神经网络(CNN)结合成本敏感的多层感知器(MLP)分类器对患者数据进行自动特征学习。此外,成本敏感的MLP确保在模型训练期间考虑类别不平衡。最后,将该方法应用于真实世界的医疗数据集。它实现了0.70的受试者工作特征曲线下面积(AUC)值,优于基线模型。此外,Wu等人[43]提出了一种用于医疗诊断的新型成本敏感径向基函数神经网络(RBF-NN)。该方法采用遗传算法和改进的粒子群优化算法对代价敏感的径向基函数神经网络的参数和结构进行优化。在5个医学数据集上的实验结果表明,该方法比现有方法具有更好的准确率和AUC值。同时,本文的目的是建立在以前的研究,提供了一个详细的性能分析的成本敏感的学习算法与应用到一些医疗数据集。3. 材料和方法在本节中,我们将讨论成本敏感学习方法和本研究中实现的各种算法3.1. 代价敏感学习对于二元分类问题,假设D= {(xi,yi)}nrep,通过前馈框架来获得最大化奖励的特征。该方法在15个数据集上进行了实验,包括乳腺癌、糖尿病、心脏病、肝炎等数据集。实验结果表明,该方法获得了优越的性能。此外,Zieba等人。[37]提出了一种基于自适应boosting的支持向量机(SVM)来处理肺癌患者术后预期寿命的不平衡分类。该方法包括-给出了一个由n个独立同分布随机变量组成的训练集,其中xi∈X<$Rd是第i个实例,yi∈Y={-1,1}是第i个等效因变量。为了达到分类的目的,得到一个预测器f:X→R,分类规则通常被认为是sign[f(x)]。为了测量性能,非负损失函数L:RY→R被使用。 因此,规则-放大的经验风险最小化(ERM)表示为:最 小 JfDmin{1∑nLfxyλNf}( 1)结合集成学习和代价敏感支持向量机的优点的提出的成本敏感分类器获得增强的性能时,f∈F(,)=f∈Fni=1((i),i)+()与其他用于处理不平衡数据的流行分类器相比。类似地,Ali等人[38]开发了一种结合成本敏感学习和集成学习技术来预测乳腺癌的方法。研究中考虑的集成学习方法包括GentleBoost,Bagging和自适应Boosting。实验结果表明,代价敏感的GentleBoost分类器性能优于其他集成分类器。在另一项研究中,Wan等人。[39]提出了一种新的成本敏感的基于学习的提升算法,称为RankCost,用于预测不平衡的医疗数据。该方法使用排序函数来最大化多数类和少数类之间的差异。排名函数为少数类中的实例分配比多数类中的实例更高的分数。Zhu等人[40]开发了一种代价敏感的随机森林来处理医疗诊断中的不平衡类问题。该研究使用了几个医学数据集,并且提出的算法显示出改进的性能,特别是在准确预测少数和多数类别方面。这里,λ表示正则化参数,而N. 表示正则化器以防止过拟合[44]。通常,大多数ML算法使用ERM配置实现误差最小化。这些算法假设所有的误分类错误具有相同的成本,导致分类器对成本不敏感。实际上,许多机器学习问题,如医疗诊断[44]和欺诈检测[45,46],都是成本敏感的。成本敏感学习是一种特殊类型的学习,其中误分类成本被考虑在内。成本敏感学习的目标是使总成本最小化。它不同于成本不敏感学习,因为它独特地处理不同的错误分类,即,将患病患者分类为健康的成本不同于将健康患者预测为患病的成本。相比之下,代价不敏感学习的目标是最小化错误率,忽略各种误分类错误。此外,成本不敏感分类器假设所有的错误分类成本是相等的。然而,这种假设在大多数ML应用中是无效的[47]。例如,在预测疾病方面,I.D. Mienye和Y. 孙医学信息学解锁25(2021)1006904n=∑1(,)= ()+))+()c i i ii=闪烁==()下一页()下一页()下一页(())=(())()()FP i我FN我我表1成本矩阵X。L(w)=∑[yiln(P(yi))+(1-yi)ln(1-P(yi))](4)实际负值(y=- 实际正值(y=i=1(1)其中P(yi)表示y对于i为真的预测概率[50]。预测阴性符号[f(x)]=-1C(-1,- 1)=CTNC(-1, 1)=CFN而修改的对数似然函数可以表示为:n预测阳性符号[f(x)]=1C( 1,- 1)=CFPC(1, 1)=CTPL(w)=∑[Cyln(P(y))+C(1-y)ln(1-P(y))](5)作为癌症,错误分类(即,假阴性)比假阳性更昂贵,因为患者可能由于错误分类导致的治疗延迟而死亡成本敏感学习考虑不均匀的误分类成本。大多数情况下,正确分类的成本为零,即CTNCTP0.此外,不正确地分类实例通常比正确地分类实例具有更多的成本(即, CFN>CTP和CFP>CTN);成本矩阵如表1所示。对于成本不敏感的分类器,CFP CFN, 和 为 成本敏感分类器CFP CFN。此外,对于医学诊断,假阴性的成本通常大于假阳性的成本(即,CFN>CFP)。同时,它是可能的,制定一个分类问题的风险最小化为一个给定的成本矩阵,通过修改损失函数。通过对损失函数建模,考虑可变的误分类成本,我们可以得到一个成本敏感的分类器。此外,存在通过对类型L f x,y L yf x的ERM损失函数进行加权而设计的许多方法,即, 基于边际的损失函数[48]。基于边缘的损失函数在二进制分类中是必不可少的,因为与其他损失函数不同,它们不考虑实际标签和预测之间的相反,他们根据预测与目标符号的相关程度来对于函数f和元组x,y,由f获得的元组的边缘可以表示为yf x[48]。因此,可以通过最小化经验风险来制定成本敏感分类器:nJ f D g y L yh y f xηλN f(2)ni=1根据(2),g yi表示基于样本的权重函数,而h yi表示基于边际的权重函数,η表示权重常数,这些参数与目标变量相连,表示误分类成本的不等式[49]。因此,使用必要的加权方法,可以考虑(2)中的求和来评估分类器fx的累积误分类成本。此外,可以通过L、h、g和η的不同选项的组合来提出各种CSL方法。然而在这个论文中,我们基于η=0的实例开发了CSL分类器h(y)=1,且这种设置通常会导致一种非常适合不平衡分类问题的逻辑回归,这被称为成本敏感逻辑回归。3.3. 代价敏感决策树决策树算法是有效的分类问题时,在数据集中的类分布是平衡的。然而,当使用不平衡的数据进行训练时,它们的性能很差通常,在决策树中,选择分裂点以最佳地将样本分成具有最小混合(也称为纯度)的两个类别然而,如果两个集合都有来自多数类的更多样本,那么来自少数类的同时,为了避免这个问题,我们可以修改用于分割点选择的标准以考虑类重要性,从而产生成本敏感的决策树[36]。纯度通 常使用 基尼指数 或熵计 算[4] 。 本文实现 了分类 和回归 树(CART)的一个实例;因此,使用基尼指数计算纯度[28]。计算纯度度量的过程需要计算实例被分裂错误分类的概率概率计算包括组成一个组的各个类中实例数量的总和。因此,可以更新用于拆分的标准,以考虑分裂的纯度,并通过每个类的重要性进行加权。我们可以通过将各个组中的实例计数替换为加权和来实现这一点,其中提供系数来加权和。然后,可以将大的权重给予更重要并且对节点纯度具有更大影响的少数类,并且将较小的权重给予对节点纯度具有较小影响的多数类。类加权的一般启发是利用数据集的类分布的逆,即,如果按10:100的比例分配少数群体和多数群体,则相反的情况是少数群体使用100,多数群体使用10。3.4. 成本敏感型XGBoostXGBoost是一种使用梯度增强帧的算法CFN-CTP(如果y=1)CFP-CTN,如果y =-1(三)工作在其核心。XGBoost算法是决策树的集成,它已被应用于各种分类和回归任务。它随后的部分将讨论如何根据这种方法修改选定的算法,使其对成本敏感。3.2. 成本敏感logistic回归标准形式的逻辑回归不考虑某些数据集的不平衡性质;像大多数机器学习算法一样,它假设均匀的类分布。因此,修改算法以考虑不平衡类问题是至关重要的。为了实现这一点,采用类加权机制来控制在训练期间如何更新算法的系数。加权配置确保模型因少数类样本上的错误而受到更多惩罚。此外,该模型的惩罚较少,在大多数班级的样本上犯的错误。通常,对数似然函数L(w)表示为:在具有不均匀类分布的分类问题中也具有良好的性能[51]。然而,我们可以通过训练算法来进一步提高性能,以更多地关注少数类的错误分类,新算法被称为成本敏感的XGBoost。幸运的是,对于XGBoost,可以通过调整scikit-learn中名为scale_pos_weight的超参数来实现修改。在XGBoost实现中,scale_pos_weight的默认值为1.0。这个超参数的一个好值也是类分布的倒数。我们可以使用这个超参数来衡量算法在训练过程中对少数类所犯的错误,从而促使算法纠正这些错误。因此,该模型可以获得更好的性能时,分类的少数类的实例3.5. 代价敏感随机森林随机森林是一种集成学习算法,用于分类和回归。该算法构造多个(或{g(y)=i=1I.D. Mienye和Y. 孙表2医学信息学解锁25(2021)100690表35====×=≈数据集摘要。数据集总计中的样本数目中的样本数目混淆矩阵实际负数样品多数类少数类预测阳性真阳性(TP)假阳性(FP)PID 767 500(65.19%)假阴性(FN)真阴性(TN)乳腺癌305 224(73.44%)81(26.56%)宫颈癌858 803(93.59%)55(6.41%)对CKD数据集进行的预处理包括将分类属性编码为数值,并使用CKD 400 250(62.5%)150(37.5%)在训练中使用决策树[52]。对于分类任务,该算法输出作为类的模式的类,对于回归,它输出不同决策树的平均预测。此外,该算法纠正了与决策树相关的过拟合问题。虽然随机森林适用于许多应用程序,但它在不平衡分类任务上的性能很差。此外,数据特征影响随机森林算法的性能[28]。为了将标准随机森林修改为成本敏感的,我们为各个类分配权重。此外,我们使用类分布的逆,从而迫使算法更多地关注少数类。4. 数据集和评估标准最小最大定标器。为了评估本文中开发的各种算法的性能,我们利用一些评估指标,如准确率,精度,召回率,F-测量,和科恩的Kappa系数。这些评估指标可以从混淆矩阵中导出:根据混淆矩阵,TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。真阳性和真阴性分别是正确的阳性和阴性预测的数量[59]。假阳性是一种错误,即模型错误地将健康患者预测为患病。相比之下,假阴性是一种错误,其中模型无法预测疾病的存在。混淆矩阵(见表3)提供了二元分类实验结果的总结。评估指标的数学表示详述如下:本研究中使用了四个不平衡的医学数据集,包括Pima Indians糖尿病(PID)[53],Haberman乳腺癌[54],宫颈癌风险因素[55]和从加州大学欧文分校机器学习库获得的慢性肾脏病(CKD)[56]数据集。首先,PID数据集是由美国国家糖尿病、消化和肾脏疾病研究所(NIDDK)在对亚利桑那州皮马印第安人部落21岁以上的女性患者进行研究后准备的。该数据集旨在预测患者是否患有糖尿病,使用一些诊断数据,如准确度TP+TNTP+TN+FP+FN精度TPTP+FP召回TPTP+FNF量度2×查准率×查全率查准率+查全率(六)(七)(八)(九)胰岛素水平、年龄、体重指数、怀孕次数等。其次,哈伯曼Kappap0-pc(10)1-pc癌症手术该数据集源自芝加哥大学医院对接受乳腺癌外科手术的患者进行的研究。该数据集的特征是年龄、检测到的阳性节点数量、年份和生存状态。同时,宫颈癌数据集预测女性是否会根据某些风险因素患宫颈癌,包括病史,生活方式因素和人口统计学细节。我们使用Fernandes等人获得的简化特征集。[57]用于宫颈癌数据,该数据已广泛用于许多宫颈癌研究。最后,CKD数据集包含患者数据,如血压、红细胞、血清肌酐、血红蛋白、贫血、高血压等。阿波罗其中p0表示分类器之间的相对观测一致性,而pc表示一致性是由于机会的概率[60,61]。科恩目前,Kappa统计量在ML中主要用作分类器性能度量,因为它将分类器的准确性与随机分类器的准确性进行比较。它首先由Jacob Cohen [62]引入,并已广泛用于二进制和多类分类问题[63]。Kappa也可以从22混淆矩阵用于ML和统计,以评估二进制分类的性能:印度泰米尔纳德邦的医院准备了数据集该数据集包含两个类别,即CKD和非CKD,其对应于患有以下疾病的患者:Kappa2×(TP×TN-FP×FN)(TP+FP)×(FP+TN)+(TP+FN)×(FN+TN)(十一)慢性肾病和那些没有慢性肾病。表2描述了各种数据集中样本的分布情况。。乳腺癌数据集不包含缺失值,而宫颈癌和CKD数据集包含缺失值。同时,PID数据集不明确包含缺失值,但某些生物学测量值为0。这种不正确的测量可能会对ML算法产生负面影响。因此,我们使用最近邻填补来预测和替换缺失值。最近邻填补是k-最近邻算法的一种实现,是估计缺失值的有效方法[58]。该算法通过获取数据集中的附近样本并计算其平均 值 来 估 算 新 值 。 scikit-learn ML 库 包 含 用 于 实 现 最 近 邻 填 充 的KNNImputer类。由“n-neighbors”超参数设置的邻居的数量此外,委员会认为,最小κ值为-1,即,完全错误的预测,最大值为+1,即,完美的分类同时当κ0,这意味着分类器的预测类似于随机猜测[ 63 ]。准确性是评估二进制分类器性能时最常用的指标[59,64]。然而,它不是不平衡分类问题的合适度量[65],因为它主要受大多数类样本的影响。例如,在高度不平衡的医疗数据集中将所有样本预测为阴性(多数类)将给出非常高的准确性分数。但实际上,这个模型并没有学到任何关于少数群体的东西。因此,我们考虑更适合不平衡分类任务的其他度量精确度估计预测为阳性的样本中真正为阳性的部分召回率(灵敏度或真阳性率)表示正确分类的阳性示例的分数=I.D. Mienye和Y. 孙医学信息学解锁25(2021)1006906--表4在PID数据集上评估算法的性能表6评估算法在宫颈癌数据集上的性能。算法精度精度召回F-measureKappa算法精度精度召回F-measureKappaLR0.7510.6890.7100.6990.739LR0.9560.9130.8300.8700.893CS LR0.7470.7210.7980.7240.716CS LR0.9400.9420.9780.9600.914DT0.7030.6300.7110.6680.665DT0.9420.8760.9040.8900.850CS DT0.6940.6750.7860.7260.637CS DT0.9330.9180.9200.9190.831XGBoost0.7810.7100.7700.7390.774XGBoost0.9810.9780.9610.9690.969CS XGBoost0.8320.7670.8550.8100.820CS XGBoost0.9861.0001.0001.0000.982RF0.7580.7250.7100.7170.716RF0.9700.9730.9690.9710.953CS RF0.7920.7700.8400.8030.814CS RF0.9881.0001.0001.0000.989表5评估算法在乳腺癌数据集上的性能表7CKD数据集上算法性能的评估算法精度精度召回F-measureKappa算法精度精度召回F-measureKappaLR0.7420.7580.7010.7290.682LR0.9430.9500.9730.9610.930CS LR0.7540.7500.8570.8000.896CS LR0.9790.9741.0000.9870.964DT0.6440.6990.6840.6910.471DT0.9290.9460.9500.9480.910CS DT0.7160.7200.8290.7710.774CS DT0.9510.9251.0000.9610.938XGBoost0.7290.7880.7620.7750.710XGBoost0.9400.9570.9210.9390.959CS XGBoost0.7620.8040.8280.8160.834CS XGBoost0.. 9810.9731.0000.9860.974RF0.7070.7470.7540.7510.716RF0.9470.9720.9460.9600.939CS RF0.8030.8780.9000.8890.848CS RF0.9860.9901.0000.9950.983积极的。召回率是不平衡医学诊断中的一个重要指标,因为它完全取决于少数类。与此同时,查准率和查全率通常结合起来形成一个称为F-measure的单一指标,这是处理具有倾斜类分布的数据集时的另一个重要指标。F-测度是精确度和召回率的调和平均值[64]。Soleymani等人。[59]研究了用于不平衡分类的性能评估指标,重点是F-测量,这是大多数指标的首选。该研究进一步开发了一种新的F度量全局评估空间,其中分类器的性能由显示所有决策阈值的曲线表示。然后将F-测度空间得到的曲线与精确度-召回率曲线和ROC曲线进行比较,以证明它们对不平衡分类问题的适用性。Ferri等人。[61]提出了一个详细的研究和几个ML性能指标的比较。作者对18个绩效评估指标进行了实验分析,以研究它们的行为。该研究为不同的分类场景确定了合适的性能指标,包括受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)。因此,本研究中用于比较各种模型性能的其他指标是ROC曲线和AUC。AUC测量模型的能力区分消极和积极的类别[66]。因此,高AUC值表明模型在区分各种类别方面有多好。5. 结果和discision在本文实现的代价敏感算法中,误分类代价依赖于样本类别。表示负类的误分类成本,而CP表示正类的误分类成本。此外,我们利用正确分类的成本为零(CTN CTP0)的假设,因此,CN CFP和CP CFN。 此外,对于类加权,采用一般启发式,即,使用数据集中的类分布的逆。因此,对少数类的错误预测的惩罚大于对多数类的错误预测。之所以选择这种启发式,是因为它在以前的作品中改进了结果[8,10,49]。此外,第2.2节3.1 是 适应四 算法、逻辑 回归,决策 树,XGBoost和随机森林。实验使用具有以下处理器的16GB RAM Windows计算机进行:Core(TM)i5- 102100 U CPU@1.60 GHz 2.10 GHz;使用Python编程语言和scikit-learn ML库进行计算。第4节中讨论的性能评估指标用于测量分类器的性能,以及重复的交叉验证,即,使用三次重复的10倍交叉验证来评估模型。5.1. 实验结果不同分类器的准确度、精确度、召回率、F测量和Kappa评估列于表4表4显示了使用Pima Indians Diabetes数据集训练分类器时的性能。表5第一列表示给定的分类器,而各种结果从第二列到最后一列列出。这些算法的成本敏感版本包括成本敏感逻辑回归(CS LR)、成本敏感决策树(CS DT)、成本敏感XGBoost(CS XGBoost)和成本敏感随机森林(CSRF)。从实验结果来看,代价敏感分类器比代价不敏感分类器获得了更好的性能。成本敏感模型的精确度、召回率和F度量值的增加表明对少数类的预测得到了改善。对于Pima Indians Diabetes数据集,XGBoost的成本敏感版本获得了最佳性能,其次是成本敏感的随机森林。然而,对于乳腺癌、宫颈癌和CKD数据集,成本敏感的随机森林实现了最佳性能,其次是成本敏感的XGBoost。此外,据观察,在所有的数据集,决策树有成本敏感和成本不敏感的模型的性能最低。与此同时,一些对成本敏感的模型犯了更多的错误,大多数类别中的预测比其成本不敏感的模型,如从准确度值观察到的。具体而言,在表4中,逻辑回归和决策树的成本敏感版本的准确度值下降。此外,在表6中,与相应的成本敏感模型相比,标准逻辑回归和决策树具有更高的准确性。这种降低的准确度值可以归因于大多数类别中的错误预测(假阳性)[67]。从实验结果可以看出,大多数对成本敏感的算法实现κ值之间范围I.D. Mienye和Y. 孙医学信息学解锁25(2021)1006907Fig. 1. 使用PID数据集训练的各种分类器的ROC曲线。图四、使用CKD 数 据集 训 练的各种分类器的 ROC 曲 线。表8与其他糖尿病预测模型的比较。等[69]Asniar等人[69]C4.5SMOTE+SVM0.740 0.741 0.754 0.712Chatrati等人[70]SVM 0.700 0.75图二. 使用乳腺癌数据集训练的各种分类器的ROC曲线。[71]第七十一话[72]第七十二话Wei等人[73]递归规则提取算法SVM+特征选择深度神经网络–––图三. 使用宫颈癌数据集训练的各种分类器的ROC曲线。0.81-此外,只有少数成本敏感的分类器获得较低的Kappa值比其相应的成本不敏感的版本。这些分类器是CS LR和CS DTRFKNN表4中的CS DT和表6中的CS DT。此外,图。图1-4示出了分类器的ROC曲线和相应的AUC值。从ROC曲线和AUC值可以观察到,成本敏感模型在预测阳性和阴性方面更熟练,这进一步证明了成本敏感分类器相对于成本不敏感分类器的鲁棒性。最后,在表8-11中,本文中开发的性能最佳的成本敏感算法用于与其他研究工作进行比较,包括恢复技术,如SMOTE和自适应合成(ADASYN)采样方法。从表8中观察到,获得的成本敏感XGBoost参考方法AUC精度精度召回F-测量阿斯尼亚尔SMOTE+0.7920.7510.7160.8290.768赛义德和决定0.8220.7890.4640.4000.430汗森林[第七十四章]阿布德·艾尔贝叶斯0.7480.6890.6880.653–萨拉姆网等人[第七十五章]普兰托等人SMOTE+0.7600.7900.6800.8600.680[第七十六章]普兰托等人SMOTE+0.7100.7300.5700.6600.610[第七十六章]I.D. Mienye和Y. 孙医学信息学解锁25(2021)1006908表9与其他乳腺癌预测模型的比较。参考方法AUC准确度精密度召回率F-测量[77]第77话:我的世界Asniar等人[69] SMOTE+C4.5 0.730 0.705 0.726 0.655 0.689Asniar等人[69] SMOTE+朴素贝叶斯0.671 0.620 0.773 0.336 0.469Kaushik等人[78]优化SVMAljawad等人[79] SVMCahyana等人[80] ADASYN+梯度增强0.768 0.710 0.700 0.690 0.700Cahyana等人[80] SMOTE+梯度增强0.763 0.670 0.670 0.640 0.650Cahyana等人[80]边界SMOTE+梯度提升0.766 0.730 0.720 0.710 0.720本论文CSRF 0.880 0.803 0.878 0.900 0.889表10与其他宫颈癌预测模型的比较参考方法AUC准确度精密度召回率F-测量C5.0+特性选择SMOTE+RF表11与其他CKD预测模型的比较参考方法AUC准确度精密度召回率F-测量Khan等人[64]第六十四0.9720.9740.9730.973Rashed-Al-Mahfuz等人[86]第86话我的世界0.9850.9860.9740.979Ali等[34]包围学习+特征选择0.9820.9670.8430.9860.976Ebiaredoh-Mienye等人[82]第82话0.9800.9700.9700.970[87]第87话最后一句话1.0001.0001
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功