没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁24(2021)100584基于多层动态系统集成方法的心血管疾病机器学习预测Mohammed Nasir Uddin,Rajib Kumar Halder*孟加拉国达卡贾格纳特大学计算机科学与工程系A R T I C L EI N FO保留字:机器学习心血管疾病特征选择包围盒模型分类A B S T R A C T心血管疾病被定义为一组与心脏和血管疾病有关的疾病。心血管疾病的预测和诊断对于保证心血管疾病的正确治疗具有重要意义。机器学习方法通常用于自动检测大量数据中的隐藏模式,而无需人工干预。在心血管疾病的早期阶段,机器学习模型可以帮助医生做出正确的药物决策。本研究旨在开发一种智能代理来预测心血管疾病,以研究在任何不良事件发生之前应该采取什么步骤。本文提出了一种基于集成方法的多层动态系统(MLDS),可以提高其现有的知识在每一层。该模型采用相关属性评价器(CAE)、增益比属性评价器(GRAE)、信息增益属性评价器(IGAE)、Lasso和E Xtra Trees分类器(ETC)进行特征选择。最后,随机森林(RF),朴素贝叶斯(NB)和梯度提升(GB)分类器组合构建模型中分类的集成方法。当基分类器在任一层都不能正确分类时,采用K近邻(KNN)算法寻找测试数据的邻域数据点。为了测试所提出的模型的效率,我们使用了从Kaggle收集的真实数据集(70,000个实例)。基于训练数 据和测试数据的 不 同 分割 比 ( 50 :50,60 :40,70 :30,80:20和87.5:12.5)。我们提出的模型已经实现了0.94 AUC值。AUC= 0.94意味着它有94%的正确分类阳性和阴性类别的概率,而分裂比为87.5:12.5。克利夫兰、匈牙利和比利时-匈牙利-瑞士-长滩数据集也被应用于训练模型,根据这些数据集的不同分割比率,模型的准确率分别为98.88%、99.53%、99.98%、98.36%、96.66%、97.77%、99.56%和94.37%。该模型与其他五个模型进行了比较,表明该模型可以有效地预测心血管疾病。1. 介绍世界卫生组织(WHO)报告称,每年约有1790万人死于心血管疾病,其中70岁以下的人占所有过早死亡的三分之一[1]。 该报告还指出,2008年因心脏病死亡的1730万人中,约有620万人死于中风,7.3 100万人死于冠心病。世卫组织预测,到2030年,约有2360万人将死于心脏病和中风相关疾病[2]。心血管疾病表现出一系列症状,包括胸闷、胸闷、胸部不适(心绞痛)、胸部疼痛、呼吸急促、麻木、虚弱或腿部或手臂发冷,如果血液中血管在身体的这些部位收缩。这种疾病的其他症状然而,心血管疾病的主要原因是年龄、吸烟、糖、肥胖、抑郁、高血压、高血压、胆固醇、不良饮食和缺乏身体活动[3]。心血管疾病也是由冠状动脉损伤、整个或部分心脏受损或心脏营养和氧气供应不足引起的心血管疾病有几种类型,如冠心病、中风、高血压性心脏病、炎症性心脏病、风湿性心脏病等。[4]的文件。某些类型的心血管疾病,如肥厚型心肌病、扩张型心肌病、右心室肥厚性心肌病是遗传性的。* 通讯作者。电子邮件地址:gmail.com(R.K.Halder)。https://doi.org/10.1016/j.imu.2021.100584接收日期:2021年2月1日;接收日期:2021年4月20日;接受日期:2021年4月21日2021年5月5日网上发售2352-9148/©2021的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuM.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005842监测患者的心血管症状对于寻求医疗保健专业人员的医疗建议是必要如果心血管疾病在早期阶段被诊断出来,则可能会降低因这种疾病而死亡的风险。然而,由于医疗数据中的冗余、多属性、不完整性以及与时间的密切关联,手动分析症状是困难的。此外,在手动分析大量心脏病相关数据之后适当地给患者用药是一个重大挑战。为了解决这个问题,机器学习(ML)技术有助于创建预测模型,这些模型可以处理和分析大量复杂的医疗数据,并以更高的准确度预测患者是否存在心血管疾病。在ML方法中,计算机程序被训练来执行特定的任务,以从以前的经验中学习,并根据训练数据预测测试数据的结果[5]。机器学习技术使机器能够在提供看不见的数据时基于内置的分析模型做出正确的机器学习技术花费相对较少的时间进行准确的预测。因此,基于ML的智能心血管疾病预测系统可以帮助医疗从业者做出更快的决策,使他们能够在短时间内为许多患者提供医疗服务;因此ML模型可能挽救数百万人的生命。机器学习技术已经取得了显著的进步,基于分类的问题的精确度[6]。信息抽象已经使用各种机器学习技术实现,包括特征选择,分类和聚类[7,8]。最新的研究使用机器学习算法来预测心血管疾病。Javeed等人[9]提出了随机搜索算法(RSA)和随机森林优化模型,以提高心血管疾病的诊断。该模型采用RSA算法进行特征选择,并对随机森林分类器进行改进,以实现对心脏病的准确预测/分类。这些数据来自UCI机器学习库。数据集中的实例总数为303。其中297个具有关于属性的完整信息,而缺少6个实例的细节。然而,这项研究工作的局限性是,没有使用智能技术来选择的功能在这项工作中的子集RSA算法生成完全随机的位置。假设在数据集中有N个特征,并且基于RSA的特征选择技术生成总共N-1个特征子集以实现最佳精度。这是耗时的,由于不确定性的特征的子集,该模型可以提供最佳的准确性。Karen等人[10]提出了心脏病的分类模型预测.使用卡方特征选择技术选择特征,然后应用主成分分析(PCA)他们使用六个分类器进行分类任务。他们进行了四种类型的实验:i)用所有六个分类器对原始数据进行分类,ii)应用卡方特征选择技术来获得有效特征并用分类器验证特征,iii)使用通过卡方获得的缩减数据集,然后在分类之前应用PCA,以及iv)最后的实验是直接使用原始数据的PCA。他们在这个实验中使用了Cleve- land(283个实例),Hungarian(294个实例)和Edeland-Hungarian(577个实例)数据集该研究工作的局限性在于,在实际应用中很难确定需要保留多少个主成分,因为数据集的原始特征因此,在主成分的选择过程中,与原始特征列表相比,它有可能遗漏一些信息。Amin Ul等人[8]提出了一种用于预处理的诊断心脏病研究人员使用了三种特征选择算法(Relief、mRMR和LASSO)、K折交叉验证方法和七种分类器(LR、K-NN、ANN、SVM(核RBF和核线性)、NB、DT和RF)。他们根据从各种特征选择算法中提取的特征记录了不同分类器的准确性。 为了进行这个实验,他们使用克利夫兰图2是从UCI机器学习存储库收集的(303个实例)数据集,其中297个实例具有完整的属性信息,而6X个实例具有缺失的细节。该模型的缺点是训练算法必须从头开始k次。因此,大型数据集不适合此框架,因为它需要更多的时间来完成单个计算任务。Domor等人[11]提出了一种改进的集成学习方法来预测心脏病的风险。该模型使用基于均值的分割技术将整个数据集划分为更小的子集,并应用分类和回归树(CART)算法对每个分区进行分类。一个基于精度的加权老化集成(WAE)是用来产生一个同质的合奏从不同的CART模型。在这项研究工作中,作者使用了两个心脏病数据集,克利夫兰数据集(303个实例)和Fracket数据集(4238个实例)。本研究工作的局限性在于没有采用优化算法为模型选择有效的属性。该系统不能处理噪声数据,并且有机会创建噪声决策树。Louridi等人[12]提出了一种机器学习模型来识别心血管疾病,使用303条记录,13个属性。他们使用支持向量机(SVM),KNN(K最近邻),贝叶斯Naif(BN)进行分类,并发现SVM线性核的准确率最高为86.8%。本研究工作的局限性在于研究者只在预处理单元中处理了缺失值,而特征选择在提高准确率和减少执行时间方面起着至关重要的作用。它有助于选择对目标值有重大影响的有效特征。Xiao-Yan等人。[13]提出了一种基于集成方法的心脏病预测模型,使用从Kaggle收集的1025个实例和13个独立属性。两个特征选择算法(线性判别分析,主成分分析)被用来选择有效的功能。在该模型中,KNN,SVM,DT,RF,NB被用来构建集成方法。两种提升和装袋技术来分类心脏病。他们提出的模型在使用决策树的Bagging集成学习方法中获得了98.6%的最高准确率。这项研究工作的局限性是:i)在训练阶段的时间复杂度高,ii)该系统有可能错过一些信息相比,在主成分的选择过程中的原始列表的功能。A.Geetha等人[14]提出了心血管疾病的预测模型使用机器学习方法。他们使用了从UCI机器学习库收集的克利夫兰(303例)心脏病数据集。采用KNN算法对心脏病进行分类。该模型获得了最高的87%的准确率。本研究工作的局限性是:i)没有在该模型中使用的特征选择算法。作者手动选择有效特征。该模型不适用于包含大量属性的数据集。ii)在该模型中,使用单个分类器进行决策,但基于多个分类器进行决策比单个分类器更好。上述现有模型均为单层过滤系统。这些模型无法从它们的资源中扩展它们现有的知识.我们提出了一个多层次的动态系统,可以继续从一层到另一层的分类过程,通过增强其知识,以获得最佳的结果。三个传统的方法来建立MLDS:特征选择,集成技术,分类器分类。特征选择在数据降维中起着重要的作用特征选择对于分类是必要的,因为不相关的特征经常影响分类器的性能。特征选择提高了分类器的准确性,并减少了模型两种特征选择方法被广泛使用,其中一种是过滤器方法,另一种是包装器方法[15]。在过滤器系统中,特征通过基于其得分的各种统计测试来选择,其通过特征与因变量或目标变量的相关性来计算特征的显著性。包装器方法通过评估M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005843=具有因变量的特征子集[16]。在这项工作中,我们应用了五种特征选择算法:相关属性评估器(CAE),增益比属性评估器(GRAE),信 息 增 益 属 性 评 估 器 ( IGAE ) , Lasso , EX tra Trees 分 类 器(ETC)。这些特征选择技术在第2节中描述。在集成学习中,同时训练多个分类器,并且以不同的方式整合来自这些分类器的输出。这种整合旨在补充限制并利用不同的机制。集成学习方法的使用,以提高鲁棒性,准确性,更好的泛化能力和降低错误率。一个集成方法是建立在两个阶段。在初始阶段,所有的基本学习者都被训练,而这些学习者中的每一个都是同时产生的,并且一个学习者的产生会对另一个学习者产生影响在接下来的阶段中,来自这些基本学习者的决策以不同的方式聚合:装袋,提升,堆叠,投票等。有两种投票方案-硬投票和软投票[17]。在硬投票中,每个分类器单独为一个类进行投票,并且具有大多数这些投票的目标类(这是分配模式)被接受。在软投票中,每个分类器定义每个数据点上特定目标类的概率值。具有最大概率和的目标标签被接受[18]。分类算法用于预测目标类,其中预定义标签通过属性分配给实例。监督学习技术用于分类:训练集→分类算法→未知数据→预测结果。这项研究工作的目标是:1. 开发一个智能代理来预测心血管疾病,其中学习知识从一层流到另一层,从而提高模型的性能。2. 使用多特征选择技术从数据集中识别有价值的特征,以提高分类精度。3. 选择训练数据和测试数据之间的最佳比例,以分析预测精度。本研究工作对实现这些目标的重大贡献概述如下:1. 在MLDS中,我们介绍了将学习知识从一层传递到另一层的过程。我们已经实现了一个模型,它可以从它的前一层增强它的学习知识(MLDS在每一层的分类性能在第3节中给出)。2. 我们应用了三种分类算法来实现每一层的集成方法,以提高预测效率并找到最佳结果,此外还将学习知识从一层移动到另一层。3. 我们使用多种特征选择技术来选择有效的本文件的其余部分安排如下:在第二节中,我们详细介绍了方法。在第三节中,我们描述了本文中使用的评估,验证方法和不同的实验。第四部分是基于实验结果对MLDS的讨论第五节和第六节以结论和特色工作结束。2. 方法一个真实的数据集,包括70000记录与11个独立的功能从Kaggle获得已在这项研究中使用。这些数据是在医疗检查和患者提供信息时收集的表1显示了该数据集所有特征的详细信息以及一些必要的统计计算。在数据预处理部分,性别列已从cate-数字化的词,即,gender= 1表示女性,而不是性别2表示男性而不是“m”。病人的年龄已从几天换算成一岁。缺失值处理是数据分析的重要组成部分,因为数据集中的属性提供有价值的信息。如果缺少任何值,就会影响决策。我们使用is null()函数来检测缺失值。有一些重要的函数可以处理缺失值:dropna()函数用于删除缺失值,fillna()函数用于使用指定的方法填充NA/ NaN值。使用DBSCAN算法去除异常值。然后,采用相关属性评价器、增益比属性评价器、信息增益属性评价器、Lasso和E-X transTree分类器进行特征选择,以提高分类精度,减少分类搜索时间。我们选择了那些常见的在一个固定的范围内,在最高数量的算法中的五个特征选择算法。为了选择训练数据和测试数据之间的良好比例,我们使用了“训练-测试-分割”方法将整个数据集划分为多个比例,并将建议的MLDS应用于每个比例,并测试哪个比例给我们带来了最好的结果(详细信息见第3节)。我们将整个数据集分为五个分区:50:50(70000个训练和35000个测试),60:40(70000个训练和28000个测试),70:30(70000个(70000人中有49000人接受培训,21000人接受测试),80:20(56000人接受培训和70000中的14000次测试)和87.5:12.5(70000中的61250次培训和8750次测试)。最后,三个分类器,随机森林(RF),朴素贝叶斯(NB)和梯度提升(GB),已被应用于执行分类。层到层的预测过程发生在该模型中。在每一层中,三个分类器对相同的测试进行表1Kaggle心血管疾病数据集属性描述与一些统计计算。以及class属性的有用特性。我们选择了那些在最大范围内固定范围序列号变量描述五种特征选择算法中的一些算法(详细信息见第3节)。4. 在所提出的模型中,使用了一个更大的公开访问数据集(Kaggle心血管数据集(70,000个实例))来训练模型。与现有研究相比,该模型表现出更好的性能,因为少量记录和单个数据集并不总是足以测试模型的效率。我们还将其他现有研究工作中使用的数据集应用于我们的提出的模型,并比较我们提出的模型性能1年龄区间(天);最小值:10798,最大值:23713,平均值:19468.866,标准差:2467.2522高度-int(cm);最小值:55,最大值:250,平均值:164.359,标准差:8.213重量浮动(kg);最小值:10,最大值:200,平均值:74.206,标准差:14.3964性别分类代码;(f=女性,m=男性)5 ap_hi-int;最小值:-150,最大值:16020,平均值:128.817,标准差:154.0116 ap_lo-int;最小值:-70,最大值:11000,平均值:96.63,标准差:188.4737胆固醇;(1=正常,2=高于正常,3=远高于正常)8gluc;(1=正常,2=高于正常,3=远高于正常)9吸烟-二元;(1=吸烟者,0=非吸烟者)与现有的模型。 与其他产品10二元醇;(1=是,0=否)11active-二进制;(active= 1,inactive= 0)系统在第3节中给出。5. 我们将整个数据集(70000个实例)分为五个分区(50:50,60:40,70:30,80:20,87.5:12.5),并应用这些分区中的每一个来测量预测准确度(详细信息见第3节)。目标-二元;(1=存在=1,0=不存在心血管疾病)M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005844+图1.一、 提出多层动态系统(MLDS)预测心血管疾病。基于相同的训练数据集。比其他分类器分类更正确的分类器被接受以报告其对于相关层的准确性。在完成每一层的分类其中i =层数; i =1,2,3,...,n.当随机森林(RF)=0,朴素贝叶斯(NB)=0,梯度提升(GB)=0,KNN= 0时基于与预定义目标的比较的分类数据(TP+ TN)∑n(TP,TN)=原始Kaggle数据集中的值被添加到以前的训练数据中,进入下一层。错误分类的数据(FP FN)将也作为新的测试数据参与下一次迭代这个过程直到三个分类器当所有三个分类器都无法分类时,总准确度i=1测试数据2.1. 随机森林(RF)(一个)正确地,所提出的模型试图找到最佳的最近邻域数据点,利用K近邻(KNN)算法。这种方法被称为多层动态系统(MLDS)。这些步骤如图1所示。MLDS的总准确度可使用以下公式计算:第i层列车数:第i-1层列车数+第i-1层TP、TN数层i中的测试数据:层(i-1)中FP、FN的数量随机森林是涉及决策树集合的集成方法的一个示例。在随机森林算法中,随机抽取样本,并为随机样本构建决策树,然后重复该过程[19]。它通过以下步骤来避免缺失值和离群值:数据分析和数据预处理,并纠正其训练数据集的过拟合[20]。该集成分类器结合了多个决策树,以获得最佳结果。决策树主要应用bootstrap聚合或bagging [21]。例如是给定数据, X ={x1,x2.... xn}的响应M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005845B∑1=()n=b=1B-1nY={x1,x2....................... xn},其重复从b= 1到B的装袋不可见样本x′是通过对预测∑fb(x′)求平均而得到的2.4. K最近邻KNN是一种有监督的机器学习算法。它用于两个从x ′上的每一棵树 :b=1分类与回归特征相似性用于预测新数据点的值。欧几里得或曼哈顿或汉明Bj fb x′(2)Bb=1树的预测的不确定性是通过其标准差来确定的:√√ √̅∑B̅(f̅b(̅ x̅ ′)̅-̂ f̅)2̅方法用于计算测试数据和每行训练数据之间的距离。通常,为了找到相似性,它与距离一起工作[12]。2.2. 朴素贝叶斯(NB)朴素贝叶斯分类器或贝叶斯定理是用于预测目标类的另一种分类技术。它取决于其计算中的概率[22,23]。根据贝叶斯理论,每个数量都有一个统计分布,通过这个分布可以对测试样本进行分类。它基本上遵循词袋(BOW)特征提取,以消除文档中的单词位置,并且不考虑属性之间的相关性[24,25]。例如,数据D的每个实例被分配给最高后续概率的类能力该模型通过高斯函数进行训练,先验概率P(Xf)=priority ∈(0:1)五种特征选择算法的描述(相关属性求值器、增益比属性求值器、信息增益属性求值器、Lasso):i. 信息增益属性评估器:它是一种基于过滤器的特征选择方法。对于每个属性Ai,属性和类别Y之间的信息增益由等式[28]确定P(Xf1,Xf1,,Xfn<$c)=...................................................i=1P.Xfic)IG i=H(Y)-H(Y|A i)(5)这里H(Y)是类Y的熵。熵是一个数学函数,对应于信息量所包含或传递的P. X(f)=P.ciXf)P.Xf)(四)信息来源[28]:P(Ci)∈HY∑Pvlogpv(六)C{begin,malignant}最后,根据故障概率对测试数据进行分类,()=-y∈Y(一)2 (一)协会:cnb=argmaxP(ck)P。Xfick),对于k=1,2i=12.3. 梯度增强(GB)ii. 增益比属性赋值器:增益比用于惩罚节点增殖。当数据均匀分布且所有数据都属于一个分支时,这一点很重要[28]。为了完全满足这一目标,增益比通过将预测属性的信息增益除以观察属性的熵来评估特征,如由等式给出的:对于回归和分类问题,使用梯度提升机器学习方法。以在逐阶段过程中构造的决策树的集合的形式,它可以生成GRIGH(Y)(七)预测模型[26]。在梯度提升中,通常使用决策树梯度提升的主要优点是在每次计算中减少可以降低残差梯度方向,以创建新模型来降低残差[27]。在boosting中,每个新树都是原始数据集的修改版本的拟合。iii. 相关属性评估器:通过测量属性与类之间的相关性(Pearson's)来评估属性的价值。名义属性是在逐个值的基础上考虑的,将每个值视为一个指标。通过加权平均值[29]得出标称属性的总体相关性。相关属性评估器、增益比属性评估器、信息增益属性评估器的能力类属性-二进制属性、日期属性、空名义属性、缺失值、名义属性、数值属性、一元属性。最小实例数:1.iv. Lasso:最小绝对收缩和选择运算符从特征子集中消除零特征通过更新特征系数的绝对值,Lasso选择特征。具有高系数值的特征将被包括在所选择的特征子集中。LASSO在低系数特征值的情况下表现出色[8]。σ=(三M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005846TP+FPTP+FNTN+FP=v. EX tra Trees分类器:它从训练数据集中产生大量未经修剪的决策树。在回归的情况下,预测是通过整合决策树的预测或在分类的情况下的多数投票来进行的。每棵树都提供了一个随机样本的K个特征,每个决策树必须从中选择最好的功能。3. 结果分析我们选择年龄、胆固醇、体重、gluc、ap_lo、ap_hi作为中风、心脏病发作和肾衰竭[36]。性能矩阵用于衡量机器学习模型的性能。“scikit-learn“库的MatriX该模型的性能计算的帮助下的混淆矩阵X。从混淆矩阵中生成四个结果,即TP(真阳性)、TN(真阴性)、FP(假阳性)和FN(假阴性),用于不同比例的数据集(分别为50:50、60:40、70:30、80:20、87.5:12.5)。[16813 680]][13429 510[10106 369][6707 260][4262 123]有效的特征,因为这些六个特征在四种算法中从序列1到序列6是共同的(相关属性评估器、增益比属性评估器、增益比属性评估器和增益比属性评估器)。3224 142832446 116151402 9123758 6275388 3977Bute Evaluator 、 Information Gain Attribute Evaluator 、 Lasso ) 。年龄、胆固醇、体重、血糖、aplo、aphi对心血管疾病的影响。年龄:65岁及以上的成年人比年轻人更容易患心血管疾病。衰老会导致心脏和血管的变化,这可能会增加心血管疾病的风险。以下公式用于计算准确度、精密度、真阳性率、假阳性率、真阴性率、假阴性率:TN+TP(8)TN+TP+FN+FP一个人的病[30]胆固醇含量:如果我们的血液中有如此多的胆固醇,它就会在动脉壁中堆积,激活一种叫做动脉粥样硬化的机制,这是一种心脏病。动脉减少,流向心脏肌肉的血液减慢或阻塞[31]。gluc:糖尿病引起的高血糖会损害血管,珍贵=TP真阳性率= TPFP(九)(十)控制心脏和血管的神经糖尿病的发病时间越长,患心脏病的风险就越大[32]。ap_hi:通过使血管更加僵硬并破坏内层,高血压会损害血管。受损的衬里增加了脂肪沉积的风险,阻止了血液的流动。由于血管阻力,心脏必须更加努力地工作,以充分为身体提供富含氧气的血液[33]。体重:在几个方面,肥胖导致心力衰竭。更多的身体脂肪有助于更高的血流量,这使得心脏更难泵出所有多余的液体。多年来,这会导致心脏结构和功能的破坏性变化,最终可能导致心力衰竭[34]。高血压和左心室扩大(左心室肥大)也与体重超重有关,增加心力衰竭的风险[35]。ap_lo:低血压会导致身体器官的血流不足,假阳性率=FP+TN(11)真阴性率=中文(简体)假阴性率=1-TPR(13)ROC曲线显示了分类模型在所有分类阈值下的性能。ROC是一条概率曲线。用TPR对FPR绘制ROC曲线,其中TPR在y轴上,FPR在x轴上。不同比例数据集(分别为50:50、60:40、70:30、80:20、87.5:12.5)的ROC曲线见图2。 蓝色虚线是ROC曲线,它绘制了所有分类阈值下的(X,y)(FPR,TPR)点。顶部和左侧的ROC曲线是更好的模型,这意味着所提出的模型更好地进行分类表2使用五种特征选择算法的排序特征图相关属性评估器增益比属性赋值器信息增益属性评估器Lasso(使用PythonEX tra Trees分类器(使用(使用weka)(使用weka)(使用weka)图书馆)python库)0.23816年龄0.072691 ap_hi0.170065 ap_hi0.014558年龄0.290111年龄0.22115胆固醇0.054584 ap_lo0.106194 ap_lo0.005504重量0.177682 ap_hi0.18166重量0.034366胆固醇0.044944年龄0.000142 ap_lo0.176635重量0.08931 gluc0.01393年龄0.036573胆固醇0.000141 ap_hi0.171074高度0.06572 ap_lo0.008123重量0.025608重量0胆固醇0.109448 ap_lo0.05448 ap_hi0.008007 gluc0.006092 gluc0 gluc0.045414胆固醇0.03565活性0.001284活性0.000918活性- 0支烟0.011002 gluc0.01549烟雾0.000519高度0.000332高度- 0酒精0.005456性别0.01082高度0.000402烟雾0.000173烟雾- 0活跃0.004683活性0.00811性别0酒精0酒精- 0性别0.004346酒精0.00733酒精0性别0性别- 0.00104高度0.004143烟雾准确度=M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005847图二. 提出的模型的ROC曲线和AUC:(a)50:50,(b)60:40,(c)70:30,(d)80:20,(e)87.5:12.5。M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005848=测试数据集,将其与另一个提议的模型进行比较。AUC表示可分性的程度或度量。AUC测量整个ROC曲线下方从(0,0)到(1,1)的整个二维区域(就像积分一样)。具有较高AUC的模型有更好的机会将0s预测为0s,将1s预测为1s。一个优秀的分类器具有接近1的AUC,这意味着它具有良好的可分性度量。从图2(e)中,我们可以看到,当数据集被划分为87.5:12.5的比例时,所提出的MLDS的AUC值最大。AUC值为0.94,意味着拟定MLDS能够正确区分心血管疾病预测的不存在或存在类别的概率为94%。橙色虚线表示该拟定模型的AUC。这个建议的MLDS比另一个模型更好,因为它的AUC 0.94接近1。与其他机器学习算法的分类性能的建议MLDS进行了比较。相同的训练数据集已用于训练XGBoost( XGB ) 、 线 性 回 归 ( LR ) 、 支 持 向 量 机 ( SVM ) 、 K 最 近 邻(KNN)、决策树(DT)分类模型。我们建议的MLDS的性能进行了比较,其他现有的基于测试划分的分类算法如表3所示,其图形表示如图3和4所示。3和4我们提出的MLDS的评估已经用混淆矩阵进行了,并与其他分类算法的基于测试分区的混淆矩阵进行了比较它的图形表示示于图1和图2中。 5和6.在图5中,黄色条表示基于测试集的不同分区的测试数据集中实际真阴性的总数,绿色条表示建议的MLDS识别的真阴性(TN),洋红色条表示假阴性。表3通过拟定MLDS鉴定为阳性(FP)。在图6中,黄色条表示基于测试集的不同分区的测试数据集中实际真阳性的总数,绿色条表示由建议的MLDS识别的真阳性(TP),而洋红色条表示由建议的MLDS识别的假阴性(FN)。基于Kaggle心血管疾病数据集的不同分割比,MLDS在每一层中的分类性能如表5-9所示为了检查我们提出的MLDS的效率,我们还实现了其他作者三个不同的数据集克利夫兰(303例),匈牙利(294例),和CHSL(1025例),也被用于这项研究工作。前两个数据集是从UCI机器学习存储库中收集的,第三个数据集是从Kaggle中收集的。这两个数据集的所有属性描述见表11。其他研究人员通常使用这两个数据集。我们将这些数据集应用于我们提出的MLDS,测试了准确性,并将其与其他作者的系统进行了4. 讨论多层动态预测系统的使用增加了预测的准确性。我们的研究工作发现,一层正确分类的数据可以用作下一层的新训练集。在这种情况下,这个训练集可以从错误分类的数据中提取新的隐藏模式。也就是说,准确分类的层数据有助于为模型提供新的知识。当一个大的数据集,基于测试分区的建议(MLDS),XGB,LR,SVM,KNN,DT的性能评估指标结果模型名称参数(%)训练和测试数据集比率五五开六十比四十七十点半八点二十分八十七点五比十二点五拟定MLDS准确度88.8489.4491.5692.7294.16精度95.4595.7996.1196.0297TPR81.5882.6086.6789.2291.11FPR3.883.653.523.732.80TNR96.1196.3496.4796.2697.19XGB FNR18.4117.3913.3210.778.88精度73.6673.6273.7073.5273.87精度76.1376.1376.1875.8375.72TPR68.9769.1669.1469.4070.10FPR21.6321.8721.7122.3122.37TNR78.3678.1278.2877.6877.62LR FNR31.0230.8330.8530.5929.89精度70.5670.7070.5470.771.10精度72.1672.6172.3472.3272.26TPR67.0066.8866.7467.5168.29FPR25.8625.4325.6426.0826.08TNR74.1374.5674.3573.9173.91SVM FNR32.9933.1133.2532.4831.70精度71.9772.0172.0972.4672.88精度77.3377.5377.4077.4777.55TPR62.2062.3262.5863.7164.21FPR18.2418.2118.3518.7018.49TNR81.7581.7881.6481.2981.50KNN FNR37.7937.6737.4136.2835.78精度68.9268.8769.1569.2269.23精度69.7269.8670.0170.1269.62TPR66.9466.8867.2567.5167.99FPR29.0929.1028.9329.0329.53TNR70.9070.8971.0670.9670.46DT FNR33.0533.1132.7432.4832.00精度62.8463.5363.1463.1463.37精度62.8663.6963.3963.3063.10TPR62.8363.6762.6463.3463.98FPR37.1436.6036.3437.0637.24TNR62.8563.3963.6562.9362.75FNR37.1636.3237.3536.6536.01M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)1005849图3.第三章。准确度、TPR、精密度的结果比较:(a)50:50,(b)60:40,(c)70:30,(d)80:20,(e)87.5:12.5。M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)10058410图四、FPR、TNR、FNR结果比较:(a)50:50,(b)60:40,(c)70:30,(d)80:20,(e)87.5:12.5。M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)10058411表4基于测试划分的建议(MLDS),XGB,LR,SVM,KNN,DT的混淆矩阵结果型号名称分流比参数TPFNTNFP建议MLDS 50:5014283/17507322416813/17493680六十比四十11615/14061244613429/13939510七十点半9123/10525140210106/10475369八点二十分6275/70337586707/6967260XGB 87.5:12.53977/43653884262/4385125五五开12075/17507543213709/174933784六十比四十9725/14061433610890/139393049七十点半7278/1052532478200/104752275八点二十分4881/703321525412/69671555LR 87.5:12.53060/436513053404/4385981五五开11731/17507577612968/174934525六十比四十9404/14061465710393/139393546七十点半7025/1052535007789/104752686八点二十分4748/703322855150/69671817SVM 87.5:12.52981/436513843241/43851144五五开10890/17507661714302/174933191六十比四十8763/14061529811400/139392539七十点半6587/1052539388552/104751923八点二十分4481/703325525664/69671303KNN 87.5:12.52803/436515623574/4385811五五开11720/17507578712403/174935090六十比四十9404/1406146579882/139394057七十点半7079/1052534467444/104753031八点二十分4748/703322854944/69672023DT 87.5:12.52968/436513973090/43851295五五开11000/17507650710996/174936497六十比四十8954/1406151078836/139395103七十点半6593/1052539326668/104753807八点二十分4455/703325784385/69672582八十七点五比十二点五2793/436515722752/43851633TP=准确识别的心血管疾病患者总数TN=准确识别的未受心血管疾病影响的人的总数。FP=未受心血管疾病影响的被错误识别的人的总数。FN=被错误识别的心血管疾病患者总数M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)10058412图五. TN、FP比较:(a)50:50,(b)60:40,(c)70:30,(d)80:20,(e)87.5:12.5。M.N. Uddin和R.K. 哈尔德医学信息学解锁24(2021)10058413见图6。 TP、FN的比较:(a)50:50,(b)60:40,(c)70:30,(d)80:20,(e)87.5:12.5。M.N. Uddin和R.K. 哈尔德医学信息学解锁24(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功