没有合适的资源?快使用搜索试试~ 我知道了~
心脏病风险预测的改进集成学习方法
医学信息学解锁20(2020)100402一种改进的集成学习方法用于心脏病风险预测Ibomoiye Domor Mienyea,*,孙艳霞,教授a,王增辉,教授 ba南非约翰内斯堡约翰内斯堡大学电气和电子工程科学系,2006年b南非佛罗里达大学电气和采矿工程系,南非,1709年。A R T I C L EI N FO保留字:推车数据分区Enhancementlearning心脏病机器学习A B S T R A C T心脏病是全球死亡的主要原因,早期发现对预防疾病进展至关重要。本文提出了一种改进的机器学习方法用于心脏病风险的预测。该技术涉及使用基于均值的分裂方法将数据集随机划分为较小的子集。然后使用分类和回归树(CART)对各个分区进行建模。然后使用基于准确度的加权老化分类器集成从不同的CART模型创建同质集成,该集成是加权老化分类器集成(WAE)的修改。该方法可确保实现最佳性能。在克利夫兰和Fracket数据集上的实验结果分别达到了93%和91%的分类准确率,优于其他机器学习算法和类似的学术著作。接收机工作特性曲线进一步验证了所提出的集成学习方法的改进性能。结果表明,该集成可以有效地预测心脏病的风险。1. 介绍世界卫生组织(WHO)将心血管疾病(CVD)描述为全球死亡的主要原因。冠心病是一种CVD,占CVD死亡的五分之四[1]。识别有心脏病风险的人并确保他们接受适当的治疗可以防止这些死亡。除了传统的医疗诊断方法外,还有几种计算技术,包括用于识别风险人群的机器学习。与此同时,研究人员已经使用可用的心脏病风险数据集建立了几个机器学习模型,并获得了不同的性能[2基于机器学习的方法已经在医学科学的许多领域中被采用。然而,研究人员一直在寻找优化和改进这些方法的方法。包围学习就是一种被证明可以增强机器学习任务的方法[7]。集成分类器是一组单独的分类器以及一种机制,例如组合组件预测的多数投票。研究表明,集成分类器通常比传统分类器性能更好[8]。 同质集成学习由具有单个基学习器或算法同时,成员可能在结构上有所不同。而异构集成则由具有不同基学习器的成员组成。受心脏病风险预测的几种机器学习方法的发展的启发,为了提高分类性能,我们提出了一种同质集成学习方法。所提出的方法涉及使用基于均值的分裂方法将数据集随机划分为较小的子集,并应用分类和回归树(CART)算法对每个分区进行建模。然后使用基于准确度的加权老化分类器集成(AB-WAE)来创建均匀集成,AB-WAE是加权老化分类器集成(WAE)的修改。由此产生的合奏产生一个强大的模型预测心脏病的风险。所提出的方法不同于随机决策森林[9],因为后者构建多个决策树并输出作为回归任务的个体树的平均预测或分类任务的类的模式的类,所提出的方法通过使用基于平均值的分裂方法将数据集划分为小子集来为了有效地评估所提出的方法的性能,克利夫兰和弗雷明汉心脏疾病数据集是采用 一* 通讯作者。电子邮件地址:ibomoiyem@uj.ac.za(I.D.Mienye)。https://doi.org/10.1016/j.imu.2020.100402接收日期:2020年6月3日;接收日期:2020年7月11日;接受日期:2020年2020年7月23日在线提供2352-9148/©2020的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuI.D. Mienye等人医学信息学解锁20(2020)1004022=-=()≤()下一页∑1-p联系我们一⎡⎤我阿克斯⎦然后与近期的一些学术著作N N进行了比较研究以及其他著名的机器学习算法,包括k-最近xj=1∑w我我近邻法(KNN),逻辑回归(LR),线性判别分析(LDA)支持向量机(SVM),分类回归树Ni=1我i=1(CART),梯度增强和随机森林。本文的其余部分组织如下。第2节讨论了集成学习的一些方法。第3节介绍了所提出的方法。数据集和性能指标的简要概述见第4节,结果和讨论见第5节。第六节是论文的总结。2. 相关作品本节讨论一些集成学习方法。执行分类的机器学习算法广泛用于不同领域。 因此,研究人员不断地制定新的技术,以提高分类性能。 其中一项技术-具有高权重的数据元素比具有低权重的数据元素对加权平均值的贡献更大。从(3)可以看出,权重不可能为负,尽管有些权重可能为零。对于所提出的数据划分算法的开发,引入了随机化,即,在每次划分时,算法从变量集合{1,2,...,p}中随机抽取。这种随机化可以产生任意数量的树,并且可以最小化方差并提高性能[17,18]。将原始数据集D视为根节点,它表示整个总体或样本,可以将其拆分为不同的齐次集。从变量集中随机选择一个数据点,{1,2,..,p},称之为j。该数据点在集合中被替换以供进一步选择。使用基于均值的划分规则将D划分为两个分区:nique是集成学习,可以是同质的,也可以是异质的。早期DD11,如果xijP则ω(Psii)=Pa(Psii)yi表示数据集的因变量,其中yi∈ {0,(2)Pa(i)(七)1}。考虑不同实例或行的一个自变量x1jx2ji)=其中,Pa表示集合中分类器的平均准确度xj=x3j(二)- 是的总体预测的最终结果如下:变量xj的加权平均值计算如下:⋮NJ=.I.D. Mienye等人医学信息学解锁20(2020)100402表13∑(8)ωF X∑==-==数据集准确度(%)精密度(%)灵敏度(%)F1评分(%)弗雷明汉91929091克利夫兰93969193该方法在两个基准数据集上的性能。表2各种方法在Fragrance数据集上的性能Fig. 1. 建议的方法。i(x)=i ifTmaxω(ωt)Ft(i)(x)= maxTmax(t)t(j)()t=1j∈{1, 2,.,J } t = 1这种集成方法的工作原理是,表3各种方法在克利夫兰数据集上的性能分类器取决于分类器精度和在集合中花费的时间当分类器的权重低于指定的阈值时,则将该分类器从集成中移除[21]。使用精度作为优化标准,确保集成达到最佳结果。所提出的方法如图1所示。4. 数据集和性能指标在本文中,使用了两个心脏病数据集,从加州大学欧文分校(UCI)存储库获得的克利夫兰数据集[22]和从Kaggle网站获得的Fracket数据集[23]。前者包含303个实例和14个属性,后者包含4238个实例和16个属性。Fragrance数据集包含缺失的属性,它经过预处理,使其适合机器学习。这两个数据集都包括人口统计和健康记录,如年龄,性别,胆固醇水平,血压,酒精摄入量,糖尿病等。对于我们的实验,使用70-到 充分评估 的 性能 的 所提出的方法,使用各种性能指标,包括准确度、精密度、灵敏度和F1分数。准确度是正确分类的比率,精确度是正确的阳性预测与预测的阳性结果数量的比率。同时,灵敏度只是准确的阳性预测数量与实际阳性实例总数的比值,F得分是精度和灵敏度之间的调和平均值。这些性能指标的数学表示为:算法精度精度灵敏度F1分数(%)(%)(%)(%)KNN60615958LR78797878LDA78807979SVM79807979推车68696868GB81798481RF83818784该方法93969193真阴性的数量、假阳性的数量和假阴性的数量。5. 结果和讨论在本节中,进行了两种类型的实验,以评估所提出的方法的有效性。首先,使用两个心脏病基准数据集,即Fracket和Cleveland数据集对所提出的方法进行了仿真。对于实验,我们使用Hmax3,Nmin40,Tmax20, 作为 他们 给 更好 结果与其他随机组合模拟。其次,为了比较我们的方法与其他机器学习方法的性能,我们在两个数据集上使用不同的知名算法进行了另一组实验。所有计算都是在具有以下规格的计算机上进行的:Intel Core i5- 6300 U,2.40 GHz和16 GB RAM。Python开发环境用于实验。表1显示了所提出的方法在两个数据集上的测试性能。分类精度TP+TNTP+TN+FP+FN精度TPTP+FPTP(九)(十)5.1. 与其他机器学习方法为了验证该方法的有效性,与其他知名的机器学习方法进行了比较研究。这些方法包括k-最近邻(KNN),逻辑回归(LR),灵敏度=TP+FN(11)线性判别分析(LDA)、支持向量机(SVM)、分类和回归树(CART)、梯度提升(GB),以及F1=2*精密度*灵敏度=2TP(十二)随机森林(RF)。表2和表3总结了本发明实施例的测试结果精密度+灵敏度2TP+FP+FN分别在Fragile和Cleveland数据集上使用各种方法。其中TP、TN、FP和FN表示真阳性的数量,从表2和表3中可以看出,所提出的方法在Fragile和Cleveland算法精度精度灵敏度F1分数(%)(%)(%)(%)KNN81758177LR83848384LDA83818382SVM82788280推车75747574GB83887883RF83878184该方法91929091I.D. Mienye等人医学信息学解锁20(2020)1004024表4与其他近期研究的比较研究。作者方法准确度(%)精密度(%)灵敏度(%)F1评分Latha和Jeeva[5]Ali等人[6]使用NB、BN、RF和MLP的多数投票L1线性SVM+L2线性&径向基支持向量机八十五点四十八92.22Mohan等人[24]Repaka等 人[25]HRFLM 88.4 90.1 92.8 90NB和AES 89.77图二. fracket数据集的Roc曲线。Samuel等 人[26]该方法ANN与Fuzzy_AHP随 机 决 策 树集成九十一93 96 91 93图三. 克利夫兰数据集的Roc曲线测试集的准确率分别为91%和93%。此外,从结果中可以观察到,集成学习方法,即,梯度提升和随机森林的性能优于其他算法。这些集成的性能,以及所提出的方法,进一步研究了受试者工作特征(ROC)曲线。ROC曲线可用于评估各种集成模型的预测能力。它们是通过在各种阈值设置下绘制真阳性率与假阳性率来创建的。各种集合的ROC曲线示于图1A和1B中。2和3该图进一步验证了所提出的方法的改进性能。5.2. 与其他近期学术著作的比较研究在前面的小节中,所提出的方法和其他七个著名的算法之间进行了比较研究。实验结果表明,该方法取得了较好的性能。为了进一步证明所提出的方法的性能,与以前提出的方法,利用克利夫兰心脏病数据集进行比较研究。选择Cleveland数据集是因为它已被用于比Frachial数据集更多的文献中,也因为它被视为心脏病研究中的事实数据集[5]。表4中示出了比较,并且可以观察到我们的方法显示出显著的改进。表4显示了所提出的方法与其他井的比较。执行最近文献中提出的方法。 所述方法包括朴素贝叶斯(NB),贝叶斯网络(BN),随机森林(RF)和多层感知器(MLP)的集成[5],L1正则化线性SVM和L2正则化线性SVM的堆叠模型,具有径向基函数(RBF)内核[6]。其他方法包括具有线性模型的混合随机森林(HRFLM)[24],使用朴素贝叶斯(NB)和高级加密标准(AES)的智能心脏病预测方法[25],以及人工神经网络(ANN)和模糊层次分析法(Fuzzy_AHP)的组合[26]。从表4中可以看出,所提出的方法实现了相当的性能。在所考虑的研究中,所提出的方法表现最好,准确度为93%,精确度为96%,灵敏度为91%,F1评分为93%。此外,实验结果表明,将数据集随机划分为更小的子集,应用CART对各个子集进行建模,并使用基于精度的加权老化分类器集成方法创建集成,可以提高分类性能6. 结论心脏病是全球主要的死亡原因。早期诊断可以帮助预防疾病的进展。在这项研究中,提出了一种有效预测心脏病的方法。该技术涉及使用基于均值的分裂方法将数据集随机划分为较小的子集,应用分类和回归树对每个分区进行建模。然后使用基于准确度的加权老化分类器集成来创建均匀集成。建议的合奏实现了93%和91%的克利夫兰和Fragrance测试集,分别分类精度。与其他机器学习方法和最近的学术著作相比,所提出的方法表现出更好的性能。各种ROC曲线进一步验证了所提出的集成的增强性能。此外,所提出的方法可以用来预测心脏病的风险,并有效地帮助临床建议。竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢这项研究得到了南非国家研究基金会赠款(编号112108和112142)的部分支持,I.D. Mienye等人医学信息学解锁20(2020)1004025+非洲国家研究基金会奖励赠款(第95687号),Eskom高等教育支助方案(Y。太阳,Z. Wang),约翰内斯堡大学URC研究基金附录A. 补充数据本文的补充数据可在https://doi网站上找到。org/10.1016/j.imu.2020.100402。引用[1] 心血管疾病https://www.who.int/westernpacific/health-topics/cardiovascular-diseases.访问2020年4月10日。[2] Mdhaffar A,Bouassida Rodriguez I,Charfi K,Abid L,Freisleben B. CEP4HFP:用于心力衰竭预测的复杂事件处理。IEEE跨纳米生物科学2017年12月;16(8):708-17。https://doi.org/10.1109/TNB.2017.2769671网站。[3] Jin B,Che C,Liu Z,Zhang S,Yin X,Wei X.用EHR序列数据模型预测心力衰竭的风险IEEE Access 2018;6:9256-61.https://doi.org/10.1109/ACCESS.2017.2789324.[4] Ali L,Rahman A,Khan A,Zhou M,Javeed A,Khan JA.基于统计模型和优化配置的深度神经网络的心脏病预测自动诊断系统。IEEE Access 2019;7:34938网址:http://doi.org/10.1109/ACCESS.2019.2904800[5] Latha CBC,Jeeva SC.基于集成分类技术提高心脏病风险预测的准确性。医学信息学解锁2019年1月;16:100203。https://doi.org/10.1016/j.imu.2019.100203网站。[6] Ali L等人,基于优化堆叠支持向量机的专家系统,用于有效预测心力衰竭。IEEEAccess 2019;7:54007-14. 网址://doi. org/10.1109/ACCESS.2019.2909969.[7] Sevakula RK,Verma NK.多数投票点分类器的泛化能力评估。神经网络与学习系统学报。2017; 28(12):2985-97。https://doi.org/10.1109/TNNLS.2016.2609466网站。[8] Li H等人,全有机染料敏化太阳能电池的整体功率转换效率的Encampaignlearning。IEEE Access 2018;6:34118-26.https://doi.org/10.1109/ACCESS.2018.2850048.[9] 何天锦。构造决策森林的随机子空间方法。IEEE TransPattern Anal Mach Intell,1998年8月;20(8):832-44。https://doi.org/10.1109/34.709601.[10] 布雷曼湖装袋预测器。Mach Learn Aug. 1996;24(2):123-40. 网址://doi.org/10.1023/A:1018054314350。[11] Schapire RE,Singer Y.使用置信度预测的改进提升算法。Mach Learn,1999年12月;37(3):297-336。https://doi.org/10.1023/A:1007614523901。[12] LeonF,FloriaS-A,B. 评估投票方法对集合的影响基于分类。2017年IEEE国际创新大会智能系统和应用(INISTA); 2017年7月。第1-6页。https://doi.org/10.1109/INISTA.2017.8001122。[13] Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP.决策树集成创建技术的比较。IEEE Trans Pattern Anal Mach Intell 2007年1月;29(1):173-80。https://doi.org/10.1109/TPAMI.2007.250609网站。[14] Ruta D,Gabrys B,Lemke C.时间序列预测的通用多级结构。IEEE跨知识数据工程2011年3月;23(3):350-9。https://doi.org//TKDE.2010.137.[15] Zhang B,et al. Entrance learners of multiple deep CNN for pulmonary nodulesclassificationusingCTimages.IEEEAccess2019;7:110358-71.https://doi.org/10.1109/ACCESS.2019.2933670.[16] 韩丽,罗S,余J,潘丽,陈S.基于集成学习的支持向量机规则提取方法在糖尿病诊断中的应用。IEEE Journal of Biomedical and Health Informatics Mar. 2015;19(2):728-34. 网址:http://doi.org/10.1109/JBHI.2014.2325615[17] Shang F,et al. VR-SGD:a simple stochastic variance reduction method formachine learning. IEEE跨知识数据工程2020年1月;32(1):188-202。https://doi.org/10.1109/TKDE.2018.2878765.[18] [10]李文辉,李文辉,李文辉.不平衡数据中二元分类问题的方差排序属性选择技术。IEEE Access 2019;7:24649-66.https://doi.org/10.1109/ACCESS.2019.2899578网站。[19] Rivera-LopezR,Canul-Reich J. 使用基于差分进化的方法构建近最优轴并行决策树。IEEEAccess2018;6:5548-63.https://doi.org/10.1109/ACCESS.2017.2788700。[20] 沃兹尼亚克·M. 组合分类器在数据流分类中的应用。于:SaeedK,ChakiR,CortesiA,Wierzch on'S,编辑. 计算机信息系统和工业管理,第8104卷。Berlin,Heidelberg:Springer BerlinHeidelberg; 2013. p. 13比23[21] 沃兹尼亚克·M基于精度的加权老化集成(AB-WAE)-数据流分类算法。在:2017年IEEE第四届软计算机器智能国际会议(ISCMI); 2017年11月。第21-4页。https://doi.org/10.1109/ISCMI.2017.8279591。[22] UCI机器学习库:心脏病数据集。http://archive.ics.uci.edu/ml/datasets/Heart 疾病2020年4月9日访问[23] 心脏病研究数据集。https://kaggle.com/amanajmera1/framingham-心脏研究数据集。访问2020年1月24日。[24] Mohan S,Thirumalai C,Srivastava G.使用混合机器学习技术进行有效的心脏病预测。IEEE Access 2019;7:81542-54. 网址://doi.org/10.1109/ACCESS.2019.2923707.[25] Repaka AN,Ravikanti SD,Franklin RG.设计和实现心脏病预测使用天真的baidu。In:2019第三届电子和信息学趋势国际会议(ICOEI); Apr. 2019.第292-297页。https://doi.org/10.1109/ICOEI.2019.8862604.[26] 吴文辉,李文辉.基于ANN和Fuzzy_AHP的心力衰竭风险预测集成决策支持系统EX pert Syst Appl 2017年2月;68:163-72。https://doi.org/10.1016/j的网站。eswa.2016.10.020网站。
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)