特征选择与PCA用于心脏病预测模型分类

170 浏览量更新于2024-01-07 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

医学信息学解锁19（2020）100330使用特征选择对心脏病预测模型进行分类和PCAAnnaKarenGrate-Escamilaa，*，AmirHajjamElHassania，Emmanuel和resb，c大学纳米医学实验室。勃艮第弗朗什-孔德，UTBM，F-90010，贝尔福，法国b法国斯特拉斯堡CHRUB医学诊所内科、糖尿病和代谢疾病科c法国斯特拉斯堡斯特拉斯堡大学（UdS）斯特拉斯堡医学院圣泰教育科学研究中心A R T I C L EI N FO关键词：机器学习心脏病Apachespark PCA功能选择A B S T R A C T心脏病的预测有助于从业者因此，使用机器学习（ML）是减少和理解心脏病相关症状的解决方案本文提出了一种降维方法，并通过应用特征选择技术发现心脏病的特征。用于此分析的信息来自名为心脏病的UCI机器学习库。该数据集包含74个特征和一个标签，我们通过ifX ML分类器进行验证。随机森林（RF）的卡方和主成分分析（CHI-PCA）具有最高的准确率，克利夫兰数据集为98.7%，匈牙利数据集为99.0%，克利夫兰-匈牙利（CH）数据集为99.4%。从分析中，ChiSQ选择器获得了解剖学和生理学相关性的特征，如胆固醇、最高心率、胸痛、ST抑郁症相关特征和心血管。专家结果表明，卡方与PCA的组合在大多数类别中获得了更好的性能。直接从原始数据使用PCA计算的结果较低，需要更大的维度来改进结果。1. 简介世界卫生组织（WHO）[1]将心血管疾病列为全球死亡的主要原因，每年有1790万人死亡。由于导致超重和肥胖、高血压、高血糖血症和高胆固醇的不良行为，心脏病的风险增加[1]。此外，美国心脏病协会[2]补充症状与体重增加（每天1诊断是从业者的一个问题，因为症状的性质是常见的其他条件医学数据收集的增长为医生提供了改进患者诊断的新机会。近年来，从业者越来越多地使用计算机技术来改进决策支持。在医疗保健行业，机器学习正在成为帮助患者诊断的重要解决方案。马钦学习是一种分析工具，用于任务规模大、难以规划的情况，如将医疗记录转化为知识、大流行预测和基因组数据分析[4][5][6]。最近的研究使用机器学习技术进行诊断不同的心脏问题，并作出预测。Melillo et al. [7]为充血性心力衰竭（CHF）患者的自动分类器做出了贡献，该分类器可将低风险患者与高风险患者区分开来。分类和回归树（CART）计算的灵敏度和特异性分别为93.3%和63.5%。 Rahhal等人[8]提出了一种对选定心电图（ECG）信号进行深度神经网络（DNN）分类的方法，以学习最佳的特征集并提高性能。Guidi et al. [9]对心力衰竭（HF）分析的临床决策支持系统（CDSS）做出了贡献。他们比较了不同分类机器学习的性能，如神经网络（NN）、支持向量机（好友机器）、使用CART的模糊规则系统和随机森林（RF）。CART模型和RF获得了最佳性能，准确率为87.6%。Zhang等人[10]使用自然语言处理（NLP）和基于规则的方法从非结构化临床记录中发现了HF的NYHA分类，计算出准确率为93.37%。Parthiban等人[11]一种用于诊断心脏病患者的支持向量机技术的综述对于糖尿病，获得94.60%的准确率并预测诸如年龄、血压和血糖等特征。机器学习的一个主要问题是* 通讯作者。电子邮件地址：anna. utbm.fr（A.K. （来自Gérate-Escamila）https://doi.org/10.1016/j.imu.2020.1003302020年1月8日收到;2020年4月16日以修订形式收到;2020年4月17日接受2020年4月27日在线发售2352-9148/©2020The 作者。已发布由爱思唯尔有限公司这个是安打开访问文章下TheCCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。ScienceDirect上提供的内容列表医学信息学解开报纸主页：http://www.elsevier.com/locate/imu又名 G-Escamila等人。医学信息学解锁19（2020）1003302þþþ四分之一四分之一四分之四数据集[12]。许多特征的分析需要大量的内存，并导致过拟合，因此加权特征减少了冗余数据和处理时间，从而提高了算法的性能[13在健康管理、基因组表达、医学图像和物联网中找到一小组表征不同疾病的数据维度缩减使用特征提取来转换和简化数据，而特征选择通过删除无用特征来缩减数据集。在文献中，特征选择技术的使用改善了心脏病的预测。Dun等人[19]通过深度学习技术、随机森林、逻辑回归和具有超参数调整和特征选择的支持向量机研究心脏病的存在NN的准确率最高，为78.3% 。 Sewak et al. [20] 使用 Fisher 排名方法、广义差分分析（GDA）和二元分类器（如极限学习机（ELM））简化心血管特征。他们检测冠状动脉心脏病的准确率提高了100%Yaghouby等。[21]心律失常伴心率变异性（HRV）。他们使用GDA进行特征简化和多层感知器（MLP ）神经网络作为分类器，实现了 100%的准确率。Mohammadzadeh等人[22]对HRV信号的15个特征进行了分类。GDA将特征减少到5个，并使用SMO计算100%准确度。主成分分析（PCA）创建新的成分通过捕获高方差来存储特征的最有价值的信息。[23最近，一些研究使用PCA作为医疗保健中分类的特征提取技术。Rajagopal等人[24] 比较了使用五种不同的线性和非线性无监督降维技术对心律失常的自动分类与神经网络（PNN）分类。对于至少10个组分，fastICA计算的F1评分为99.83%。Zhang等人[25] 使用基于PCA的AdaBoost算法检测乳腺癌内吉等人。将PCA与称为不相关线性差分分析（ULDA）的特征简化技术相结合，以获得控制上肢运动的最佳特征。 Avend an~o-Valencia等人将PCA应用于时频表示（TFR）以减少心脏声音并提高性能。Kamencay等人[28]提出了一种使用PCA-KNN的新方法，称为不同医学图像中的尺度不变特征变换（SIFT）描述符，当训练200张图像时，其结果是83.6%的准确率Ratnasari等人[29]使用基于阈值的ROI和PCA的简化X射线图像。他们获得了150的最佳灰度阈值。早期研究使用13个特征的心脏病子集（子集A）。在大多数情况下，分类的目标是使用克利夫兰数据集预测患者是否患有心脏病。一些值得注意的结果已经提出：决策树的准确率为89.1%[31]，随机森林的准确率为89.2%[32]，人工神经网络的准确率为92.7%[32]、89.0%[33]和89.7%[34]和88.0%准确率的方差分析[34]。GA NN以94.2%的准确率计算了最显著的混合模型。PCA回归和PCA1 NN [36]分别获得了92.0%和95.2%的最佳PCA模型。分类学习模型与降维相结合，旨在实现三个主要目标：（i）学习所使用的数据集的最佳特征表示;（ii）结合特征选择技术验证PCA的性能;以及（iii）学习计算最佳性能的分类模型。如果X分类器计算74个特征：逻辑回归、决策树、随机森林、梯度增强树、多层感知器和朴素贝叶斯。我们提出了一个基于卡方和PCA的心脏病检测模型。实验结果表明，通过设置卡方提供的特征，PCA提供了关于多维分类问题的更好的预测，如将PCA与原始数据进行比较时所见。卡方将独立属性列为与标签最兼容的属性。我们选择k 13与13个功能的子集（子集A）进行文献[30]。对于PCA，我们对原始数据的潜在维度k进行了大于方差1的排序。这意味着k 13为克利夫兰，K.14 K11代表CH（克利夫兰和匈牙利语数据集）。考虑到这些结果，所提出的方法改进了大多数机器学习技术。2. 材料和方法2.1. 数据集说明研究中使用的数据集是它有一个标签称为冠状动脉血管造影术（NUM）和74个独立功能。NUM规定了患者是否存在心脏病。心脏病的存在合并了原始数据集的值1、2、3和4。对于检查，患者要求提供病历数据，并由医生进行体格检查[37]。三项非侵入性检查是方案的一部分：运动心电图、运动奇幻扫描和冠状动脉钙荧光镜检查。心脏病专家在不知道非侵入性结果的情况下解释了冠状动脉血管造影结果。以前的研究[38]已经很好地解释了一些特征，如完整的协议。在文献中，使用13个特征的子集[30]来创建与临床情况相关的算法。相关的次要临床变量是AGE、SEX、CP和TRESTBPS;常规测试数据CHOL、FBS和RESTECG;运动心电图测试，包括THALACH、EXANG、SLOPE和OLDPEAK;以及非侵入性测试，THAL和CA。标签为NUM。为了便于比较，我们将这组13个功能称为"Subset-A"。用于分析的数据集为Cleveland、Hungarian和两者的组合，称为CH（Cleveland-Hungarian）。表2显示了数据分布。克利夫兰在健康个体和心脏病患者中的分布比匈牙利和CH将拟定方法应用于第2.1节中提到的三个数据集。我们对Cleveland、Hungarian和CH的数据集进行了预处理和清理，如第2.3节所述。此外，如表3所示，一些特征未被考虑用于分析。此外，我们还进行了四种类型的实验进行分析。我们首先使用所有SiX分类器评估原始数据。在第二个实验中，我们应用卡方特征选择技术获得了一组具有心脏病诊断（NUM）的基于排名的特征，并使用分类器对其进行验证。第三个测试使用通过卡方法获得的简化数据集，然后应用PCA。最后一个实验是直接从原始数据中使用PCA。验证和分析模块使用了第2.6节中提到的性能指标，如准确度、精密度、回忆、F1评分、马修斯相关系数（MCC）和科恩卡帕系数（）。该方法的表示如图所示。 1.2.2. 信息预处理和清理注意事项数据集具有不相关、无法解释、无效或重复的特征。表3显示了未纳入分析的特征。在这次投资中，克利夫兰包含41个特征，匈牙利包含45个特征，CH包含38个特征。清理过程中最重要的注意事项是为称为"空值"的缺失值分配一个单一类别，并创建一个例子是患者不能有胆固醇或年龄等于零。如果发生这种情况，该值将更改为清洁过程的完整考虑因素为：（1）类1、2、3和4转换为相同类别（心脏病患者）;（2）空值替换为单个标签;（3）零在连续结果中不可接受，因此将其更改为空;（4）如果SMOKE未回答但为CIGS或YEARS，则SMOKE将从空更改为1（患者为吸烟者）。如果雪茄和年份又名 G-Escamila等人。医学信息学解锁19（2020）10033031/4由运动引起;0/4道具表1表1（续）心脏病数据集的特征。串行组功能功能说明序列号，组功能姓名功能说明数量35EX练习姓名TPEAKBPD峰值运动收缩血1患者识别号2CCF社会安全号码（将其替换为虚拟值0）3患者年龄记录数据（年）4患者记录性数据1/4男性; 0/4女性心电图36EX运动心电图37EX运动心电图38压力（2个部分中的第二个）DUMMY与trestbps的值相同TRESTBPD静息血压5患者记录数据PAINLOC胸痛位置（1/4）6患者记录数据Painexer后鼻孔; 0/4其他）其他方面EX练习心电图39EX运动心电图40EXANGXHYPOEX运动诱发的心绞痛（1/4）是; 0/4否）EX运动诱导的低血压（11/4是;0/4否）7患者记录数据RELREST 1/4休息后缓解; 0/4其他方面8患者记录数据PNCADEN 5、6和7的总和9患者记录数据CP胸痛类型：1/4典型EX练习心电图41 EX运动心电图OLDPEAK E相对于其余部分SLOPE-高峰练习ST的斜坡节段：1/4上坡; 2/4平坦;心绞痛; 2/4非典型心绞痛; 3/ 4非心绞痛;4/ 4无症状42 EX运动心电图RLDV53.5向下倾斜休息时高度10患者记录数据TRESTBSP静息收缩压（in入院时mmHg43 EX运动心电图RLDV5E峰值高度练习医院）11患者记录数据HTN高血压病史12患者记录数据CHOL血清胆固醇（mg/dl）13患者记录数据SMOKE 1½ yes; 0½ no（是或不是）吸烟者）14患者记录数据CIGS每日吸烟量15患者记录数据年吸烟者的年数16患者记录数据FBS空腹血糖>120 mg/dl（1/4为真，0/4为假）44心脏X线透视CA主要血管数量（0荧光透视着色45心脏荧光镜检查RESTCKM无关46心脏荧光透视练习无关47心脏荧光透视RESTEF静息放射性核素射血分数48心脏荧光透视RESTWM静息壁运动异常：01/4无;1/4中度; 2/4中度或重度; 3/417患者记录数据DM 1/4糖尿病史; 0/4无这样的历史18患者记录数据FAMHIST冠状动脉家族史动脉疾病（1/4眼; 0/4无）休息心电图49心脏荧光透视EXEREF50心脏荧光透视EXERWM运动不能或运动障碍EX运动-非运动性放射性核素射血分数EX运动-运动壁异常结果：0/4正常; 1/4 ST-T波异常（T波倒置和/或ST波升高）51EX运动氦闪烁照相术塔尔EX ercise Talllium心脏扫描：31/4正常; 6/ 4修复Xed缺陷; 7/4可逆缺陷或>0.05 mV的低压）; 2根据Estes标准，可能或明确显示左心室肥大20患者记录数据EKGMO运动月ECG读数21患者记录数据EKGDAY运动日ECG读数52EX运动沙利闪烁照相术53EX运动氦闪烁照相术54EX运动氦闪烁照相术未使用塔尔塞夫未使用Thalpul未使用EARLPUL22患者记录数据EKGYR运动年ECG读数55冠状动脉CMO心脏导管月23运动试验期间用药24运动试验25运动试验期间用药26运动试验期间用药27运动试验期间用药DIG洋地黄用于运动心电图（1/4眼; 0/4否）β受体阻滞剂使用期间运动心电图（1/4眼; 0/4无）运动心电图期间使用的硝酸盐（1/4眼; 0/4无）运动期间使用的钙通道阻滞剂ECG（1½是; 0）（不）运动中使用的利尿剂ECG（1½是; 0 ½否）血管造影56冠状动脉造影片57冠状动脉造影片58冠状动脉造影片CDAY心脏导管日CYR心脏导管NUM心脏病诊断（血管造影疾病状态）：-0.50%<直径窄-1.5>50%直径狭窄（在任何主要心外膜血管中，59至68是28 EX运动测试原型EX锻炼方案：1/4Bruce; 21/4Kottus; 3/ 4 McHenry;4/4FastBalke;5/4Balke;6/4Noughton; 7/4 自行车 150 kpamin/min; 8/4 自行车 125 kpamin/min; 9/4 自行车 100 kpamin/min; 10/4 自行车 75 kpamin/min; 11/4 自行车 50 kpamin/min; 12/4臂测力计59血管LMT60血管LADPROX61血液容器LADDIST62血管诊断63CXmain血管64血管RAMUS容器）左主卡车ProX imal左前降支动脉远端左前降支动脉对角支管Circumflex29EX运动心电图30EX练习THALDUR运动测试持续时间（分钟）ST测量时的THALTIME时间中间支65血管OM1第一钝缘分支66血管OM2第二钝边缘分支心电图注意到抑郁67血管RCAPROX ProX imal右冠状动脉31EX运动心电图32EX运动心电图33EX运动心电图34EX运动心电图MET Mets已完成达到最大心率的THALREST静息心率TPEAKBPS峰值收缩血运动压力（第一部分，共2部分）68血管RCADIST远端右冠状动脉69未使用LVX170LVX2未使用71未使用LVX372未使用LVX473未使用LVF74未使用CAHEF75未使用的垃圾19患者记录数据RESTECG亲硝基DIURETIC又名 G-Escamila等人。医学信息学解锁19（2020）1003304表2数据集分发。提出了降维和分类的方法。数据集实例总数HF存在无HF克利夫兰283157人（55%）126人（45%）匈牙利语294188人（64.9%）106人（35.1%）CH577345人（59.8%）232人（40.2%）表3不包括功能。模型中未包含的类别不相关ID（患者识别号）、社会安全号（CCF）、PNCADEN（PAINLOC、PAINEXER和RELREST的总和）、EKGMO（运动ECG读取月）、EKGDAY（运动ECG读取日）、EKGYR（运动ECG读取年）、CMO（心导管月）、CDAY（心导管日）、CYR（心导管年）重复DUMMY（与TRESTBPS相同）无法解释的RESTCKM、EXERCKM、塔尔塞夫、塔尔普尔、Earlobe、LVX1、LVX、2施工。CHI过滤特征并通过重复迭代对其进行排序以供选择。在本研究中，我们使用CHI选择了前13个特征，并与文献进行比较。表4列出了完整数据的数量以及特征和标签之间的相关性。前13名，克利夫兰和匈牙利人入选4个血管功能，同时选择CH 5;血管为LADDIST、RCAPROX、OM 1、CXMain和LADPROX。Cleveland使用了非侵入性测试功能、THAL和CA，而 Hungarian 选择了 EXANG 。胸部疼痛值包括 CP 、 RELREST 和PAINEXER。患者记录仅纳入CHOL。运动心电图显示TALACH、TALDUR和ST段值，如THALTIME、OLDPEAK和SLOPE。运动试验、PAINLOC、HTN、SMOKE、FBS、DM、FAMHIST、RESTECG、RAMUS和OM2期间涉及的药物的不相关特征。总体而言，所有三个数据集的共同特征应被视为心脏病的风险因素，包括 CHOL 、 THALACH 、 LADDIST 、OLDPEAK、THALTIME、RCAPROX、CP和CXMAIN。2.3.2. 主要部件空数据LVX3、LVX4、LVF、导管、JUNK、名称RESTCKM、EXERCKM、RESTEF（静息硬核射血分数）、RESTWM（静息壁运动异常）、EXEREF（运动性钠射血分数）、EXERWM（运动性-外壁运动异常）、THALSEV、THALPUL、Earlobe图1. 拟议方法示意图。为了确定要保留的有意义成分的数量，我们选择了本征值一标准进行分析。因此，我们保留了所有固有值大于1.00的组件。作为独立变量，每个分量计算一个方差单位。因此，本征值大于1.00的组分的方差大于其作为单个变量的贡献。相比之下，本征值小于1.00的组件贡献小于其单个值，并从分析中删除克利夫兰的前13个组成部分的方差大于1.00和0.678的累积比例前两个分量的累积方差比为0.246;分量1的方差为5.445，分量2的方差为4.396。匈牙利语的主要成分出现在前14个成分中，方差大于1.00，累积比例为0.694。分量1的方差为6.340，分量2的方差为4.451，累积方差为0.240。CH的前11个组分包含的方差大于1.00，累积信息比例为0.729前两个分量的累积比例为0.399;分量1的方差Hence，选择eigenvalue大于1.00的组件是最佳选择，因此我们为Cleveland选择了13个组件，为Hungarian选择了14个组件，为CH选择了11个组件。2.4. 建议的分类器在此研究中，选择了ML Spark库进行功能验证-如果THALTIME的值大于THALDUR，则删除响应;（6）THALACH不能小于THALREST;（7）如果OLDPEAK的值为0，则将THALTIME更改为0;以及（8）Dummy与TRESTBPS具有相同的功能，因此将其删除。2.3. 维度还原降维[12]是减少所考虑变量数量的过程。它可用于从原始数据集中提取潜在特征或在维护结构的同时减少数据。本研究提出了两种不同的降维方法，一种是特征选择的卡方独立性检验，另一种是特征提取的主成分分析。2.3.1. 卡方卡方检验（CHI）基于类对特征进行排序，并根据类标签筛选出顶部特征。Apache Spark MLlib中的ChiSquSelector（CHI）用于模型中的特征选择剂量。Apache Spark的Java语言版本为2.2.0。MLlib具有预处理、基本统计、降维、分类、回归、聚类和关联规则的工具。本研究使用CHI进行特征选择，PCA进行特征提取。最重要的参数是"选择方法"，根据CHI，该方法的主要特征见其他设置为默认设置。分类模型使用大多数超参数的默认值。这些模型是：（1）决策树（DT）;（2）梯度增强树（GBT）;（3）逻辑回归（LOG）;（4）多层感知器（MPC）[41];（5）朴素贝叶斯（NB）[6];和（6）随机森林（RF）[42]。表3描述了每个分类器的参数设置。GBT和RF树使用多个DT参数作为默认值，基尼杂质除外。DT超参数是树的最大深度等于5，并且当连续特征的离散化为32时使用的最大槽数。此外，LOG具有0.8的弹性和二项式族参数。MPC的PA计设置为最大迭代100。MPC有两个隐藏层，第一个有5个神经元，第二个有4个神经元。为NB选择的模型类型为多项式。又名 G-Escamila等人。医学信息学解锁19（2020）1003305四分之一四分之一1 /2�-�表4CHI从原始数据中选择的特征#SF LF %DC Corr LF %DC Corr LF %DC Corr LF %DCCorr克利夫兰数据集匈牙利数据集CH数据集1 CHOL 100.0 0.12 CHOL 93.2 0.20 CHOL 96.5 0.172 THALACH 100.0-0.40坡度35.4 0.54 Old Peak 100.0 0.483 RLDV5E 100.0 0.07塔尔时35.4 0.49 CP 100.0 0.464 LADDIST 100.0 0.57 CXmain 100.0 0.59 CXmain 100.0 0.545 OLDPEAK 100.0 0.42 LADPROX 100.0 0.56 THALTIME 55.0 0.386塔尔杜尔100.0-0.25 EXANG 99.7 0.41 LADDIST 100.0 0.537 THALTIME 75.5 0.24 OLDPEAK 100.0 0.55 RCAPROX 100.0 0.528泰拉克99.3 0.44泰拉克99.7-0.30 LADPROX 100.0 0.529 RCAPROX 100.0 0.51 CP 100.0 0.51 EXANG 99.8 0.4110 CP 100.0 0.40 PAINEXER 100.0 0.54塔拉赫99.8-0.3211 OM1 100.0 0.49 RCAPROX 100.0 0.52坡度67.0 0.3512 CA 99.3 0.34 LADDIST 100.0 0.34 RLDV5E 100.0 0.1113 CXmain 100.0 0.48 Relrest 100.0 0.45 OM1 100.0 0.44所选特征的#SF/ #;LF/4特征列表;完整数据的%DC/ #; Corr/4相关性表5特征选择技术的参数。基本超参数技术特征选择准确度是由定义的正预测值精确度TPTPFP（二）ChiSquSelector选择方法1/2numTopFeatures默认设置为50召回确定了心脏病患者的比例由表6召回TPTPFN（三）在Apache Spark中调整分类器的参数基本参数的分类DT算法：F1分数考虑了等式中精度之间的调和平均值。（2）并在等式中回忆（3）定义为F评分PrecisionxRecall（4分）准确性回忆GBT日志MPCmaxMemory InMB/256 MB; subsamlingRate损失1/4 "对数损失";数字1/4 "自动";学习率1/4"numClass 2;MaxIter 10;RegParam 0.3;ElasticNetParam0.8;族1层1/4"特征数，2";块大小1/4 128;种子1/4 1234 L;最大1/4100;两个隐藏层，第一个有5个神经元，第二个有5个神经元马修斯相关系数（MCC）是由Brian W.马修斯预测蛋白质二级结构的性能[43]。MCC的结果以百分比表示。因此，MCC已成为医学研究中广泛使用的性能指标，用于不平衡数据，如第二个有四个神经元。NB LambdaRFnumClasses 1; numTrees1"假";MCCTPTNFP 联合国他是一个很好的例子，他我的意思是，我的意思是，我的我的意思是，我的意思是。（五）subsubamblingRateauto;杂质gini;种子false6个分类器运行10次，将最佳结果添加到本研究中，并评估标签的性能，符合性CohenKappa测量两个不合格者之间的一致性百分比。计算Kappa的公式为正确分类的百分比。在本实验中，心脏病数据集分为两个数据集：（1）训练数据集，其中包含70%的信息（80%用于训练，20%用于治疗）。P0-Pc1-PC（六）验证）;以及（2）使用30%的信息测试数据集2.5. 评价过程混乱矩阵X帮助从业者形成一个清晰的想法，在哪里的结果有一个高性能。令人困惑的矩阵XEL-EMENTS是：（1）真阳性（TP），即患有心脏病并被正确诊断的患者;（2）真阴性（TN），即没有心脏病并被正确诊断的患者;（3）假阴性（FN），即患有心脏病并被错误诊断的患者;和（4）假阳性（FP），其是没有心脏病并且被误诊的患者。假阴性是医学界最危险的预测。使用混杂矩阵X计算不同的性能指标。准确度（Acc）测量适当分类的实例[1]。计算准确度的公式由其中p0是失败者之间一致性的百分比，如等式中所示。（1），Pc是机会协议。3. 结果重要的观察结果表明，在大多数情况下，将CHI的选定特征与PCA一起使用，在所有三个数据集上具有最佳结果。所有绩效指标均以百分比为单位。3.1. 原始数据与CHI-PCA的比较在本节中，我们将比较原始数据与CHI和PCA的最佳结果。对于CHI，我们选择了13个特征，如表4所示。PCA使用相同的CHI功能创建了主要组件。总体而言，Cleveland数据集使用CHI-PCA获得了最佳结果（图2和图3）。四分之一又名 G-Escamila等人。医学信息学解锁19（2020）1003306四分之一精度TPTNTPFNFPTN（1）图3）。Nevertheless、DT和GBT使用原始数据显示了更好的结果。与原始数据相比，CHI和CHI-PCA在LOG、MPC、NB的计算中有所改进。但是，性能降低又名 G-Escamila等人。医学信息学解锁19（2020）1003307图2. 使用准确度和F1评分比较克利夫兰的ML分类器。图3. 使用MCC和Kappa比较Cleveland的ML分类器图4. 使用准确度和F1评分比较匈牙利语的ML分类器。又名 G-Escamila等人。医学信息学解锁19（2020）1003308使用DT和GBT。最大的改进是使用CHI-PCA功能的MPC。MPC的准确率分别提高了8.1%，F1得分提高了9.1%。RF行为与原始数据和CHI相同，计算回忆率为100% ，准确率为98.9% ，F1评分为 98.8%，MCC 为97.7%，Kappa为97.7%。CHI-PCA-NB的准确率最低，为68.4%，F1评分为75.7%，MCC为37.7%，Kappa为33.7%。当应用CHI和PCA时，GBT呈现出如图2所示的模式。MCC和Kappa的价值观是一致的。图4和图5显示了匈牙利数据集中的最佳计算。最大的结果是CHI-PCA-RF，准确率为99.0%，准确率为100.0%，回忆率为96.8%，F1评分为98.4%，MCC为97.7%，Kappa为97.6%。因此，CHI-PCA表现出了最显著的表现。当使用CHI-PCA时，GBT、LOG和RF获得了等效结果。即使准确度较低，CHI-PCA-GBT计算的完全回忆为100%，F1评分为98.5%，但只有RF超过了结果，获得了更好的MCC和Kappa。与原始数据相比，DT和NB的计算降低。CHI使用MPC和DT计算了最高值。类似地，GBT、LOG和RF计算的结果大于具有CHI特征的原始数据。图 6和图。 7显示CH数据集的性能。GBT带原始数据、CHI-DT、CHI-PCA-LOG和CHI-PCA-RF计算的准确率高达99.4%。F1评分在所有病例中相似，变化为0.2%。除GBT和NB外，大多数模型在CHI和CHI-PCA方面表现更好。原始数据和CHI-PCA之间最大的改进是LOG，准确度分别提高了4.5%、F1评分提高了4.8%、MCC提高了7.5%和Kappa提高了7.5%。此外，使用CHI和CHI-PCA的MCC和Kappa值在一些情况下相似。3.2. 使用原始数据和CHI的表7显示了使用CHI特征和原始数据的PCA性能之间的比较。在Cleveland和CH，PCA在原始数据中的使用结果较差。除NB和MPC外，分类器的性能降低了约30%。克利夫兰的NB高3.4%，匈牙利的NB高2.7%; MPC计算的匈牙利的准确率高1.5%。虽然匈牙利计算的原始数据结果较低，但它们更接近CHI-PCA。对于MPC，分类器的准确度在4%和9%之间，在F1评分中在6%和15%之间。可以看出，当k足够时，PCA从原始数据中保留足够的信息，当k太低或太高时，PCA变得缺乏竞争力。对于大量的特性和实例，使用CHI特性时PCA性能更高。3.3. 比较非侵入性测试特征的分类器结果我们在表8中测试了通过非侵入性测试获得的结果。涉及的数据是丘脑心脏扫描（THAL）、荧光透视（CA）染色的主要血管数量以及其他运动。诱发性心绞痛（EXANG）。在克利夫兰的案例中，这些特征具有高数据质量。如果将结果与Cleve-land的Subset-A进行比较，一些分类器计算出的值大于逻辑回归、NB和SMO。对于匈牙利人来说，CA并不存在，Thal的代表性很弱，只有9.5%的人完成了工作。因此，考虑到信息的缺乏，业绩不佳是合理的。在这种情况下在CH中，THAL占53.5%。一些分类器，如DT、GBT和NB，取得了竞争性结果。4. 讨论4.1. 将原始数据与CHI-PCA进行使用CHI和PCA获得了有希望的结果。在第3节的第一部分中，只有DT和GBT在一些测试中缺乏改善。这表明，当使用大量特性时，由于为树提供了更多选项，树的性能会得到提高。NB在所有测试中得分最差。当使用CHI-PCA时，LOG分类器具有显著的结果。在大多数测试中，由于训练数据集上的网络过载，MPC分类器在CHI中获得了比CHI-PCA更好的结果，尽管性能低于其他分类器。当我们增加层或神经元时，度量的性能降低，这表明对于小输入（如本研究中的数据集），MPC在使用更少数量的层时更稳定。尽管Cleveland，RF使用CHI-PCA进行了改进。CHI获得了显著的结果，所选的13个特征对于心脏病检测是突出的。重要的观察结果表明，PCA使用LOG工作得最好，CHI使用MPC工作得最好。总体而言，LOG和RF是性能和改进最好的分类器，功能数量较少。与准确度和F1得分相反，MCC和Kappa显示了最高的不平衡数据的敏感性。此外，结果相似-两个分类中的MCC和Kappa均为2。LOG使用CHI-PCA计算了最佳结果。匈牙利和CH数据集提出了健康患者发生率较高的不良分类问题。不平衡数据集中的原始数据在准确度和F1评分之间的性能差异大于降维结果（表9）。数据集中准确度和F1评分之间的性能下降。克利夫兰的差异在原始数据中没有注意到，因为两个阶级之间的平衡。平均而言，最大的差异是使用气的时间。尽管如此，每个结果都低于0.9%的总体平均水平。由于不平衡，匈牙利人的准确性和F1得分之间的差异最大。与原始数据相比，CHI和CHI-PCA平均值下降了0.5%。CH计算出原始数据的差异为1.2%，高于平均值。CHI和CHI-PCA值分别为0.5%和0.7%。" MPC在平衡数据集上的表现更好，克利夫兰的平均值为0.4%，而匈牙利和CH的表现最差，分别为2.0%和2.7%。准确度和F1评分之间差异最小的模型是GBT、MPC、图5. 使用MCC和Kappa比较匈牙利语的ML分类器。又名 G-Escamila等人。医学信息学解锁19（2020）1003309图6. 使用准确度和F1评分比较CH的ML分类器。图7. 使用MCC和Kappa比较CH的ML分类器和RF。NB得分最差，被排除在平均结果之外。4.2. 卡方选择的特征和PCA结果的讨论与其他研究一样[23，45原始数据集在大多数病例中产生的结果较差（表7）。第3.2节中的实验将原始数据的性能与我们的方法进行了比较。与其他结果一样，当使用原始数据时，RF改善了计算，而使用CHI时MPC完全优于。CHI-PCA在大多数专家中表现出色，尤其是在第3.1节、第3.3节和第3.4节中看到的LOG。NB在任何给定测试中均未显示出具有竞争力的性能。CHI选择的前13个特性对编译器来说是一个很好的验证。数据集有五个容器。其中，4个血管是左手冠状动脉的一部分，被认为是最重要的，因为它消耗了超过一半的血液到心脏。血管为近端X近端左前降支（LAD-PROX）、远端左前降支（LADDIST）、第一钝缘支（ OM 1 ）和回旋支（ CXMAIN ）。剩下的是右冠状动脉（RCAPROX），它是右冠状动脉（RCA）的一部分。对于非侵入性，选择器认为THAL和CA排名较高。除胆固醇外，与风险因素相关的特征未被选择器评为高风险。医生获得的其他特征是运动试验的一部分，并与心脏病和ST段值相关综合考虑，从各种测试中获得的信息有助于心脏病的诊断，必须考虑用于模型预测。世卫组织和美国心脏协会引用的在本研究中表现最佳的风险因素是高血胆固醇、胸部不适、体力活动不足（在运动心电图数据中可见）。其他特征，如高血压史、吸烟史和血糖过快史，不完整，难以与WHO和美国心脏协会标准进行比较。4.3. 有创和无创测试船的模型足以实现一个伟大的结果。侵入性试验的局限性是其仅用于既往心脏病发作、严重胸痛、心电图异常或压力试验的患者。非侵入性特征表现不佳，因此必须补充更多信息。在文献中，其他研究使用了非侵入性测试。本研究比较了在运动跑步机试验（ETT）上预测心绞痛的心理-心理和生理因素，得出结论，这些因素在预测运动心绞痛中很重要。另一项研究[49]得出结论，在胸痛（疼痛特征）的体验和运动诱导的心绞痛的预测方面存在性别差异，同时[50]在女性中纳入了一些疼痛和非疼痛感觉与运动诱导的缺血的关系，但在男性中未纳入[51]。结论：患者更有可能在术前存活。又名 G-Escamila等人。医学信息学解锁19（2020）10033010表7原始数据和CHI-PCA的性能。表9比较准确度和F1评分之间的性能差异性能DT全球定位系统日志MPCNB射频克利夫兰CHI-PCA准确度97.396.197.692.168.498.7原始数据-PCA匈牙利CHI-PCA（%）准确度（%）召回（%）F1（%）93.3 98.5 98.2 91.4 77.1 98.4使用克利夫兰数据集与其他研究进行比较PCA和RF原始数据-PCA准确度（%）准确度（%）88.8 89.7 94.9 95.5 78.0 93.288.0 87.0 91.4 92.6 63.6 93Shamosollahi等人，2019年[53]沙莫索拉希召回（%）78.6 80.0 94.1 92.6 72.4 87.1F1（%）83.0 83.3 92.8 92.6 67.7 90.0CH和其他人，2019年[53]穆尼加CHI-PCA准确度（%）（%）98.4 98.9 99.4 88.6 68.8 9

下载后可阅读完整内容，剩余1页未读，立即下载