没有合适的资源?快使用搜索试试~ 我知道了~
动脉粥样硬化疾病机器学习MDSS提高诊断效率-研究表明98%准确率-医学信息学解锁21.
医学信息学解锁21(2020)100483一种新型的动脉粥样硬化疾病预测医疗诊断支持系统Oumaima Terradaa,Bouchaib Cherradi a,b,Abdelhadi Raihania,*,Omar Bouattane aaSignaux,Syst`emesDistribu`esetIntelligenceAnticielle(SSDIA)Laboratory,ENSETofMohammedia,HassanIIUniversityofCasablanca,B.P159,Mohammedia,摩洛哥bSTIE Team,CRMEF Casablanca-Settat,Provincal Section of El Jadida,El Jadida,摩洛哥A R T I C L EI N FO保留字:粥样硬化机器学习技术心血管疾病(CVD)分类预测A B S T R A C T动脉粥样硬化的诊断是一个模糊而复杂的认知过程。人工智能方法,如机器学习算法,已经证明了它们在医疗诊断支持系统(MDSS)中的效率。在本文中,我们开发了一种新的机器学习MDSS来提高心血管疾病的诊断。我们的研究使用了从三个数据库中收集的835名患有动脉粥样硬化(通常由冠状动脉疾病(CAD)引起)的患者的医疗记录。系统输入层包括基于三个数据库的几个输入变量:克利夫兰心脏病数据库、匈牙利数据库和Z-Alizadeh Sani数据库。七个独立的分类方法被应用到评估系统:人工神经网络(ANN),K-最近邻(KNN),支持向量机(SVM),决策树(DT),朴素贝叶斯(NB),分类Entrance(CE),和判别分析(DA)算法。所提出的方法的鲁棒性进行了评估,通过几个性能指标。结果表明,该MDSS的准确率达到98%,比现有的方法有更高的准确率。这些结果是促进动脉粥样硬化疾病的大规模临床诊断的有希望的一步。1. 介绍心血管疾病(CVD)是多种疾病和心脏病的总称。还有其他形式的心血管疾病,特别是冠状动脉疾病(CAD),也称为动脉粥样硬化[1]。许多人患有心脏病,特别是动脉粥样硬化。根据世界卫生组织(WHO)的数据,这种疾病是大多数工业化国家的主要死亡原因[2]。对于这种疾病的医学诊断,从患者记录中手动提取有用信息是困难的。因此,建立和开发一个医疗诊断支持系统(MDSS)来实现心血管疾病的自动分类和预测是非常重要的。然而,医学诊断研究需要更高的准确性和效率,以做出最佳的临床决策。 即使经典的MDSS已经证明了它们覆盖大多数诊断问题的能力,它们也提供了较低的准确率,并且不能提供正确的诊断[3]。在过去的几年里,使用人工智能(AI)和机器学习(ML)技术的医疗诊断和治疗系统已经引起了研究兴趣。因此,这些研究课题影响科学领域,如金融,应用科学,生物学和医学应用[4,5]。因此,已经提出了几项工作来开发MDSS,以预测或分类心脏病患者,以改善医疗保健[6在这种情况下,我们提出了一种新的MDSS使用一些选定的机器学习算法。主要目标是通过分析心脏病数据库,根据主要选择的特征对患者健康进行分类和预测。这些风险因素被称为不可控风险因素和可控风险因素。不受控制的动脉粥样硬化风险因素包括年龄、家族史和性别。然而,这并不意味着该人会发展为动脉粥样硬化,部分原因是早期诊断可以减少遗传影响。另一方面,存在许多受控的动脉粥样硬化风险因素,诸如肥胖、高血压、收缩压(SBP)和舒张压(DBP)、胆固醇、吸烟和糖尿病。患者可以通过改变生活方式来减少这些风险因素[18,19]。我们组织本文在第3节中,我们介绍并解释了我们提出的系统过程。特别是,我们提出了全球* 通讯作者。电子邮件地址:oumaima. gmail.com(O. Terrada),bouchaib. gmail.com(B. Cherradi),raihani@enset-media.ac.ma,abraihani@yahoo.fr(A.Raihani),o. gmail.com(O.Bouattane)。https://doi.org/10.1016/j.imu.2020.100483接收日期:2020年5月8日;接收日期:2020年10月27日;接受日期:2020年11月14日2020年11月18日网上发售2352-9148/©2020的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuO. Terrada等人医学信息学解锁21(2020)1004832Fig. 1. 使用ML算法的建议MDSS的流程图。除了所使用的CAD数据集之外,还提供了所提出的MDSS和所选机器学习算法的流程图。第4节解释了用于评估和比较我们的MDSS性能与类似性能的评估指标。在第5节中,我们给出了实现细节,并给出了结果和讨论。第6节总结了这项工作,并提出了一些建议的观点。2. 相关工作本节介绍了一些关于心脏病自动诊断的选定作品的文献综述,这些作品使用了相同的已知数据集,我们将在稍后进行性能比较。在[6]中,作者应用神经网络集成方法,通过结合先前模型的预测值来创建新模型。与机器学习算法相比,获得的准确率为89.01%。在参考文献[7]中发表的另一项工作中,作者提出了一种使用加权模糊规则(WFR)预测心脏病的临床决策支持系统(CDSS)。他们使用了两个评估方案;第一个自动化的WFR生成的方法,而第二个方案开发了一个模糊的基于规则的CDSS。他们使用克利夫兰心脏病数据库测试了他们的CDSS。与基于神经网络的系统相比,该方法的最佳准确率为62.35%。在[8]中,作者使用了快速决策树(FDT)和修剪的C4.5树方法。这种方法旨在将机器学习O. Terrada等人医学信息学解锁21(2020)1004833()=不同CAD数据库中的分析结果。结果表明,分类准确率为78.06%,高于单独数据集的分类平均准确率75.48%。在2017年,参考文献[9]的作者提出了一种混合神经网络-遗传(HNNG),通过使用遗传算法提高其初始权重来改进神经网络。使用Z-Alizadeh Sani数据集和克利夫兰心脏病数据库的最高准确率为93.85%。其他方法已经涵盖了心脏病的医疗诊断问题。在参考文献[10]中,作者描述了决策支持系统用于心力衰竭风险预测的性能。该系统是基于人工神经网络(ANN)和模糊层次分析法。实验结果表明,与传统的人工神经网络方法相比,该方法的平均预测精度可达91.10%。最近,在2018年,作者[11]讨论了心脏病专家系统的设计和实现。作者开发了该系统使用模糊层次分析法和模糊推理系统(FIS)。发达国家的做法的结果表明,发展心脏病的可能性。实验结果表明,该系统在医学领域的AI和ML方法取得了良好的效果。在[12]中,作者使用了三种分类器:朴素贝叶斯,C4.5和支持向量机。这些方法应用于Z-Alizadeh Sani数据库,用于基于三个冠状动脉的狭窄检测的CAD诊断左回旋支(LCX)、左前降支(LAD)和右冠状动脉(RCA)。本研究的结果已达到96.40%的CAD检测的最高准确率在2019年,作者提出了一个nu支持向量分类(NEnu SVM)模型的集成,该模型结合了各种机器学习方法和集成学习技术来预测CAD,使用两个数据集:Cleveland和Z AlizadehSani。该模型在Z-Alizadeh Sani和Cleveland CAD数据集上预测CAD的准确率分别达到94.66%和98.60%。最近在参考文献[14]中,作者开发了一种新方法,称为混合特征选择(2HFS),使用随机森林(RF),高斯朴素贝叶斯(GNB),决策树(DT)和XGBoost 分类器。在这项研究中,作者使用了Nasarian CAD数据库。他们还用匈牙利语、长滩VA和Z-Alizadeh Sani数据库测试了这种方法,准确率分别为83.94%、81.58%和92.58%本工作旨在提出一种新的MDSS诊断心脏病患者动脉粥样硬化。在这项工作中,所提出的方法基于七种选定的机器学习算法,包括人工神经网络(ANN)、K-最近邻(KNN)、朴素贝叶斯(NB)、判别分析(DA)、分类集成(CE)、支持向量机(SVM)和DT。该研究模拟了不同算法配置的执行,以评估模型性能,然后选择最好的,使用性能评估方法来改进每一个。实际工作是一种进步 我们的早期研究[153. 材料和方法3.1. 拟议MDSS的全球概览使用ML技术建立MDSS的主要步骤是:(i)问题确定以更好地理解目标系统。(二)图二. ANN结构示例。因此,处理目标是从动脉粥样硬化特征中提取有用的患者数据。请注意,我们应该将这些数据记录分为两个数据集。然后,我们构建了开发预测算法模型所需的训练数据集和测试数据集。从每个数据库中选择所选特征后,我们在预测阶段使用机器学习方法。因此,在该步骤中,需要针对不同的结果分析患者的数据。所提出的系统的最后阶段给出对应于动脉粥样硬化患者的情况的结果。图1示出了使用ML算法的所提出的方法的流程图。3.2. 机器学习算法机器学习(ML)是与计算学习相关的人工智能(AI)方法的扩展。它使计算机能够在间接和自动编程的同时学习。机器学习的目标是开发和设计学习算法,以建立深入的数据分析。使用ML策略,数据领域的算法和预测模型变得不复杂且易于使用因此,它使研究人员能够做出可靠的决策,并提供有价值的结果[18]。3.2.1. 人工神经网络人工神经网络是受生物神经网络的启发,模仿人类神经生理过程而产生的。许多研究者将统计方法和数值分析结合到神经网络中,以提供数学模型[19]。在图2中,我们给出了一个具有单隐层的人工神经网络的示意图,其中{x1,x2,通常,S形函数用作非线性激活函数(f(.)对于每个神经元。S形激活函数由等式(1)给出:使用描述性统计数据进行探索和分析。(iii)数据集的准备,以更好地找到分类和预测问题的结构。(iv)算法评估以选择更适合的算法。(vi)结果改进使用ML算法,以获得更好的结果。(vii)结果f x11+e-x在这项工作中,人工神经网络模型建立如下步骤:算法1.主要ANN步骤(一)O. Terrada等人医学信息学解锁21(2020)1004834∑∑1=我p下面是ANN算法中使用的其余方程的列表Mneti=wi,j*xi+bi(2)j=1yi=fi(neti)(3)有用的.因此,算法的性能高度依赖于数据库的结构[20]。KNN算法使用以下算法阶段实现算法2.KNN算法主要步骤S=0.01fi(四)下面是KNN算法中使用的方程列表。我拉涅利岛等式(6)解释了如何计算在步骤5中使用的汉明距离度量。ei=ti-oi(5)算法1的最后一步是验证我们是否到达了停止点。D.x′,cj)pl{x′scin= cj,i}(6)标准错误。这意味着实际误差ei+1比上i=1其中:X一个,并解释了总误差函数的近似工作良好。3.2.2. K近邻算法功能fKNN(x′)=argmaxJ∑L(yi=y)(7)O. Terrada等人医学信息学解锁21(2020)1004835K-最近邻(KNN)算法是一种监督ML算法,可用于回归和分类问题。KNN算法依赖于附近存在相同观测的事实。换句话说,相似的观察结果彼此接近。KNN依赖于这个假设足够真实,使得算法能够y∈Nk(x′)i∈Nk(x′)对于L(.) 是二进制指示函数,计算如下:1如果arg为真0否则(八){L(y=y)=iO. Terrada等人医学信息学解锁21(2020)1004836+∑∑i=1+=∑i1W. xi+b ≤1,xi具有类别-1(14 trestbps静息血压选择的K数总是奇数。利用K的重要值可以产生更好的决策,并提供有用的概率信息。然而,更有意义的K值是破坏性的,这进一步损害了估计。3.2.3. 支持向量机算法支持向量机(SVM)是应用于医学诊断领域的回归和解决二进制分类问题的监督算法的子集支持向量机分类器是基于凸优化,根据结构风险最小化表示的类标签{-1,1}。SVM方法分为两种类型:(i)线性SVM,它可以线性地分离数据,(ii)非线性SVM,当数据不能线性分离时使用。SVM的目标是找到超平面来分类数据并实现最大分离[21]。SVM算法使用以下阶段执行:算法3.主要SVM阶段DT的目的是基于每个收集的属性以图形树的形式构建一组选择,该图形树由节点和分支组成[22]。DT算法使用以下阶段实现算法4.主要DT阶段这里是DT算法中使用的方程P(T)=wj(13)j∈X其中:wj是观测值j的权重。G(T,X)= E(X)-E(T|(十)(十四)熵E(T)由以下表达式定义CE(T)-pi log2pi(15)i=1SVM算法中使用的等式如下。D={(x i,y i)|x i∈ Rp,y i∈ {-1,1}}n(九)表1Cleveland数据集属性及其描述和比例。无属性描述量表其中:xi是p维空间Rp中的输入观测i,yi是相应的输出。{w. xi+b≥1,xi具有类11年龄29-77岁2GD性别女性(0),男性(1)3CP胸痛类型典型心绞痛(1),非典型心绞痛(2),非心绞痛其中:wTXb 0是超平面的方程,其中w是法向量,b是截距,x是特征。进入医院(mm/汞)血清胆固醇(mg/dl)1266 Fbs空腹血糖更高M m否(0),是(1)最大W(α)=∑αi-1∑αiαjyiyik。Xi.(11)7雷斯泰克超过120 mg/dl正常(0),有ST-T波i,j=12i,j=1M静息心电图结果异常(1),显示可能或明确的左侧条件是:αiyi=0。其中0 ≤αi≤C,其中αi是系数,允许避免具有噪声数据的过拟合,C>0是一个常数,8达到的最大心率Estes标准心室肥大71–202管理权衡以最大化训练数据数量,9E·X·昂(ppm)否(0),是(1)裕度k(Xi,yj)是核函数,表示径向基函数(RBF)。核由等式(18)给出:10奥尔德皮克运动诱发的心绞痛运动诱发的ST段压低0 - 6.2xi-yj211斜坡的峰值运动向上倾斜(0),平坦(1),向下yi=(3),无症状(4)94–200O. Terrada等人医学信息学解锁21(2020)1004837K.xi,yj)=e-2σ(12)其中σ是内核权重。12CA13ThalST段荧光透视染色的主要血管数量倾斜(2)0–3正常(3),固定缺损(6),可逆性缺陷(7)3.2.4. 决策树算法我们通常在二元分类问题中使用这种技术14心脏病诊断健康(0),患者有心脏疾病(1)O. Terrada等人医学信息学解锁21(2020)1004838∑⃒̂.)qπ(Y=i)=1998年,|)的方式K其中:p i是类i的概率,i =1,2,...,c,c是类的数量。在二元分类的情况下,c= 2。3.2.5. 朴素贝叶斯(NB)自60年代以来,基于贝叶斯定理,该方法得到了广泛的研究在统计和概率中,该算法基于可能与事件相关的先验条件知识,应用数据密度估计来描述事件的可能性[23]。NB算法在以下阶段执行算法5.主要NB阶段以下是NB算法中使用的方程π(Y=i)q P.Xj=i)。)3.2.6. 判别分析许多研究人员已经使用这种技术来分析数据时,标准变量是一个预测变量的基础上不同的高斯分布。DT也被称为Fisher判别式,以其发明者命名[24]。对于新数据的类预测,经训练的DT分类器应使用等式(23)找到具有最小误分类成本的类。DA算法使用以下阶段执行算法6.主要DA阶段下面是DA算法p Y=i X1,X2,=Kj=1j=1j=1(十六)PXjY=iy=arg 最小∑ P(i|x)C(y|(17)其中,Rlp是类别i= 0,1的先验概率,Y是随机变量y=1,2,̂对应于观察类别索引Xj。其中X1,X2,其中:y是预测的分类,K是类的数量,Pix是观察x的类i的后验概率,C(y| i)是当其真实类为i时,分类为y的每个观测的成本。后验概率由以下表达式定义:表2Z-Alizadeh Sani数据集属性及其描述和比例。功能类型N功能描述范围人口统计1年龄年龄30-86岁2GD患者性别女性(0),男性(1)3BMI体重指数(Kg/m2)184DM糖尿病否(0),是(1)5CSM当前吸烟者否(0),是(1)6FH家族史无(0),有(1)症状和检查7 BP血压(mm/Hg)908PR脉冲频率(ppm)509TCP典型胸痛否(0),是(1)ECG 10 QW Q波否(0),是(1)11ST_E ST段抬高否(0),是(1)12ST_D ST压低否(0),是(1)13TI T倒置无(0),有(1)实验室检查和超声心动图14 FBS FBS(空腹血糖)(mg/dl)6415TG TG(甘油三酯)(mg/dl)3716LDL LDL(低密度脂蛋白)(mg/dl)1817HDL HDL(高密度脂蛋白)(mg/dl)15心脏病诊断18导管心导管检查诊断正常(0),Cad(1)̂O. Terrada等人医学信息学解锁21(2020)1004839我()∈(-+)P(x)N∑我我我nAlizadehsani等人[12]将患者分为两种输出N表3所选要素的详细信息。数据集特征数所选要素克利夫兰13年龄、GD、CP、trestbps、chol、Fbs、Restecg、Thalach、EX ang、Oldpeak、斜率、ca、Thal匈牙利10年龄、GD、CP、trestbps、chol、Fbs、Restecg、Thalach、EX ang、OldpeakZ-Alizadeh17年龄、GD、BMI、DM、CSM、FH、BP、PR、TCP、QW、ST_E、ST_D、TI、FBS、TG、LDL、LDL、HDL(1∑-1T)我通过分类集成进行的训练可以被视为指数P(x|i)=1e. (2π)d|Σ|)12-2(x-μi)(x-μi)(十八)损失最小化∑wne(-ynf(xn))(23)其中:|Σ|是n的行列式,其中n-1是逆矩阵X,i是n=1类的数量,P(i)是观察者的vation x.然后我们表示X(观察)属于类的后验概率为:其中:yn∈ {-1,1}是真类标签,wn是归一化的权重加起来等于1,f × n∞,∞是 的 评分 预测分类.P(i|x)=P(x|(一)P(一)其中P(X)是归一化常数。3.2.7. 分类汇编(CE)(十九)3.3. 数据集说明3.3.1. 克利夫兰数据集这个数据库由David Aha为机器学习库[26,27]组织,由76个属性组成,其中只有14个特征是该技术应用多个学习算法,以确保比单独从任何机器学习算法成分获得的预测性能更可靠。它通过收集弱学习器的预测来预测新数据的集成响应。它可以存储与训练相关的数据集;然后计算重新替换预测[25]。CE算法使用以下阶段执行算法7.主要CE阶段以下是CE算法中使用的方程εt=∑d(t)τ(ynscin=ht(xn))(20)n=1通常用于大多数已发表的研究:13个输入和一个输出。在这项拟议的工作中,由于缺失值,仅使用了303条记录中的270个实例。该数据集对54%的健康受试者和46%的CAD患者进行了测试。健康受试者标记为0,而不健康受试者由值1指定。表1总结了14个Cleveland数据集属性的描述和尺度。3.3.2. Z-Alizadeh Sani数据集Z-Alizadeh Sani数据集是从德黑兰的Shaheed Rajaei心血管,医疗和健康中心的心脏病患者中随机收集的。研究中心该数据集是为CAD诊断而构建的,包含303个样本,每个患者有54个特征。所选特征包括患者体格和生物学检查、超声心动图(ECG)实验室检查、人口统计学特征和症状的主要数据其中:Xn是观察数n的预测器向量,yn是真实类标签,ht是索引为t的学习器预测,τ是指示因子,Dn(t)是索引为t的观察权重n表4二元分类的混淆矩阵表示预测T诊断实际诊断结果f(x) αtht(x)(21)n=1结果病人得了这种病病人没有病行合计T是学习者的数量。其中:αt是集成中学习器的权重,它定义了阳性TP FP TP+ FP(阳性检测)负FN TN FN+ TN使用以下表达式:αt=1log1 -εt(二十二)总TP+ FN(数量患者有FP+ TN(患者数量(阴性检测)TP+ FP+ FN+TN(总计2εt疾病)不是疾病)人口)O. Terrada等人医学信息学解锁21(2020)10048310表5数据集拆分详细信息。数据库实例总数训练数据测试数据Cleveland 270 186 84匈牙利语262 181 81Z-Alizadeh 303 212 91表6每个数据集和训练参数的建议ANN体系结构规范。架构数据集名称Cleveland Hungarian Z-Alizadeh Sani第113层71%的患者患有CAD,29%的患者健康。该数据集还包含三个冠状动脉的狭窄预测输出,即,LCX,号时代12迭代验证检查610 迭代15次迭代RCA和LAD。在这项研究中,根据动脉粥样硬化风险因素,手动选择了17个特征作为最重要的特征[28,29]。所提出的动脉粥样硬化系统所选择的特征权重和偏差随机初始化数据划分随机培训比例70%测试百分比30%在表2中给出。3.3.3. 匈牙利数据集匈牙利数据集由Andras Janosi在布达佩斯的匈牙利心脏病研究所收集[26,27]。该数据库包含十个特征。在294个数据集样本中,34个样本因缺失值而被丢弃,262个记录通常在62.21%的健康受试者和37.78%的心脏病受试者中使用和分离神经元数量激活函数输入13 10 17隐藏1 15 20 16隐藏2隐藏3输出2输入切线-S形(T-S)隐藏1隐藏2-隐藏3疾病学习规则输出线性Levenberg-Marquardt&反向传播3.4. 特征类型和来源如图1所示,数据集特征是从不同的来源收集的。一般来说,它们可以根据医学来源分为四类。• 基于生化分析的特征生化分析是一种技术,指的是一系列程序和测定,使科学家和医生能够分析器官和化学反应中发现的所有物质。这些技术中最重要的是为专业研究和诊断实验室保留的。对于所考虑的心脏病数据集,给出以下情况作为示例:FBS(空腹血糖)(mg/ dl)、TG(甘油三酯)(mg/dl)、LDL(低密度脂蛋白)(mg/dl)等。[30]。• 症状特征在医学中,症状[30-32 ]或体征是病理学的陈述,可以由临床医生在临床检查中注意到(临床体征、副临床体征或补充体征)。 这些迹象可以出现在不同的观察水平[30,33]。临床体征是在没有重型设备的情况下收集的体征,例如,温度计、血压计、听诊器等。有许多体征/症状作为一般体征(疲劳、体温等),局灶性体征(丘疹、气泡等),功能体征(疼痛、呼吸困难、心悸、晕厥等),体征(异常听诊器噪音、发红等)。一般来说,症状被翻译为1)积极的迹象,这是一个迹象的显着存在。例如:空腹血糖大于1.26 g/L是糖尿病的阳性信号; 2)阴性信号意味着显著缺乏迹象。例如,空腹血糖低于1.26 g/L是糖尿病的阴性信号• 心血管危险因素特征心血管风险因素[34,35]是受试者的临床或生物学状况,其增加了发生疾病或遭受创伤的可能性[2]。心血管危险因素有两种:不可控危险因素和可控危险因素。可控的危险因素是与心血管疾病联系最明确的因素。对于所考虑的数据集,我们举一个例子:吸烟,动脉高血压(HTA),总性能均方误差(MSE)学习率0.001请注意,本研究中用于每个数据集的训练参数和神经网络架构涉及隐藏层,神经元数量,学习率值以及每层中激活函数的类型胆固醇、低密度脂蛋白(LDL)、甘油三酯、高密度胆固醇(HDL)、肥胖(体重指数(BMI))、糖尿病等。不可控的风险因素[36,37]是可能在心脏病发生中发挥作用的因素即使我们不能对这些因素采取行动来消除它们,但它们仍然使我们能够确定处于危险之中的人,为他们提供适当的预防和治疗措施。通常,这些类型的特征与人口统计特征相关联。• 人口统计学特征人口学[38,39]是对人口特征和动态的定量和定性研究。人口统计学特征存在于大多数医疗数据集中。我们引用心脏病数据集:年龄,性别,家族史等。3.5. 特征选择在预处理步骤中,基本上包括通过忽略具有缺失值的输入来清理数据集,预测输入基于每个数据库的特征。动脉粥样硬化的危险因素已经从医学专家和医生的专业知识中确定。基于相关文献[28,29],从每个数据集中选择合适的特征作为输入数据。表3中给出了通过所提出的方法选择的特征。用于预测的相应输出是反映患者实际状况的二进制标签“心脏病诊断“。这两类是:一个病人有动脉粥样硬化,或健康。这里,0表示没有动脉粥样硬化疾病,这意味着小于50%的直径狭窄。值1表示动脉粥样硬化疾病,这意味着根据克利夫兰和匈牙利的UCI数据,直径缩小大于50%。对于Z-Alizadeh Sani数据库,输出分为两个类标签。因此,0级说明没有动脉粥样硬化疾病,这意味着正常。1级表示存在动脉粥样硬化疾病,这意味着CAD。O. Terrada等人医学信息学解锁21(2020)10048311图3.第三章。 用人工神经网络算法实现预测过程分析的可视化。O. Terrada等人医学信息学解锁21(2020)10048310=====1-1TP+FP+FN+TN0表7KNN的最佳K奇数数据库KNN算法距离克利夫兰13汉明匈牙利13Z-Alizadeh9表8使用四种机器学习方法在三个数据库上测试动脉粥样硬化诊断的混淆矩阵数据集方法TP FP FN TN试验总计克里夫兰ANN 45 1 1 37 8420 KNN 35 11 4 34DT 33 11 13 27支持向量机35 7 11 3130 6 16 32NB 38 7 8 31阿尔及利亚36 6 10 3231匈牙利ANN 27 2 4 48 8124 7 7 43DT 26 12 5 38支持向量机26 9 5 41CE 23 8 8 42NB 26 12 5 38阿尔及利亚23 9 8 41表9的提出系统性能度量的粥样硬化疾病分类数据集方法SSSPACCFSMCC克利夫兰安0.980.970.980.980.95KNN0.900.760.820.820.65DT0.720.710.710.730.43SVM0.760.820.790.800.57CE0.650.840.740.730.50NB0.830.820.820.840.64DA0.780.840.810.820.62匈牙利安0.870.960.930.900.84KNN0.770.860.830.770.63DT0.840.760.790.750.58SVM0.840.820.830.790.65CE0.740.840.800.740.58NB0.840.760.790.750.58DA0.740.820.790.730.56Z-Alizadeh Sani安0.980.920.970.980.92KNN0.870.670.810.870.53DT0.820.760.800.860.54SVM0.970.600.870.910.65CE0.940.640.860.910.62NB0.890.160.690.810.07DA0.920.680.860.900.63所得到的结果表明,人工神经网络算法达到高FS和MCC率,而平均准确率为0.98和0.92之间• 显示精确调和均值的F分数(FS)FS2双头螺旋桨2个TP+FP+FN(二十八)4. 业绩评价指标假阳性率(FPR)是一个概率,允许错误地拒绝无效的假设,为某一测试。在这项工作中,我们使用了许多性能的方法来改善我们提出的动脉粥样硬化疾病的MDSS在培训和测试过程中。这些方法定义如下:FPRFPFP+TN(二十九)灵敏度(SS)或真阳性率(TPR)计算被正确识别为患有疾病的患者的程度。SS中文(简体)TP+FN特异性(SP)或真阴性率(TNR),用于测量被正确识别为没有疾病的患者SPTNFPR(25)TN+FP• 精度(ACC),表示精确度。其中TP、FP、TN和FN分别为真阳性、假阳性、真阴性和假阴性。在ML领域,混淆矩阵X被称为错误矩阵X。该矩阵是一个算法性能表示。另一方面,它包含两种信息类型:预测值和实际值。表4解释了二元分类的混淆矩阵[40,41]。受试者工作特征曲线(ROC)是用于评价二元分类诊断能力的图形图。ROC曲线分析通常用于医疗决策和机器学习研究。为了绘制ROC曲线,必须确定TP、TN、FP、FN、SS和SP,然后我们使用公式(24)和(29)绘制TPR作为FPR的函数[42]。ROC曲线下面积(AUC)该值可以使用(0.0)至(1.0)的积分测量整个ROC曲线下方的二维面积[43]。这些问题可归纳如下:1ACC=TP+FN(二十六)∫TPR。FPR-1(x))dx=P(X>X)(30)x=0时Matthews相关系数(MCC)是用于二进制分类机器学习的质量度量,就像我们的案例一样。其中X1和X0分别是正实例得分和负实例得分,P是分类器的较高实例(正或负)的概率。·······Z-Alizadeh Sani安65212391KNN588916DT5461219SVM6410215CE629416NB592174DA618517O. Terrada等人医学信息学解锁21(2020)10048310MCC-∗TPTNFPFN=(TP+FP)(TP+FN)(TN +FN)(T N + FN)(二十七)基于TP、FP、TN和FN值构造混淆矩阵X。O. Terrada等人医学信息学解锁21(2020)10048311见图4。 克利夫兰数据库的ROC分析。5. 仿真结果和性能比较图五. ROC用于匈牙利数据库。5.1. ML实施、培训和最佳配置为了证明所提出的分类器和预测器的有效性,进行了许多实验和模拟,以凭经验确定最佳ML模型。以这种方式,使用三个动脉粥样硬化数据集,并且使用用于评估所提出的方法效率的一些性能评估度量将实验结果总结在表中。所得结果与以前的工作进行了比较。5.1.1. 模型生成和性能评估结果决定的第一个方面是如何使用收集到的数据来实现学习过程。关于这一点,输入和输出都已经使用交织索引被分成两组。这种技术允许字段按顺序散布不同的含义。我们将每个数据库(克利夫兰,匈牙利和Z-Alizadeh Sani数据集)分为两个分区,其中70%用于训练,其余30%用作完全独立的测试。表5显示了将每个数据集拆分为训练集和测试集的详细信息O. Terrada等人医学信息学解锁21(2020)10048312见图6。 Z-Alizadeh Sani数据库的ROC分析。表10拟定系统的AUC值数据集方法AUC克利夫兰ANN 1.00KNN 0.89表12分类克利夫兰数据库的准确性提取相关的工作。作者和年份方法准确度(%)Anooj et al.(2012)[7] Weighted fuzzyrules 62.35El-Bialy等.(2015)[8] C4.5 78.54DT 0.76支持向量机0.86CE 0.83NB 0.90DA 0.89匈牙利ANN 0.97KNN 0.87DT 0.80支持向量机0.87CE 0.86NB 0.832017年《阿拉巴萨迪》[9]Das等人(2009年)[6]2017年《塞缪尔》[10][12]第12话[11]第十一届中国国际汽车工业展览会本工作表13FDT 77.55神经网络84.80HNNG 89.40神经网络工程89.01ANN模糊AHP 91.10SVM、朴素贝叶斯和C4.5 93.06模糊层次分析法人工神经网络(ANN)98.00Z-Alizadeh Sani表11DA 0.86人工神经网络0.98KNN 0.84DT 0.83支持向量机0.95CE 0.88NB 0.76DA 0.94分类匈牙利数据库的准确性提取相关工作。作者和年份方法准确度(%)阿努伊峰[7] Weighted fuzzy rules加权模糊规则46.93El-Bialy等.(2015)[8] C4.5 78.57FDT 78.23Arabasadi(2017)[9]神经网络82.90HNNG 87.10Alizadeh(2018)[12] SVM,Naive Bayes,andC4.5 88.77目前的工作建议模型(ANN)93.00Z-Alizadeh Sani数据库的最佳准确度结果证明了ML组合的兴趣。ML组合最佳ACC最佳方法NB DT&0.80DTDA NB&0.86DANB KNN&0.81KNNDA、NB、EC、DT SVM&0.87SVMDA,NB,EC,DT KNN&0.86ECDA,NB,EC,SVM,DT,KNN ANN&0.97安5.1.2. ML模型最佳配置在本小节中,我们使用训练数据在训练阶段呈现ML模型5.1.2.1. 建议的ANN模型规格。对于ANN技术和任何经验工作,进行了许多模拟以选择最佳超参数。对于表6中所示的以下体系结构配置,可以达到最佳性能。为了评估人工神经网络算法在三个数据库上的性能,我们在图中举例说明。 3、将测试数据与目标数据进行比较的神经网络分类过程。评估包括计算真阳性和真阴性值,其表示实际患者情况,假阴性和假阳性,其表示预测的患者情况。根据实际结果,我们训练的人工神经网络模型显示出很高的准确性,这意味着预测值收敛接近目标值。5.1.2.2. KNN模型规格。 为了启动KNN算法,首先O. Terrada等人医学信息学解锁21(2020)10048313j=1K表14分类Z-Alizadeh Sani数据库的准确性从相关工作中提取作者和年份方法准确度(%)Arabasadi等人(2017)[9] HNNG 93.85神经网络84.62Abdar等人(2019)[44] SVC 92.45nuSVM 93.08LinSVM 92.09NEnu-SVC 94.66Nasarian等人(2020)[14]2HFS92.58[12]第12话SVM、朴素贝叶斯和C4.596.40本工作人工神经网络(ANN)97.00步骤是加载训练数据集,加载训练标签,测试数据集,并初始化K奇数值。第二步是选择距离类型。在我们的例子中,当使用汉明距离时达到最佳性能。该算法利用等式(6)来计算训练数据集和测试数据集中的元素之间的距离。最后一步是使用等式(7)计算K-最近的多数类标签。这在训练和测试步骤中都要完成。表7显示了为每个使用的数据库提供最佳性能的最佳K奇数值5.1.2.3. DT、SVM、NB、DA和EC规格。在DT算法中,第一步是使用等式(21)计算输出熵或目标。在下一步中,我们获得了每个分支的熵。在最后一步中,数据集被其分支划分,并重复每个分支,直到所有数据都被分类。在SVM算法中,我们使用等式(17)定义最优超平面以最大化裕度。然后我们扩展了可分问题的定义:非线性问题。之后,我们重新定义问题,使数据隐式映射到这个空间。在NB算法中,我们加载训练和测试数据集。上步骤,我们计算的之前概率为给定类标签为了验证我们的模型:Cleveland、Hungarian和Z-Alizadeh Sani数据库分别由270、262和303名患者的记录组成每个数据库使用交错索引分为两个数据集:70%用于训练,15%用于测试。然后,我们训练了七种分类器算法,并进行了比较,以选择最好的一种。表8描述了使用ANN、KNN、CE、NB、DA、SVM和DT算法对从Cleveland、Hungarian和Z-Alizadeh Sani数据库收集的835名患者进行测试的混淆矩阵5.2.2. 性能指标结果在测试阶段,将结果提供给所提出的分类器系统来分类和预测动脉粥样硬化患者。使用标准性能指标:SS、SP、ACC、FS和MCC评估所获得的结果为了改进我们的动脉粥样硬化预测系统,使用了两个进一步的机器学习度量:FS作为二进制分类准
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功