没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁24(2021)100606心血管疾病分类的机器学习方法比较RachaelHagan *,Charles J. 菲奥娜?马利特?吉兰电子电气工程与计算机科学学院,贝尔法斯特女王大学A R T I C L EI N FO关键词:监督学习分类心脏病SVM决策树神经网络包围学习不确定性量化A B S T R A C T研究人员正在投入大量精力使用机器学习算法,这是人工智能更广泛领域的一个子集,用于检测单个患者的疾病。机器学习方法在医疗保健中的应用存在广泛的研究,更具体地说,是心血管疾病。我们选择将这一初步调查集中在心脏病的情况下,以便将我们的努力集中在尽可能详细的方法上。方法:在本文中,我们探讨了应用机器学习方法,即:支持向量机(SVM),多层感知神经网络(MLP)和集成方法,对心血管疾病的分类存在的不确定性。我们的工作使用两个具有显著不同特征的公共数据集,以评估方法不确定性的潜在差异来自加州大学欧文分校(UCI)机器学习存储库的心律失常数据集具有从数百名患者的心电图(ECG)信号分析中收集的每名患者近300个特定生理数据点,尽管病例分布严重不平衡。与此相比,一个数据集,报告来自Kaggle集合的心血管疾病,其中有近7万例患者记录。然而,这个Kaggle数据集只报告了每个患者记录的少量参数,例如血清胆固醇水平,舒张压和收缩压,相对血糖水平以及是否存在心绞痛。结果:与Kaggle数据集开发的模型相比,为UCI数据集构建的模型具有多个数量级的维度,或者神经网络模型的输入节点数量要多得多。另一方面,Kaggle数据集比UCI数据集有多一个数量级的训练和验证记录。我们的研究结果比较和对比的不确定性模型,使用支持向量机,多层感知器神经网络和决策树这两个数据集。这项工作表明,将我们的分析扩展到其他病理生理学的数据集将是有益的1. 介绍数字医疗保健是一个普遍的趋势,这一特征部分是由物联网(IoT)和增强的传感技术驱动的,两者都结合了人工智能和机器学习方法的使用。市场分析师[1]和医疗专业人士[2]认识到,这提供了成本效益,并为改善卫生系统的护理开辟了新的领域。美国布鲁克海文国家实验室最近的工作[ 5 ]表明,使用机器学习技术与患者电子医疗记录(EHR)可以准确预测阿尔茨海默病的未来发病率。使用计算机从ECG信号中自动检测心律失常始于几十年前[3],最初是通过拥抱专家系统[4],但今天仍然是使用机器学习和人工智能的活跃研究领域机器学习(ML)是一组数学算法,是人工智能(AI)算法的更广泛领域的子集,其提供了为大数据环境中的许多问题提供创新决策支持解决方案的潜力,因此提供了超越在许多科学领域中激增的基于规则的引擎的因此,EX plainable美国DARPA已经在这一领域的研究上投入了大量资金[6],而其他研究团队已经开始针对几个问题领域定义可解释人工智能的概念[7]。目前的研究确定了三大类:不透明的系统,提供没有洞察力;可解释的系统,其中的数学分析的算法是可行的;* 通讯作者。电子邮件地址:rhagan09@qub.ac.uk(R.Hagan)。https://doi.org/10.1016/j.imu.2021.100606接收日期:2021年1月28日;接收日期:2021年5月11日;接受日期:2021年5月16日2021年5月20日网上发售2352-9148/© 2021作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuR. Hagan等人医学信息学解锁24(2021)1006062以及可理解的系统,其发出使得用户能够驱动如何得出结论的解释的我们的工作旨在使用广泛的数值模拟来理解我们用来对心脏病的存在或不存在进行分类的数学内核我们工作的一个中心焦点是试图量化分类器中的不确定性。认知的不确定性来自于测量我们每个数据集中的数据点时的实验误差。随机不确定性出现在我们的数学内核中,特别是在伪随机数的使用中。我们在这项工作中的目标是量化我们的输出分类中的不确定性,使用几个不同的模型,从用于训练数学内核的参数的变化中传播。我们通过执行多个数值实验来做到这一点-表2新的UCI数据集类别名称。类标签描述搜索结果数据集1正常2452缺血性变化(冠状动脉疾病)443右束支传导阻滞504不包括其他915别人22表3Kaggle心血管数据集的功能解释。功能类型详细信息元素,包括超参数空间的网格搜索,模型,在适当的情况下。此外,对于决策树方法,我们探索每个分类的预测概率的熵,以确定模型的确定性。年龄目标年龄(天)(int)身高目标身高(cm)(int)体重目标体重(kg)(浮动)性别目标我们的论文由几个部分组成,其结构如下。我们在第2节讨论了其他作者的相关工作,第3节解释了我们在工作流程中研究的不同分类方法第4节简要定义了处于这项工作核心的公共数据集在第5节中,我们介绍并分析了执行软件时获得的结果,并通过以下方式完成了本文:收缩压舒张压胆固醇血糖EX胺化EX胺化EX胺化环氧胺化intint1:正常,2:高于正常,3:远高于正常1:正常,2:高于正常,3:良好在第6节中总结了我们目前工作中得出的结论。吸烟主观高于正常二进制2. 相关工作酒精摄入量主观二元身体活动主观二元Kaggle数据集,在第4节中进一步讨论,已被其他报价用于许多研究论文。Maiga等人[15]比较了心血管疾病目标变量二进制随机森林(RF),朴素贝叶斯,k-最近邻(KNN)和逻辑回归分类器在此数据集上训练的预测能力,报告称随机森林方法实现了73%的分类准确度,65%的特异性和80%的灵敏度。然而,其他作者报告了将类似技术应用于Kaggle集合中相关数据集的不同成功率。Chauhan [16]将逻辑回归、KNN、支持向量机(SVM)、决策树和RF方法应用于Fracket研究数据集。这是一项正在进行的心血管研究,始于1948年,总部设在马萨诸塞州的弗拉维尔。该研究旨在预测患者是否有未来心脏病的10年风险。参考文献[16]中的数据集由4238条患者数据记录组成,每条记录具有14个独立属性。这些属性中有几个与表3中的属性相同。表1本文讨论了UCI数据集[ 10 ]中定义和使用的16种心律失常分类类型的 详细 信息。作者发现,逻辑回归方法的预测准确率最高,为89%。Kajan等人。[32]除了我们在这项工作中使用的心律失常数据集外,还使用UCI数据库中的乳腺癌和帕金森病数据集研究了ANN用于医疗诊断的适用性。他们的论文报告了这些疾病状态的成功诊断,认为ANN适用于传统分类方法由于噪声或不完整数据而失败的情况。我们的工作是在Python中而不是MATLAB中进行的,证实了这些作者的结果,并将其与SVM技术的使用进行了比较和对比。Aliferis等人[33]比较了几种分类器在UCI心律失常数据集上的操作。这些作者使用了K-最近邻、前馈神经网络、决策树和贝叶斯分类器,与本项目范围内使用的人工神经网络和支持向量机相当McGregor [34]概述了新生儿重症监护病房(NICU)内大数据的潜力,以帮助早期发现和预防新生儿疾病。整数代码描述描述数据集重映射类别广泛的健康状况。本文认为,高频数据的实时分析可能有利于医疗保健专业人员,01心脏正常245正常医生和病人。麦格雷戈和她的团队开发了阿耳忒弥斯,02缺血性变化(冠状动脉44 CAD阿耳忒弥斯云,它采取床边生理测量(心电图,动脉疾病)03陈旧性前壁心肌梗死04陈旧性下壁心肌梗死15篮15篮血压、呼吸率、胸阻抗和血氧饱和度)。Artemis还将现有的医学观察和治疗方法与分析方法进行了确定实时生理数据中的新模式的解决方案05窦性心动过速13篮06窦性心动过缓25篮这是有益的,因为它可以预测各种健康状况的发生,从而增加了更早和更多的可能性。07室性期前收缩(PVC)08室上性早搏3篮2席纹有针对性的医疗干预。鉴于这项工作由贡献UCI心律失常数据集的作者开发了收缩09左束支传导阻滞9篮10右束支传导阻滞50右BB 11一种有监督的归纳机器学习算法,他们称之为投票特征区间(VFI)[10]。用他们的数据集测试这个准确率高达62%,作者声称超过了1度房室块0篮使用朴素贝叶斯分类器和最近邻分类器,12二度房室传导阻滞0篮133度房室传导阻滞0篮14左心室肥大4篮15房颤或扑动5篮1622其他同样的数据。我们使用在UCI数据集上训练的机器学习模型,在应用于独立的MIMIC-III数据集时,具有集成投票功能的Rahman等人[38]设计并利用了一种机器学习方法,R. Hagan等人医学信息学解锁24(2021)1006063L∈ =[]我我基于ECG的心跳分类器用于早期检测心血管疾病,肥厚型心肌病(HCM)。这种疾病会导致最小w,b,1wTw+C∑i(4)心肌,室间隔,到可能致命的阻碍血液流动。使用以下方法从HCM患者中积累数据:2i=1标准的10秒12导联ECG信号。来自非HCM心血管患者的心跳是对照。分类性能被认为是通过测试随机森林分类器和支持向量机分类器使用5折交叉验证。将结果与逻辑回归分类器进行比较,后者表现更差。在本项目中实现SVM时,还进行了优化k折交叉验证的实验。这项工作比较了一系列机器学习方法,用于在两个具有不同特征的数据集上对心脏病进行分类。我们执行超参数搜索来分析每个模型的最佳参数。虽然已经进行了广泛的研究,应用不同的机器学习方法对心脏病进行分类,但还没有一项研究能够对两个不同数据集的一系列方法进行深入分析;这正是本工作的目标3. 方法本文的这一部分介绍了受是的。wTφ(xi)+b)≥1-φiφi≥0( 5)这意味着它找到了一个分离数据的超平面。在等式(4)和(5)中,R1是每个分量的误差项,并且C(其中C>0)是定义误差项之和的大小的常数。值Ci由用户在启动训练阶段时预定义,因此表示区分不同SVM模型的可变点。权重向量w的元素在每次迭代期间被计算和细化。SVM方法的一个有趣的方面是不需要显式计算变换函数φ。相反,核函数K(xi,xj)定义空间ν中的内积,K. xi,xj)= φ T(x i)φ。(7)是计算所必需的。任何满足Mercers theo-rem [25]的函数都可以用于内核,在这项工作中,我们研究了三种常用的内核函数:• 线性:K(xi,xj)=xTxj。我们用来产生结果的机器学习内核,我们将在下一节中报告。首先,我们提出了每个分类算法的突出细节,特别是对每个可调超参数的定义。这些参数的值的选择最终将我们对这些内核的使用与其他活动区分开来,这些活动将在第2节中进一步讨论。3.1. 分类算法一个记录中的每组特征表示一个观测。我们定义它为向量xRd,使得xx1,x2,x3,总的来说,我们在任何数据集X中有n个完整的观测,使得我们用矩阵X表示法表示为X=[x1,每个观测值xi都与一个且唯一的值相关联,即一个类标签,其中我们有一组Y= [y1,y2,Y由表1定义。我们使用这些信息来训练我们工作中的ANN和SVM模型分类模型是一个数学函数f,它接受一个输入向量z并将其映射到类集合Y中的一个值,我们将其数学表达为f(z)→[0,在本文中,我们研究了不同的选择分类功能,f。下面的小节解释了每个选项。3.2. 支持向量机根据等式(1)和(2),在支持向量机模型中,[24] 为了建立方程(2)中的函数f,我们取每个观测向量xi,并用其分类值yi对其进行扩充与之相关联,从而形成新的向量vi=(xi,yi)。支持向量机该方法首先使用变换φ将观测向量集合X变换到新的空间ν中。φ:X→ν(3)首先考虑在集合Y中只有两个值的分类的情况。然后在训练阶段,SVM方法使用拉格朗日乘子方法来解决以下约束最小化问题• RBF:K(xi,xj)= e-γ||xi-xj||2.• 多项式:K(xi,xj)=(γxTxj+ r)dγ>0。• Sigmoid:K(xi,xj)= tanh(xTxj+ r)。上面的等式表明,在选择了一种内核形式而不是另一种内核形式之后,在选择中存在进一步的可变性点。例如,在多项式核γ的情况下,可以为每个模型设置r和d。一旦这些选择被固定,训练阶段就找到分离的超平面。在推理阶段,使用相同的核将新的观测映射到空间中,并从训练阶段获得的分离超平面计算它们的距离。可以将最接近变换后的观测的聚类分配给它。在我们的工作中,我们使用众所周知的libSVM库[28]实现了我们的SVM建模代码,以执行我们的数值实验。该库提供了修改上述公式中讨论的各种参数的选项。最重要的是,libSVM超越了上面简要介绍的基本二进制分类,允许分类到几个类中的一个。该操作以成对方式执行,遵循上面给出的等式,这种技术称为一对一分类[29]。3.3. 人工神经网络在这项工作中的人工神经网络(ANN)是非线性数学函数,f,将观测的输入向量映射到一组可能输出中的唯一值。每个ANN被表示为一组互连的节点。按层布置的节点是数值,并且连接是按顺序执行的乘法累加运算(MAC),对应于将节点链接在一起。每个MAC操作具有在学习阶段期间计算的若干权重。在每个节点处的MAC操作的结果被输入到激活函数,该激活函数决定该结果是否被前馈到下一级。网络的每一层可以使用不同的激活函数。按照其他作者的惯例,我们在除了最后一层之外的所有层中使用整流线性单元(relu)。对于二元分类,即Kaggle心血管数据集,我们在最后一层使用sigmoid函数,而对于UCI心律失常数据集使用的多类分类,我们使用softmax函数[26]。网络的权重是由迷你计算的。R. Hagan等人医学信息学解锁24(2021)1006064∑̂̂[]()下一页()下一页()下一页()F(x)()()(()=为所述网络最小化成本函数。在二元分类的情况下,我们使用二元交叉熵损失函数J,其中J=-yloge(y)-(1-y)loge(1-y)(8)在等式(8)中,y是基础真值标签(取二进制值0或1),y0, 1是预测值。最小化过程需要梯度下降和反向传播通过网络来固定权重。对于多类分类的情况,遵循类似的过程,但是使用分类熵损失函数。3.4. 决策树在弗里德曼[18]之后,我们可以把问题简单地说出来--以下面的方式进行我们有一个输出变量Vi,一般依赖于一个由n个输入变量x=x1,x2,x3,然而,我们有一个m个观测的集合,每个观测将一个输入向量xi与一个输出相关联,F(xi)→Vi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功