改进稀疏自编码器的神经网络预测心脏病：挑战、方法及性能提升

51 浏览量更新于2024-01-06 收藏 559KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁18（2020）100307基于改进稀疏自编码器的人工神经网络预测心脏病Ibomoiye Domor Mienyea，*，Yanxia Suna，Zenghui Wang ba南非约翰内斯堡约翰内斯堡大学电气和电子工程科学系，2006年b南非佛罗里达大学电气和采矿工程系，南非，1709年。A R T I C L EI N FO保留字：Sparse autoencoder深度学习无监督学习ANN心脏病A B S T R A C T本文提出了一种两阶段的方法来有效地预测心脏病。第一阶段涉及训练一个改进的稀疏自动编码器（SAE），一个无监督的神经网络，以学习训练数据的最佳表示。第二阶段涉及使用人工神经网络（ANN）来预测健康状况的基础上学习的记录。SAE被优化以训练有效的模型。实验结果表明，该方法提高了人工神经网络分类器的性能，与其他方法和类似的学术著作相比，具有更强的鲁棒性1. 介绍心脏病是人类最致命的疾病之一预测心脏病具有挑战性，但也是必要的，因为如果及早发现疾病并采取预防措施，死亡率可以大大降低[1]。因此，准确预测患者的心脏病风险对于降低严重心脏病的相关风险非常重要[ 2 ]。为了实现这一点并挽救人类生命，需要有效地处理原始心脏数据以进行适当的分类。为了提高HD模型的性能，一些研究人员使用机器学习算法来构建各种模型，并取得了一些成功，例如在参考文献[1]中，作者提出了一种通过检测重要特征并使用混合随机森林进行分类来其准确性高达88.47%，敏感性为92.8%，特异性为88.6%，精确度为87.5%。在[2]中，作者提出了一个预测心脏病的框架，其中他们执行特征缩减，这对他们试验的各种分类器的性能有影响，支持向量机具有88%的准确度。类似地，在参考文献[3]中，提出了一种生成决策规则的方法，以有效地对心脏病风险水平进行分类，实验结果表明，他们的方法达到了86.7%的准确率。然而，为了进一步改进迄今取得的进展，需要利用其他方法。深度学习已经成功应用于多个领域，特别是在图像和视觉分析中，近年来，深度自动编码器在一些无监督机器学习任务中取得了优异的性能。它是心脏病预测挑战的一种可能解决方案，因为它在复杂和大型数据集中学习良好的特征表示方面表现出色。自动编码器基本上包括两个功能：编码器，其将原始d维输入数据映射到中间或隐藏表示;以及解码器，其将隐藏表示映射回期望尽可能接近编码器的原始输入的d维向量。该过程被称为重构，而解码器输出和编码器输入之间的差被称为重构误差[4]。研究表明，当以鼓励稀疏性的方式学习表示时，分类性能可以得到改善。在稀疏自动编码器中，训练准则包括代码层上的稀疏性惩罚。在本文中，我们提出了一个有效和可靠的稀疏自动编码器（SAE）的方法来执行无监督的特征学习和心脏病的预测。我们专注于开发一个SAE模型，从HD数据集中学习有效的特征，然后使用学习到的特征进行分类。该模型采用自适应矩估计（Adam）算法进行优化，实现不同参数的动态调整，并采用批量归一化技术避免过拟合，提高模型的性能、速度和稳定性。优化的设置还确保重建误差显著最小化。所提出的方法的有效性是* 通讯作者。电子邮件地址：ibomoiyem@uj.ac.za（I.D.Mienye）。https://doi.org/10.1016/j.imu.2020.100307接收日期：2020年1月28日;接收日期：2020年2月26日;接受日期：2020年2020年3月5日网上发售2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuI.D. Mienye等人医学信息学解锁18（2020）1003072BX.联系我们JIBDBLNn<$1k <$1Ω重量¼2W集B通过与独立的ANN、性能良好的算法如k-最近邻（KNN）、分类和回归树（CART）、逻辑回归（LR）、线性判别分析（LDA）和其他学术著作进行比较来验证。实验结果表明，该方法具有较好的分类性能。2. 相关作品本节讨论了以前研究和应用稀疏自编码器的一些工作。最近，自动编码器在几个应用领域的各种无监督学习任务中得到了重要的应用。文献[5]提出了一种结合SVM和稀疏自编码器的方法。原因是经典的SVM在大规模应用上有局限性;因此，需要使用稀疏的自编码器来提高性能。作者使用多层稀疏自动编码器进行特征学习，并使用SVM进行分类，从而提高了SVM在处理大规模数据集时的性能。在一项类似的研究中，参考文献[6]的作者提出了一种使用稀疏自编码器进行特征学习的方法，以提高回归模型在实值时间序列数据上的性能。该架构由不同层的稀疏自编码器组成。该研究的目的是加强车辆交通流量预测。和为了提高稀疏自动编码器的准确性，他们提出了一种级联模型，该模型利用了低级和高级的组合。特征，和一随机梯度裔算法作为回归方法。另一项研究是通过学习异常分数来进行异常检测[7]。这个想法3. 拟议方法在本节中，我们描述了在实现所提出的稀疏自动编码器中使用的方法。自动编码器是一种在输出端复制其输入的非监督神经网络架构。它基本上由编码器和解码器组成。AE旨在学习输入数据的低级表示，然后将其变形以投影原始数据。编码器将输入映射到新的表示。然后在输出端对该新表示进行解码，以根据等式（1）和（2）重构输入xZ1/Z2/Z3/Z4/Z5/Z4/Z5/Z4/ZX'¼在上述公式中，h是隐藏层神经元的激活函数，g是输出层神经元的激活函数，W和W矩阵，b和b在本文中，利用了S形激活函数，其在等式（3）中示出，而不是诸如Relu、Tanh等的其它激活函数。第一章（三）1-x输入x和重构输入x'之间的重构误差函数EN由于背景数据的重建误差，E¼1Xxix我（四）异常资料的识别率相对较高，结构错误可以用作异常分数。因此，他们赞成，N1提出了一种基于稀疏自编码器的双同心窗异常检测方法。在[8]中，提出了一种基于稀疏表示的分类方法，提出了一个基于转换深度学习的公式。的N表示输入样本的数量。然而，在这项研究中，稀疏自动编码器是用来获得一个有效的低层次的稀疏约束下的输入数据表示。因此，通过将正则化包括到成本函数来引入稀疏性。设pi为网络由全连接层和卷积自动编码器组成。全连接层放置在编码器之间隐藏层中神经元的平均激活。n和解码器，其功能是找到稀疏表示，而自动编码器网络学习有效的深层特征用于分类。将估计得到的稀疏码用于数据集分类时，该方法得到了改进p1z x（5）nj¼1根据等式（5），I、n和j分别表示第i个神经元、训练样本的总数和第j个平均性能在[9]中，作者提出了一种添加距离约束的方法，激活pi接近接近于零的常数p所以堆叠稀疏自动编码器（SSAE），以形成一种新的距离约束SSAE网络。距离约束增强了Kullback-Leibler（KL）散度用于将正则化子添加到代价函数。KL散度被引入以实现稀疏性。目标像素和各种背景像素之间的唯一性�P于我�1plog1 -p（6）特征空间因此，通过利用从距离约束SSAE中学习的判别特征，稀疏度¼1/1pi-1-pbi函数核用于背景抑制。在两幅高光谱图像上进行的实验表明，从距离约束SSAE学习的深光谱特征更加清晰，性能优于许多检测器。在[10]中，提出了一种方法来推导出一种公式，该公式有效地确定了稀疏自组织中的稀疏超参数。根据等式（6），d代表层中神经元的总数，而p是稀疏比例，其是所需的激活值。因此，SAE误差函数现在包括均方误差和正则化项。此外，为了控制权重和防止过拟合，在代价函数中引入L2 正则化（L2R）。编码器，除了导出平均值之间的关系，隐藏单元和稀疏超参数的激活。作者进行了两个实验，他们获得了良好的性能。在1XX我XK.我你好！参考文献[11]一种新的方法显示了稀疏自动编码器用于自动调制分类该网络使用非负约束算法进行训练。实验结果表明，与传统的稀疏自编码器相比，具有非负约束的自编码器提高了稀疏性，并使重构误差最小化。L和K分别表示样本中隐藏层的数量和特征的数量[12]。我们进一步包括如等式（8）所示的权重衰减单位。在将各种正则化项（即，等式（6）和（7））添加到等式（4）（其为重构误差）中之后，我们的成本函数变为：N KE1/2XXkn-bxknn<$2<$λ*Ω权重<$β*Ω稀疏性（8）单位面积NJ（七I.D. Mienye等人医学信息学解锁18（2020）1003073TPFFN不不不Mθ tv这里有三个优化参数：λ是L2R的系数，它防止过拟合，第二个参数是β，稀疏正则化参数，它设置稀疏惩罚项。最后，稀疏比例p控制所需的稀疏水平。λ、β和p的优化参数值分别为0.0001、0.01和0.5。此外，在我们寻求训练一个强大的SAE时，亚当算法[13]被用来代替经典的随机梯度下降或其他变体。亚当优化算法使我们有机会使用不同的学习率为各种参数，并实现dy-它的目的是预测他们未来10年患冠心病（CHD）的风险。它由4238个样本和16个特征组成。每个特征都是一个可能的风险因素，包括行为、人口统计和医学风险因素。数据集包含缺失的属性。删除缺少属性的行后，剩下3656条记录;其中3099条为负，557条为正。我们使用70-30%的训练测试数据划分方法。为了有效地评估我们的方法的性能，使用了一些指标，包括准确度，精密度，灵敏度和F1评分。各种性能指标定义如下：通过获得等式（9）-（11）中所示的梯度一阶矩估计mt和二阶矩估计vt来分类精度中国（15）TPTNFPFNmt¼β1mt-1 β 1 m t-1 β1m t：gt（9）灵敏度-召回率（十六）vt1/4β2vt-1β1-β2β：g2（十）TPg←rJθ中国（11）精密度¼TP精密度FP（17）式中β1和β2分别为一阶指数衰减量和二阶指数衰减量。而gt2*精密度 *灵敏度精密度*灵敏度（十八）是成本函数E中时间步t处以上计算机偏差-校正为mt和vt：TN和TP代表真阴性和真阳性，它们是被正确分类的阴性和阳性患者的数量。m（十二）而FP和FN代表假阳性和假阴性，不1 -βtvt1/2-βt更新参数：（十三）代表被错误预测的阳性和阴性患者的数量。5. 实验装置θt=1/4γt-pffivffiffi不（十四）5.1. 的方法拟议的办法包括两个步骤。首先，数据集是γ表示更新步长。取一个小常数，以防止分母变为零。所提出的稀疏自动编码器的过程在算法1中示出4. 数据集和性能指标HD数据集来自Kaggle网站[14]。该数据集是在对马萨诸塞州弗拉特福居民进行心血管研究后获得的。使用Kaggle Fragile heart数据集的原因是，与Cleveland、Hungarian和Long Beach heart数据集（分别有303、294和200个实例）相比，Kaggle Fragile heart数据集的实例数量更高（4238个）。数据集包括患者预处理，使其适合构建我们的模型。在预处理之后，数据集被分成训练集和测试集.使用训练集中的负面实例训练SAE。这里的基本原理是，如果模型可以学习这些阴性样本的准确表示，则当呈现未见过的样本（阳性或阴性）时，它应该很容易识别它们。我们的兴趣是获得SAE模型学习的输入的潜在表示，并使用它来训练ANN。因此，一旦SAE模型被训练，编码部分就被用来创建另一个网络。该网络用于转换训练集和测试集，包括阳性和阴性样本。这只是将数据集转换为低维表示数据集。第二阶段是使用¼F1¼12t-1θI.D. Mienye等人医学信息学解锁18（2020）1003074转换后的训练集，然后在测试集上进行预测。所提出的方法防止任何可能的数据泄漏和过拟合。5.2. 模型参数实验使用具有以下规格的计算机进行：Intel Core i5- 6300 U，2.40GHz和16 GB RAM。Python被用作编程语言。虽然没有经验法则来获得自动编码器网络的各个层中的隐藏层和神经元的数量，但根据我们的实验设置获得良好的网络结构对于我们来说是很重要的。表2人工神经网络和所提出的方法之间的性能比较。算法准确度（%）精密度（%）召回率（%）F1评分（%）安85728578拟定SAE报告安90899190表3与其他算法的性能比较。性能根据所进行的几个实验，表1中的实验参数提供了最佳性能。在我们的SAE网络中，编码器和解码器中的层（100，75，50和25）围绕瓶颈对称。Adam优化算法采用Kingma和Ba [13]提出的默认参数。此外，Joffe和Szegedy [15]提出的批量归一化技术也被用于提高SAE模型的性能、速度和稳定性。使用32的批量大小的原因是由于较小的批量大小允许模型更快地收敛。6. 结果和讨论算法精度表4精度召回F1分数为了证明我们提出的稀疏自动编码器学习的特征的有效性和性能，首先我们使用原始数据训练ANN，其次使用学习的特征，如表2所示。结果表明，我们的稀疏自编码器学习的低维特征提高了人工神经网络的分类性能，因为所提出的方法比人工神经网络表现得更好，这是一个事实，即稀疏自编码器能够保留输入数据中的信息，同时获得最佳的低维特征。该模型在测试数据上表现良好，这是其效率的主要指标，因为该模型以前没有看到过数据。我们还使用KNN，CART，Logistic回归，朴素贝叶斯和LDA等五种基本分类器进行了比较实验。实验结果总结在表3中。从该表中可以明显看出，所提出的方法优于其他算法。此外，所提出的方法与最近的一些比较如表4所示，它显示了比文献中报道的更好的性能。最后，为了进一步显示所提出的方法的有效性，我们使用宫颈癌风险因素数据集进行了进一步的实验[16]，如表5所示。从迄今为止获得的结果，可以看出，所提出的方法相比，其他方法的分类性能显着改善。很明显，与单独使用ANN进行预测的情况相比，所提出的稀疏自动编码器提高了ANN的准确性。实验结果还表明，改进神经网络的结构和算法的超参数调整，以及改进预处理阶段，表1SAE的参数参数值输入层15第一隐藏层100第二隐藏层75第三隐藏层50第四隐藏层25瓶颈层7稀疏参数0.05训练前学习率0.01批量32所提出的方法和其他最近的学术著作之间的性能比较。作者精度精度召回F1分数（%）（%）（%）（%）Mohan等[1]第一章88.4787.592.890Haq等人[二]《中国日报》89–77–Repaka等人[9]89.77–––Latha和Jeeva85.48–––[10个国家]我们的方法90899190表5在子宫颈癌数据集上比较了该方法与其他算法的性能。算法精度精度召回F1分数（%）（%）（%）（%）SVM93989596决策树90939694KNN93989596朴素贝叶斯94909391安94989194拟定SAE报告安98969897分类过程。7. 结论在这项研究中，提出了一种改进的稀疏自动编码器为基础的人工神经网络，以帮助预测心脏病。稀疏自动编码器用于学习数据的最佳表示，而ANN用于根据学习的记录进行预测。使用Adam算法优化SAE，并应用批次归一化。模型对试验数据的预测准确率为90%。与一些传统的机器学习方法和人工神经网络相比，我们提出的方法表现出更好的性能。资金本研究得到了南非国家研究基金会赠款（编号112108和112142）、南非国家研究基金会奖励赠款（编号95687）、Eskom高等教育支持计划（Y。太阳，Z。Wang），（%）（%）（%）（%）KNN81758176推车76757675LR83848377朴素贝叶斯82788279LDA83818378拟定SAE报告安90899190I.D. Mienye等人医学信息学解锁18（2020）1003075þ þþ约翰内斯堡大学城市资源中心的研究资助同意一个也没有。竞合利益作者声明，他们没有已知的可能影响本文所报告工作CRediT作者贡献声明Imomoiye Domor Mienye ：概念化，方法论，软件，数据管理，写作-初稿，调查，软件，验证. 孙艳霞：调查、监理、软件、验证、撰写、审稿、编辑.&王增辉监制，撰写-审校编辑.&致谢本研究得到了南非国家研究基金会赠款（编号 112108 和112142）、南非国家研究基金会奖励赠款（编号95687）、Eskom高等教育支持计划（Y。太阳，Z。Wang），约翰内斯堡大学URC研究基金附录A. 补充数据本文的补充数据可在 https ： //doi 网站上找到。org/10.1016/j.imu.2020.100307。引用[1] Mohan S，Thirumalai C，Srivastava G.使用混合机器学习技术进行有效的心脏病预测。IEEE Access 2019;7：81542-54. 网址：//doi.org/10.1109/ACCESS.2019.2923707.[2] 吴文辉，李文辉.使用机器学习算法预测心脏病的混合智能系统框架移动信息系统2018年12月;2018：1-21. https://doi.org/10.1155/2018/3860146网站。[3] 放大图片创作者：John M.高效的心脏病预测系统。Procedia计算机科学2016年1月;85：962-9。https://doi.org/10.1016/j的网站。 procs.2016.05.288。[4] I_ rsoy O，Alpaydın E.使用自动编码器树的无监督特征提取神经计算2017年10月;258：63-73. https://doi.org/10.1016/j的网站。neucom.2017.02.075。[5] 朱英，郭建，刘世.一种结合稀疏自编码器和SVM的深度学习方法。2015年：2015年网络支持的分布式计算和知识发现国际会议。第257- 260页。https://doi.org/10.1109/CyberC.2015.39.[6] Moussavi-Khalkhali A，Jamshidi M.使用级联稀疏自编码器和随机梯度下降构建深度回归模型。2016年第15届IEEE机器学习和应用国际会议（ICMLA）; 2016年。第559- 564页。https://doi.org/10.1109/ICMLA.2016.0098网站。[7] 张松，杜波，张良.基于稀疏自编码器的重构误差残差高光谱异常检测算法。在：Igarss 2019 - 2019 IEEE国际地球科学和遥感研讨会; 2019。第5488-91页。https://doi.org/10.1109/IGARSS.2019.8898697。[8] Abavisani M，Patel VM.基于深度稀疏表示的分类。IEEE Signal Process LettJun. 2019;26（6）：948-52. https://doi.org/10.1109/LSP.2019.2913022。[9] 施勇，雷军，尹勇，曹凯，李勇，张春一。基于距离约束堆叠稀疏自编码器的高光谱目标检测鉴别特征学习。Geosci Rem Sens Lett IEEE Sep. 2019;16（9）：1462-6. https://doi.org/10.1109/LGRS.2019.2901019.[10] Wan Z，He H，Tang B.稀疏超参数确定的生成模型。IEEE Transactions on BigData Mar.2018;4（1）：2-10. 网址：//doi.org/10.1109/TBDATA.2017.2689790。[11] Ali A，Yangyu F.基于非负约束稀疏自编码器的深度学习自动调制分类。IEEESignalProcessLettNov.2017;24（11）：1626-30.https://doi.org/10.1109/LSP.2017.2752459网站。[12] Zia ur M.M.等人，用于手部运动的基于EMG的分类的堆叠稀疏自动编码器：表面和肌内EMG之间的比较多日分析。应用科学2018年7月;8（7）：1126。https://doi.org/10.3390/app8071126.[13] Kingma DP，BaJ. Adam：一种随机优化方法。2017年1月。1412.6980[cs]。[14] 心脏病研究数据集[在线]。可查阅https://kaggle.com/amanajmera1/framingham-heart-study-dataset。[2020年1月24日]。[15] Ioffe S，Szegedy C.批量归一化：通过减少内部协变量偏移来加速深度网络训练。Mar.2015. 1502.03167 [cs]。[16] UCI机器学习库：宫颈癌（风险因素）数据集[在线]。可在www.example.com上查阅https://archive.ics.uci.edu/ml/datasets/Cervical癌症%28RiskFactors%29。[2020年1月27日]。

下载后可阅读完整内容，剩余1页未读，立即下载