新优化算法预测心脏病：监督学习前景【医学信息学解锁26】

64 浏览量更新于2024-01-09 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁26（2021）100696使用新的优化算法预测心脏病：监督学习前景A R T I C L EI N FO关键词监督学习Salp群优化算法心脏病预测神经网络A B S T R A C T医学中的数据分析变得越来越频繁，以澄清诊断，改进研究方法，并根据出现的病理的重要性计划适当的设备供应。人工智能提供了分析当前数据以获得最佳结果预测所需的软件解决方案。系统模型能够用于心脏病分类的若干数据处理算法。这项研究工作对数据类别特别感兴趣。分类允许我们从训练数据和测试数据中获得预测模型。通过分类算法筛选这些数据，该算法产生能够详细数据的新模型，通过数学工具和计算机方法的组合，可能具有相同类别的数据。为了分析当前数据以预测最佳结果，我们需要使用优化技术。这项研究工作的目的是设计一个框架，通过使用基于不同分类算法的主要风险因素进行心脏病预测，这些算法包括朴素贝叶斯（NB），贝叶斯优化支持向量机（BO-SVM），K-最近邻（KNN）和Salp Swarm优化神经网络（SSA-NN）。这项研究是为了有效诊断心脏病而进行的，使用的心脏病数据集可在UCI机器仓库。使用BO-SVM获得了最高的性能（准确率=93.3%，精确度= 100%）。SSA-NN的准确度为86.7%，精确度为100%，灵敏度为60%）。结果表明，所提出的新的优化算法可以提供一个有效的医疗监测系统的心脏疾病的早期预测1. 介绍人体疾病是一种非自然的医学状况。它对人体有机体的功能状态产生负面影响。它通常与患者身体中的一些疾病迹象有关。根据世界卫生组织（WHO）的数据，在过去15年中，估计每年有1700万人死于心血管疾病，特别是心脏病发作和中风[1]。心脏病和中风是最大的杀手。为了预测心脏病，机器学习可以用于识别看不见的模式，并提供一些临床见解，帮助医生规划和提供护理。 (see 图（第8-19段）心脏病是指包括心脏、血管、肌肉、瓣膜或负责肌肉收缩的内部电通路根据疾病控制和预防中心（CDC）的数据，心脏病是印度，英国，美国，加拿大和澳大利亚的主要死亡原因之一。心血管疾病（CVD）是临床（即，死亡和残疾），健康和经济负担，占每年总死亡人数的约31%（1790万），美国四分之一的死亡是由于心脏病[2]。心脏病在世界上大多数国家的男性和女性因此，人们应该考虑心脏病的危险因素。虽然它起着遗传作用，但一些生活方式因素会显着影响心脏病。已知https://doi.org/10.1016/j.imu.2021.100696心脏病的危险因素;年龄、性别、家族史、吸烟、某些化疗药物和癌症的放射治疗、营养不良、高血压、高血胆固醇水平、糖尿病、肥胖、身体活动能力、压力和不良卫生[3]。这些是患者暴露于发展CVD的各种风险因素相反，消除或改善这一因素会降低这种风险。这种解释表明了因素和疾病之间的因果关系，这意味着风险因素先于疾病（先行性概念）。纠正这个因素将导致疾病（可逆性的想法）减少其发生。当然，它必须在几个不同的人群中被识别，并提供一个合理的物理病理学解释的疾病。严格地说，当没有直接的因果关系时，它是一个微量白蛋白尿的升高、C反应蛋白“CRP”的升高）。我们将看到主要的心脏病风险因素，如生理因素（年龄，性别和绝经状态），生活方式因素（吸烟，体力活动，酒精，压力），代谢综合征因素（胰岛素抵抗），血脂异常，腹部肥胖，高血压）和饮食因素。心脏病风险因素被定义为患者暴露于该因素会增加发生CVD的风险的因素。相反，消除或改善这一因素会降低这种风险。风险因素与疾病的关联在暴露受试者中观察到的与未暴露受试者相比）和接收日期：2021年5月14日;接收日期：2021年7月20日;接受日期：2021年8月7日2021年8月11日在线提供2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuS.P. Patro等人医学信息学解锁26（2021）1006962逐步关联（与风险因素平行）。当数据集包含各种特征时，其中一些特征是无用的，并会导致不良结果。因此，本研究的主要目的是使用一种组合方法来改善分类和更好的特征选择，这将导致更好的心脏病诊断。在这项研究中，帝国主义的竞争算法与元启发式方法用于优化心脏病的重要特征的选择。该算法可以为遗传算法和其他优化算法的特征选择提供更优的响应。经过数据预处理后的数据集分为训练集和测试集。训练集为80%，测试集为20%。特征提取后，将特征提供给K-最近邻（KNN）、朴素贝叶斯分类器、支持向量机进行分类建议。因此，使用这四种方法的组合可以导致改善心脏病诊断的结果及其不同方面。换句话说，我们正在努力提高心脏病诊断的分类准确性。本文提出的K-最近邻（KNN）、朴素贝叶斯分类器、支持向量机分类器的思想是以前从未做过的。仿真结果表明，该方法与其他算法相比，具有两个优点：一是减少了算法的数目，第二，提高分类精度。本研究的目的如下：从心脏病的新特征中收集数据使用所提出的方法对心脏病发病率进行预测和分类。• 首次使用新的特征选择算法• 提供一种新的组合方法，具有更高的精度本文的结构如下：第2节为文献综述，第3节为设计参数，第4节为优化方法，第5节为研究差距，第6节为建议方法，第7、8和9节为数据分析和分类方法，最后一节为实验结果和结论2. 文献综述关于特征选择的任何分类都起着重要的作用。后来，提出了Swarm算法，并证明了它们在特征选择方面的有价值的性能。文献中有一些关于心脏病分类的研究。其中之一是Shao等人的心脏病分类混合智能建模方案的研究[4]。本文使用13个危险因素预测心脏病。这项研究，这不同于现有的方法，提出了一种新的混合框架，以实现各种风险因素。这个混合框架包含三种方法：多元自适应回归（MAR），逻辑回归（LR）和人工神经网络（ANN）。首先，通过使用LR和MAR来减少风险因子的编码值。然后，剩余的编码因子用于ANN的训练。仿真结果表明，混合方法优于传统的单级神经网络[4]。Priyanka等人关于数据挖掘技术在心脏病预测中的应用的研究，比较了朴素贝叶斯和决策树算法的性能，决策树算法的结果比朴素贝叶斯成功得多，准确率为98.03%-82.35% [ 5 ]。Yekkala等人。[5]使用粒子群优化（PSO）结合粒子方法（随机森林，Ada-Boost和Bagged Tree）来更准确地预测结果。的Heart Statistics数据集有270个样本和14个属性，取自UCI数据库[5]。数据已经被处理，PSO被用作特征选择方法来删除不必要的和丢失的数据。显著特征已经在社区分类器上针对各种性能测量和步骤进行了测试，如下所示。加载数据集合后，在使用PSO清除无用函数后的数据清理技术。强大的功能继续，以及AdaBoost，Bagging和Random Forest。这两个因素的重要性，以充分的功能。最后，我们测量了每个算法的性能。结果，Bagged Tree的执行率为100%，Random Forest为90.37%，AdaBoost为88.89%。根据测试结果，Yekkal等人。[5]证明了在PSO上使用Bagging Trees将提高预测心脏病的学习精度Amin等人[6]使用遗传算法、神经网络、朴素贝叶斯、Bagging树、决策树、核心密度和SVM显示了心脏病预测模型。与反向传播相比，学习更快，更稳定，更准确收集了50例患者的风险因素数据然后，Amin和他的同事们开发了一个使用混合模糊和k近邻方法来预测心脏病的系统;在另一个系统中，使用神经网络社区来诊断心脏病的准确率为89.01%。这种混合系统的优点是帮助患者减少成本和时间，并在心脏病和副作用之前控制自己进行医学检查。研究人员根据混淆矩阵比较了使用的算法。最后，J48的准确度达到了99%。K近邻算法Rithm很简单，但它可以提供令人印象深刻的结果。因素它是一种广泛应用于许多领域的分类方法，也是十大数据挖掘算法之一[8]。通常，彼此靠近的房屋具有相似的特征。我们可以将它们分类，并将它们归类。算法使用同样的逻辑试图将彼此接近的元素组合在一起。数据挖掘技术有两种基本类型：预测方法和描述方法[7]。描述性方法：这些方法识别当前情况，描述数据集中数据的共同属性，并强调对特征的理解和解释。预测方法：这些方法通过学习过去的特征来模拟。他们在已知结果的帮助下使用数据来开发一个可以预测其他数据值的模型。心肌梗死后的抑郁状态似乎使应激风险因素复杂化根据一些研究，CVD患者的抑郁症发病率高于无CVD患者。一些研究认为，心肌梗死后，抑郁状态会增加心脏病事件后两年的复发风险[9]。存在各种方法来解释心理社会因素（压力、焦虑和抑郁）与CVD之间这些因素增加了儿茶酚胺的合成，并对不同的代谢、血压和心率产生影响[10]。根据参考文档[11]数据挖掘有三个主轴：统计，人工智能（AI，包括机器学习）和数据库。虽然这三个轴是很好的指定，这是很难给一个单一的定义数据挖掘。然而，所使用的描述可能在参考文献[11]中陈述，其中提到” 啊E. Hegazy等人[12]强调了如何改进基本SSA结构以提高准确性，收敛性，速度和可靠性。在本研究中，作者提出了一个新的控制参数，以调整现有的解决方案，并建议了一个新的名称，改进salp群算法，Rithm（ISSA）。该算法用于测试特征选择任务。将ISSA算法与K近邻分类器相结合进行特征选择。在这项工作中，他们使用了23个UCI数据集来寻找ISSA算法的性能。ISSA作为一个包装器的特征选择与组合的KNN分类器作为适应度函数。研究人员将ISSA与其他四种群体方法进行了比较。他们得到了优于以前的功能减少的结果····S.P. Patro等人医学信息学解锁26（2021）1006963和分类精度。对于ISSA，平均分类精度结果为0.8422。Pei Du etal.[13]已经实施了一个模型，以获得准确和可靠的空气污染预测。大气污染严重影响人类为了克服这个问题，研究人员提出了一种新的混合模型。为了将原始时间序列分解为不同的模型，实现了鲁棒的数据预处理模型。该模型包含低频和高频。对于空气污染序列预测，研究者使用ELM模型参数，具有较高的预测精度和一致性。通过对PM2.5和PM10的预测实验，验证了混合模型Liyuan Gao等人[14]强调了早期疾病预测和诊断对于改善患者生存率至关重要。认识患者的病情及其预测特征至关重要。作者对各种机器学习系统进行了比较分析。通过替代抽样，该单位计算数据的标准偏差。研究人员在这项研究中更加重视分析和比较机器学习策略，以预测乳腺癌，心脏病和识别早期高危特征。这项研究的结果表明，贝叶斯超参数优化模型如何优于随机搜索和网格搜索方法。研究人员将乳腺癌诊断数据集用于EX tremeGradient Boosting模型，他们获得了94.74%的准确率，而对于心脏病数据集，他们获得了73.50%。Ahmed A. Abusnain等人。[15]强调模式分类是神经网络最流行的应用。最重要的是训练神经网络。研究人员强调，反向传播算法收敛速度慢，因此克服了Salp Swarm算法（SSA）。SSA提供了良好的性能优化问题的结果。对于这项研究工作，他们提出了SSA的优化权重系数的神经网络识别模式分类。他们使用了UCI机器学习库数据集。本文提出了一种利用SSA算法调整神经网络连接权值参数的方法。Zaher Mundher Yaseen等人[16]强调了一种经典的极端学习机（ELM）模型算法。这种方法是基于一个随机的过程，这是没有效率的情况下，局部问题的出色表现的收敛。在这项工作中，研究人员调查了每月底格里斯河，巴格达的预测。研究人员使用Salp Swarm算法，使用ELM进行这项工作。他们采用了20年的河流流量数据时间序列，并根据图形表示和几种统计措施对结果进行了评估。在这项工作中，他们使用了SSA-ELM模型，结果发现，关于RMSE和MAE的绝对度量分别达到8.4和13.1%。Youness Khourdifi等人[17]强调，机器学习是预测心脏病的关键领域之一。优化算法在处理复杂的非线性问题时具有高度的适应性和灵活性，受到研究者的重视。在本研究中，为了提高心脏病分类的质量，使用一种名为快速相关特征选择（FCBF）的方法来过滤冗余特征。研究者允许使用各种分类算法，如支持向量机，k-最近邻，朴素贝叶斯，随机森林的粒子群优化结合蚁群优化过程。通过提出的混合方法，研究人员将心脏病数据集应用于心脏病分类。在提出的FBF、PSO和ACO优化模型的帮助下，KNN和RF的最大分类准确率分别达到99.65%和99.6%。Jiyang Want等[18]提出，可靠有效的负荷预测是运行决策和电力系统规划的重要因素之一。预测的准确性直接影响到电力系统的安全经济运行。由于电力负荷的复杂性和不稳定性，预测精度是一个极具挑战性的问题。因此，研究者提出了一种新的混合系统设计预测通过嵌入多目标模块。Abualigah等人[19]强调了一种详细的salp群算法及其关键特征。SSA算法是一种有效的元启发式优化算法。在机器学习、无线网络、工程设计、存储功率能量和图像处理中，可以使用SSA。他们在这项研究中对各种SSA类型做了全面的回顾，包括混沌Salp算法，头皮群算法的杂交，二进制头皮群算法等。研究人员强调了Salp群算法的不同局限性。SSA算法对多模态策略的控制较少。最后，评论说，SSA共享一些优点，他们是速度，简单和杂交与其他优化算法。Sobhi Ahmed等人。[20]强调了分类算法对数据维度的性能。由于数据的高维性，很多与分类器相关的问题因其计算时间而居高不下，为了避免这一点，特征选择是最好的解决方案。该技术旨在减少特征的数量，并去除不相关的数据、噪声数据和冗余数据。作者强调，元启发式算法是解决这类问题的优越性。在这项研究中，作者提出了混沌版本的Salp Swarm算法。他们用了四种不同的混沌控制勘探和开采之间平衡的地图。研究人员在这项研究中使用了12个著名的数据集，这些数据集来自UCI数据库。对于包装器特征选择，他们使用K-NN分类器评估器。他们将每个数据集分为两部分，80%用于训练数据，20%用于测试数据。SubratKumar Nayak在el [21]中强调了如何处理真实世界的数据，这些数据更加复杂。为了处理这类数据，特征选择起着重要的作用。在这项研究中，作者强调了过滤器的方法，使用多目标差分进化算法的特征选择。该算法用于处理给定数据集的重复和不需要的特征。研究人员强调了两个目标。这些是如何删除冗余的，另一个是错误的功能，通过评估他们的相关性有关的附加功能和类标签。在这项新的工作中，研究人员使用了23个所需数据集的特征子集，并使用10倍交叉验证对其进行了测试。在这项研究中，23，基准数据集测试使用10倍交叉验证的帮助下，四个不同的知名分类器得到的结果。Yun Bai等人[22]强调了PM2.5浓度预测，这对保护公众健康是有用和必要的。在这项研究中，作者提出了一个集成的长短期记忆神经网络（E-LSTM）。该模型分为三个不同的步骤：多模态特征提取，多模态特征学习和集成。在这项研究中，使用了真实的数据集数据集是从北京和中国的环境监测站收集他们在E-LSTM的帮助下开发了不同模式的各种LSTM;它被用作单个LSTM，前馈神经网络，结果是平均绝对误差为19.604%，均方根误差为12.077，相关系数标准为0.994。Alani，H.，等人[23]强调慢性肾病导致高死亡率和高患者支出。CKD可能是导致心脏病的重要因素之一，也这种疾病主要是尿毒症特异性的，并且随着肾功能的下降而增加患病率。由于尿毒症的特异性，导致各种危险因素。它们是血红蛋白、骨骼异常、蛋白尿和矿物质代谢。这种疾病的发现是由于缺乏诊断筛查工具，缺乏敏感性和特异性，使他们可靠，并需要更多的RCT质量的证据来指导干预。JacquelineO'Toole等人[24]表示，由于心脏病可以在年轻人中早期预测主要是在年轻人中，心血管疾病的风险是在他们感到胸痛时发现的。这项研究分析了年轻人的生活习惯和CVD风险在这项工作中，他们使用了26名年轻人的数据，年龄组为39-40岁。这项工作的调查显示患心脏病的风险很低S.P. Patro等人医学信息学解锁26（2021）1006964=十年后，由于年龄的原因。其中一半的年轻成年人被确定为只有2个或更多的CVDRF。但大多数成年人因久坐和超重而患有心脏病。PujaWieslaw等人[25]认为，特征选择是大多数知识发现实验工作的初始部分。在这项研究中，一个基于树的世代特征选择的应用程序，提出了医疗数据分析。基本的方法是估计的重要性，从一个给定的结构的三通与递归应用程序的特征集的生成提取的属性。它有助于从数据集中删除选定的要素。它创建了一个具有关键特征集的下一代，这个过程一直持续到一个关键特征成为随机值。研究人员将这一过程应用于现实世界的医疗数据集，包括Colon数据集和Lancet数据集。在这项工作中，他们认识到几乎所有真正相关的特征（其中19个）都是同时发生的，平均准确率从0.68提高到0.74，只有一个相关特征不重要。Juan-Jose Beunza等人[26]强调了监督的使用机器学习算法预测临床事件的有效性和准确性。在这项工作中，数据来自包含4240个观察结果的心脏研究数据。在这项研究中，他们将重点放在心脏病的风险因素与数据挖掘相结合。研究人员使用不同的机器学习算法以及RapidMiner和R-Studio来分析数据。当AUC为0.71时，采用神经网络模型忽略所有缺失值。后来，他们通过使用RapidMiner和支持向量机使用相同的数据，他们得到了0.75的AUC。锡南角 Salih等人[27]强调，元启发式算法更适合解决不同的优化和工程问题。这类算法几乎没有问题。它们是全局搜索和局部搜索能力。研究人员开发了一种名为游牧民族优化器的算法，用于模拟自然，用于模拟人们的运动性质，他们如何寻找食物，以及他们的生活如何在几年内等。在36个无约束基准函数上验证了算法的有效性。研究的结果是NPO算法的唯一解决方案。Khaled Mohamad Almustafa等人[28]强调，心脏病已成为常见疾病之一，这种疾病的早期诊断对医疗保健提供者来说具有挑战性。在这项研究中，重新-搜索者实施各种分类器为分类心脏疾病数据集，用于预测具有最小属性的心脏病。他们收集了来自瑞士克利夫兰的数据集，其中包含76个特征，类别属性为1025名患者。在这部作品的76个属性中，只使用了14个特征。研究人员使用了各种算法，包括k-最近邻，决策树，朴素贝叶斯，SVM，随机梯度下降最佳分类和预测心脏病病例。使用这些分类算法，研究者得到的正确率分别为99.70%，97.26%和98.04的K.Vembandasamy等人[29]将医疗保健视为当今人类生活和健康事业中的一个重要因素，在医学界引起了关注。医疗保健行业拥有大量的患者数据，并且在这些数据上，应用各种数据挖掘技术来检测患者的心脏病。但是使用数据挖掘技术无法对隐藏的信息进行显著的检验，因此研究者提出了一个利用数据挖掘算法对数据进行分类并检测心脏病的系统。在这项研究中，研究人员使用朴素贝叶斯算法来诊断心脏病患者，并使用weka工具进行实验。所提出的朴素贝叶斯模型对74%的输入实例进行了正确分类。它表现出平均71%的精确度，平均74%的召回率，以及F-71.2%的测量值。VikasChaurasia等人[30]讨论了心脏病是导致死亡的重要因素，其中大多数死亡发生在低收入和中等收入国家。医疗保健行业收集了大量量的心脏疾病数据，但这些数据不充分挖掘，发现隐藏的信息，做出有效的决策。在本研究中，研究者使用各种数据挖掘技术在数据库中突出不同的知识发现概念，以帮助医疗从业者做出有效的决策。这项研究工作的主要座右铭是用更少的属性更准确地预测心脏病的存在。研究人员只采用了11个特征，并使用了三种分类器，即J48决策树，朴素贝叶斯和Bagging算法来预测患者的诊断。在这项工作中，研究人员得到的最高准确率为85.03%，最低为82.31%，而其他算法的平均准确率为84.35%。Yudong Zhang等人[31]强调，实际的群优化被视为一种启发式全局优化方法，是最常用的优化技术之一。在这项研究中，作者介绍了粒子群算法的全面调查与它的进步，修改，如量子行为粒子群算法，混沌粒子群算法，模糊粒子群算法等，作者调查了粒子群算法在不同领域的各种应用。他们是自动化控制系统，运筹学，通信理论，燃料，能源等这项工作分为各个方面，包括粒子群算法的修改，粒子群算法的扩展，粒子群算法的杂交，粒子群算法的并行实现，粒子群算法的理论分析。Jianzhou Rizk-Allah等人[32]这是一个典型的SALP Swarm算法。最近提出的元启发式算法模仿了海鞘本文提出了一种新的SSA算法，即二进制Salp群算法，命名为BSSA。建议的BSSA是用来比较四种不同的变形的转换函数解决一些全局优化问题。除了一些非参数统计检验外，还进行了名为Wil-COX ON的秩和检验，显著性水平为5%，用于在统计学上判断不同算法之间所获得结果的重要性。在本工作中，BSSA 的结果优于其他算法。Patro，S. P等人[33]强调了对老年人口进行医疗保健的挑战。大多数情况下，心脏病和慢性疾病对这些老年人来说变得更加危险，有时会导致心脏病发作而没有任何预兆。医生很难及时确认病人的病情。在这方面，研究人员提出了一个模型，可以识别这些挑战，远程实时患者健康数据。提出了一个使用基于不同分类器算法的主要风险因素在数据分类方面，研究者使用了主成分分析和线性判别分析。他们使用了一个开源数据集。在这个过程中，他们使用了14个属性。成功实现后，支持向量机提供了92%的准确率，F1准确率为85%。汗，M。一、等人[34]讨论了物联网的应用，包括制造业、农业、医疗保健等。研究人员主要研究可穿戴设备在医疗物联网健康监测系统中的应用。我们可以借助其帮助对临床数据进行分析，从而确定心脏病死亡率的早期检测预测。在这项研究中，他们使用机器学习技术研究了心脏病预测的关键特征提高预测旨在诊断心脏病的IoMT框架的准确性，本研究采用一种自适应神经模糊推理系统--改进的salp群算法。所提出的MSSO-ANFIS预测模型获得了99.45的准确度和96.54的精度，这是高于其他方法。王杰，等人[35]提出了冠状动脉造影（CAG）方法用于诊断冠心病（CHD）。机器学习的帮助，以执行不同的选择性的多个ml算法的特征选择方法是用于医疗保健行业。在这项研究中，他们实现了一个两级堆叠，称为基础级和元级。选择基本级分类器的预测作为元级的输入。他们在这项研究中使用了Z-Alizadeh Sani CHD数据集，该数据集由2020例CAG病例组成。该模型的准确性、特异性和灵敏度分别为95.3%、94.44% 和95.84% 。S.P. Patro等人医学信息学解锁26（2021）1006965所有上述技术的共同目标是使用混合分类技术对心脏病进行分类。许多研究是只使用分类和优化技术进行的。所提出的方法，以实现所需的结果，通过识别不同的优化技术与各种机器学习算法。在这项研究中，提出了不同的分类器方法，包括结合不同的基于集成的机器学习算法来识别冗余特征，以提高心脏病分类的准确性和质量。我们将使用各种分类算法对心脏病数据集进行分类的比较分析，所有分类器大多用于类似心脏病相关研究的数据集分类。在此基础上，我们将贝叶斯优化支持向量机（BO-SVM）、K-近邻（KNN）分类器与K-10折交叉验证分类器进行对比研究。然后，我们将应用不同的分类器算法，如朴素贝叶斯（NB），贝叶斯优化支持向量机（BO-SVM），K最近邻（KNN）和Salp Swarm优化神经网络（SSA- NN）。本研究的主要目标是通过使用基于不同分类器算法的主要危险因素，如贝叶斯优化支持向量机（BO-SVM），K-最近邻（KNN），找到预测心脏病的最佳准确性。3. 设计参数参数或设计变量是影响性能的受控因素。它们可以是各种性质的：几何尺寸，材料的属性，结构的选择等，它们可以是定量或定性，连续或离散。参数的选择和数量也决定了优化问题的定义。增加搜索空间的因素很多，但优化过程需要较长的时间.例如，适当的几何形状，以确保保留的模型的有效性及其正常功能等。4. 优化方法4.1. 不断优化连续优化是通过两种方法，第一线性和第二非线性。整数中的线性优化研究线性优化问题，其中特定或所有变量被控制以获得整数值。非线性优化提供了目标或约束（或两者）包含非线性、可能非凸的部分的正常情况。4.2. 组合优化组合优化就是在有限的选择中寻找最佳解.换句话说，在有限的可能性集合上，最小化一个函数，有或没有约束。当可能的组合的数量与问题的大小成指数关系时，计算时间迅速变得至关重要。如果一个广义优化问题包括找到一个优化成本函数值x 0001的解X0001，那么形式上，我们因此寻求s*∈X使得f（s*）≤f对于所有s∈/s>（1）这样的解称为最优解或全局最优解.5. 研究差距数据质量从各种基本维度（准确性，及时性，相关性，完整性，可理解性和可靠性）来看，主要解决特定研究项目中数据的完整性。缺少数据值会导致错误;没有值的数据会产生歧义，因为它可能是正确的，也可能是错误的。其重要性在于决策效率取决于数据的质量。数据维度的微小改进可导致决策信息的大幅改进。因此，它是有益的组织有证明研究的选择和评估的计算学习技术的特点，并使用混合技术，改善所获得的结果。已经创建了各种方法来分析心脏病。尽管如此，发展还是有一定程度的依赖性，而且仍然有一些系统正在创建，以打破当前战略的限制。有不同的数据挖掘技术来发现疾病、症状和处方之间的关系。虽然这样的方法有一定的约束，迭代次数，一致争用的处理，更高的响应时间，等等。反向传播神经网络的主要限制是，如果权重值是随机的（未优化），则会导致更高的MSE（均方误差）。因此，本研究工作使用Salp用群算法优化神经网络降低MSE。因此，SSA优化的神经网络的准确性高于单独的神经网络。类似地，通过贝叶斯优化来优化支持向量机。KNN和朴素贝叶斯分类算法也被用于研究工作的比较分析。6. 拟议方法在这项研究工作中，我们更加关注机器学习。机器学习是一门包含算法的学科，它有助于经验数据以两种方法进行。首先，通过数据的特征识别复杂的关系，并使用模式进行预测。在数据中，有可能找到通过算法观察到的变量之间的关系，这就像一台机器，从数据样本或训练数据中学习，以捕捉通过概率分布观察不到的特征。可以使用学到的知识来使用新数据做出更明智的决策。通常，我们可以根据结果将机器学习算法分为不同的类别。这些分类中很少有监督学习和非监督学习。当我们要分析巨大的变量时，可能会面临一些高维问题。为了避免这些问题，使用了各种分类方法。例如，在使用其他方法之前使用一步选择方法可以增加后者的功率。每一种战略都有几个一般特征，它们是1。降维方法2.选择变量的方法。6.1. 数据分析和编码在这项工作中，使用克利夫兰数据集。本工作的数据是以矩阵的形式取得的。矩阵X包含一组行和列。通过这些数据，我们可以预测心脏病。在UCI存储库中他们是匈牙利人，克利夫兰，瑞士。该数据集包含76个属性和303条记录。但所有发表的实验都提到使用其中14个的子集给定数据集中的目标列包括两个不同的类;对于心脏病，它表示1，否则表示0。数据集的重要风险因素见表1。该表包括各种风险因素及其相应的值，··S.P. Patro等人医学信息学解锁26（2021）1006966表1风险因素及其相应的编码[36]。S. 号风险因素值1性别男性（1），女性（0）2年龄（岁）20-34（-2），3561-79（1），>79（2）手动和过载。因此，分别采用贝叶斯优化和Salp群优化对SVM和神经网络这两种分类此外，使用两种独立的分类方法是KNN和朴素贝叶斯。提出这些方法来定义分析数据中的最佳聚类数所提出的方法如图所示。1.一、3血液胆固醇4血液压力低于200 mg/dL -低（-1）200-低于120 mm Hg-低（-1）120-高于139毫米汞柱-高（1）7. 使用K-最近邻的首先，考虑三个参数：样本数据，要选择的最近邻的数量（K）以及我们想要的点。5遗传性家庭成员诊断为HD-是（1）否则evaluate（X）.随后，对于样本的每个元素，我们评估6吸烟7酒精摄入8物理–No是（1）或否（0）是（1）或否（0）参考点X和学习集的点Xi之间的距离并且我们检查它们之间的距离是否小于包含在最近邻居列表中的距离之一如果是，则将该点添加到活动低（-1）、正常（0）或高（1）9糖尿病是（1）或否（0）10饮食不良（-1）、正常（0）或良好（1）11肥胖是（1）或否（0）12压力是（1）或否（0）输出心脏病是（1）或否（0）括号中为编码值。这些编码值将被用作拟议框架的输入。机器学习方法是动态的，因为它们通常包含几个需要优化以获得最佳性能的参数，并且手动优化数据以及过载可能会很累。因此，分别采用贝叶斯优化和Salp群优化对SVM和神经网络这两种分类方法进行了优化此外，使用两种独立的分类方法是KNN和朴素贝叶斯。这些方法被提出来定义一个最佳数量的聚类分析数据。6.2. 数据分析和编码数据集的显著风险因素见表1。该表包括各种风险因素及其相应值，以及括号中的编码值。这些编码值将被用作拟议框架的输入。机器学习方法是动态的，因为它们通常包含几个需要优化以获得最佳性能的参数。优化数据名单如果列表中的项目数比K更重要，则从列表中删除最后一个值上述图图2说明了K-最近邻的分类。算法本身并不复杂，如果采样不是太大，可能会导致暴力破解。然而，由于我们谈论的是数据挖掘，要评估的信息的数量往往是非常大的，这就是为什么需要优化算法。有许多类型的树可以加速搜索，如JCD树或球树。算法球树将在本报告的后面部分介绍下面是表示算法的伪代码[37]。第1阶段：在心脏病预测中，遵循最顶级存储库之一的数据集，称为UCI机器学习，是用于分析机器学习算法的数据生成器的集合。阶段-2：数据预处理步骤将与逻辑回归保持相同，这是指清理和组织原始数据以构建和训练机器学习模型。通常，机器学习的数据预处理遵循特定的步骤，如：1.1. 导入库。1.2. 导入数据集，这些数据集几乎都是CSV格式1.3. 关注数据集中的缺失数据。为了识别丢失的数据，我们使用的一个库被称为“Scikit Learn“预处理，Fig. 1. 拟议方法。S.P. Patro等人医学信息学解锁26（2021）1006967=图二. 使用K-最近邻进行分类。包含一个名为“imputer“的类1.4. 编码分类数据。1.5. 将数据集分为训练集和测试集。1.6. 功能缩放。这一步是数据预处理的最后一步阶段-3：训练数据集，这里将K-NN分类器拟合到训练数据。为此，我们将导入Sklean Neighbors库的K- Neighbors Classifier类。在导入类之后，我们将能够创建类的Classifier对象阶段-4：在评估训练数据集之后，它通过K-最近邻方法进行类的预测，我们正在实现KNN算法，该算法将像这样工作4.1 加载数据4.2 将K初始化为您选择的邻居数。4.3 现在比较实际/期望输出。对于预测类，重复从1到总数的过程。从其编号存储在KNN中的样本类中确定X8. 使用朴素贝叶斯分类器进行朴素贝叶斯技术基于概率论。在这一点上，条件概率是通过频率来计算的，以预测新病例的预测。图3示出了基于朴素贝叶斯分类器的方法。设E和F事件，我们可以将E表示为：E EFEF c（2）也就是说，要使事件E发生，E和F必须同时发生，或者E必须同时发生而F没有因为EF和EFc是互斥的，所以我们有：P（E）=P（EF）+P（EFc）C c训练数据点。然后计算测试之间的距离数据和训练数据之间的距离度量采用了最流行的距离度量称为欧氏距离的方法，而索引则是对有序集合的排序。现在从排序数组中选择前K个条目，并获得所选K个条目中最频繁的类。4.4 如果有任何错误，则重复步骤-1至3。否则，返回预测的类。=P（E|F）P（F）+P（E）|F）P（F）=P（E|F）P（F）+P（E）|（1-P（F））（3）等式（3）表明事件E的概率是给定F已经发生的E的条件概率和给定F尚未发生的事件E的每个条件概率提供与条件事件一样多的权重S.P. Patro等人医学信息学解锁26（2021）1006968n（一）|）的方式（一）|）的方式我.）。⃒） . ）1 2mJJPFjE=P（E）=∑nP（E|F i）P（F i）（图3.第三章。所提出的朴素贝叶斯方法的基本框图。往往会发生。n n等式（3）可以概括如下：i=1P（E）= ∑P（EF i）= ∑P（E|F i）P（F i）（6）F1，F2，. Fn是互斥的，Fi=S，其中S是i=1i=1样本空间换句话说，恰好有一个事件（图 4）.可以将上面写为：因此，等式（6）示出了如何原谅事件F1、F2、. 其中，一个且只有一个可以发生，P（ E）可以在F1发生的条件下计算也就是说，确定P（ E）等于E=i=1Ei（4）根据条件概率的定义，我们有：P（EF i）= P（E|F i）P（F i）（5）此外，使用的事实的的 EFi事件 i=1，P E Fi的权重，并且每个项都由它所处的事件的概率加权。现在假设E已经发生，你想确定事件Fj发生的概率通过等式（6），我们有：P（EF）P.EF）P.F）的情况。）i=1等式（7）被称为贝叶斯公式。因此，我们可以将E视为Fj的证据，并计算给定证据的Fj发生的概率P E Fi。现在假设你有来自多个来源的证据。根据等式（4）：P F E E EP E1E2P（E1E2上述公式将用于获得结果。（八）图四、事件E与一个互斥事件一起发生Fj[38].相互排斥，我们得到：产生形容词“天真”的假设是变量之间的独立性，这并不总是正确的。然而，该方法是有效的，在其实施的知识有关。它在相对较大的数量中被发现，而不是在概率的值本身中被发现。9. 使用贝叶斯优化SVM分类器进行图5示出了在以下副标题中描述的贝叶斯优化的基于SVM分类器的方法。S.P. Patro等人医学信息学解锁26（2021）1006969{\displaystyle {\frac {}（一）|）=的（）（|）的方式（一）|）的方式2个r1Mi 1年我我我9.1. 支持向量机今天，在许多现实世界的问题中，我们使用多类分类。以前，支持向量机用于处理二进制（+/-1）问题。目标函数表示为：首先，先验模型必须在可能的函数空间中选择。可以使用不同的参数方法，例如Beta- Bernoulli Bandit或线性模型（广义）或非参数模型，例如t-Student过程或高斯过程。然后重复，直到特定的停止标准：到目前为止，将观测值的先验和似然组合在一起wr∈H，∈r∈Rm，br∈R1∑wr2+c∑∑εr（九）以获得后验分布。这是使用贝叶斯定理完成的，这就是这个名字的由来。受制于：=-闪烁= 1回想一下贝叶斯假设A和B是两个事件，条件概率P（B|已知，则概率P（A |B）、Wyi，Xi+byi≥Wr，Xi+br+2-εr，由下式给出：其中，m1，Xi模式。PA BP（B|A）PP（B）（十一）在精度方面，用这种方法获得的结果与直接使用一个对其余方法获得的结果相当。对于实际问题，方法的选择取决于可用的限制，相关因素包括所需的精度，可用于开发的时间，处理时间和分类问题的性质。9.2. 支持向量机的贝叶斯优化贝叶斯优化算法的主要思想是通过构造一个代理概率模型来推断目标函数。迭代地，新的意见。更新模型，减少其不确定性，允许使用已知且更便宜的模型，该模型用于构建确定下一个要评估的点的效

下载后可阅读完整内容，剩余1页未读，立即下载