基于XGBoost的优化心脏病预测系统的研究

65 浏览量更新于2024-01-27 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报一个优化的基于XGBoost的诊断系统，用于有效预测心脏病Kartik BudholiyaSahara，Shailendra Kumar Shrivastava，Vivek Sharma计算机科学工程，Samrat Ashok技术学院，印度阿提奇莱因福奥文章历史记录：收到2020年2020年9月24日修订2020年10月17日接受2020年10月23日网上发售保留字：XGBoost贝叶斯优化分类特征编码心脏病预测A B S T R A C T多年来，研究人员已经创建了几个专家系统来早期预测心脏病，并协助心脏病专家加强诊断过程。我们提出了一个诊断系统，在本文中，利用优化的XGBoost（极端梯度提升）分类器来预测心脏病。正确的超参数调整对于任何分类器的成功应用都是必不可少的。为了优化XGBoost的超参数，我们使用了贝叶斯优化，这是一种非常有效的超参数优化方法。我们还使用One-Hot（OH）编码技术对数据集中的分类特征进行编码，以提高预测精度。在Cleveland心脏病数据集上评估了该模型的有效性，并将其与随机森林（RF）和额外树（ET）分类器进行了比较。五种不同的评价指标：使用ROC图的准确性、灵敏度、特异性、F1评分和AUC（曲线下面积）进行性能评估。实验结果表明，它的有效性和心脏病的预测效果。此外，建议的模型显示更好的per-perception相比，以前建议的模型。此外，我们提出的方法达到了91.8%的高预测精度。我们的研究结果表明，所提出的方法可以可靠地用于预测心脏病在临床上。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍医疗机构（医院、医疗中心）在以可承受的成本提供优质服务方面面临着重大挑战。优质服务包括医疗评估和正确提供有效治疗。基于机器学习的专家系统可以降低医学检验的相关成本，并提高诊断过程。在先前的研究中，研究人员已经开发了基于不同技术的用于预测心脏病的各种诊断系统（Samuel等人，2017，2013; Alizadehsani等人，2012;Arabasadi等人，2017; Polat等人， 2007; Das等人，2009; Anooj，2012; Babaoglu例如，2010; Olaniyi等人，2015年; Atomariah等人，2014;Manogaran等人，2018 年;Güz，s en和Güne，s，2009年;Ali等人， 2019）。*通讯作者：Shakti Bhawan，Sai Enclave，Vidisha，Madhya Pradesh 464001，India.电子邮件地址：kartikbudholiya@outlook.com（K. Budholiya）。沙特国王大学负责同行审查为了降低心脏病诊断障碍和提高预测准确性，开发了各种诊断系统，我们正在尝试开发基于XGBoost（极端梯度提升）分类器的诊断系统。XGBoost算法是梯度提升算法的高级实现，并已成功应用于某些研究（Xia等人，2017; Zieba等人，2016年）。它能够处理正则化和过拟合-欠拟合问题。它使用用户给出的一组超参数值的准确度和ROC图的AUC来评估其在分类问题中的功效。从该模型导出的分类器的功效在很大程度上取决于要由用户修改的参数的数量;这些通常被称为超参数，并且它们的值可以显著影响分类器的效率。机器学习算法的超参数的适当调整然而，这个任务可以作为一个优化问题，以获得最佳的潜在的解决方案，系统和有效地，给定一个适当的目标函数捕捉分类器几种方法，例如手动、网格搜索（GS）、随机搜索（RS）（BergstraandY和Bengio，2012; Mantovani等人，2015）和贝叶斯优化（Snoek等人，2012年，在https://doi.org/10.1016/j.jksuci.2020.10.0131319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comK. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4515解决了超参数调整的问题。如果要考虑大量的超参数值，则用户对超参数的手动调整是非常无效且没有希望的方法。网格搜索和随机搜索需要很长的运行时间，因为它们会浪费时间来评估搜索空间中没有希望的区域。这些方法几乎不依赖于模型在以前的优化过程中学习到的任何信息。贝叶斯优化（Wu等人，2019）另一方面，不断从以前的优化中学习，以找到最佳优化的参数列表，并且还需要更少的样本来学习或获得最佳值。贝叶斯优化引起了机器学习科学家的注意，作为超参数调整的有效工具，特别是复杂的模型（Bergstra等人，2011; Thornton等人，2013; Mockus，1994; Lizotte等人，2007; Brochu等人，1012;González等人，1505）。实验在从加州大学欧文分校（UCI）在线机器学习和数据挖掘存储库获取的克利夫兰心脏病数据集上进行。使用这个数据集，我们提出了一个基于XGBoost的优化模型，用于有效预测心脏病。本文我们设计了一个心脏病预测诊断系统，包括分类特征编码和心脏病预测。本文提出了一种基于XGBoost的心脏病预测模型，该模型在数据预处理阶段使用One-Hot（OH）编码技术对分类特征进行编码，并使用贝叶斯优化技术对XGBoost超参数进行调整，以提高预测结果。我们将最终提出的模型与其他机器学习模型进行了比较。结果表明，该模型具有较好的性能.本文的其余部分组织如下。在第2节中，我们讨论了本文中使用的材料和方法的细节。在第3节中，我们描述了方法，实验结果和讨论在第4节中显示最后在第五节中得出结论。2. 背景本节简要介绍了本文使用的数据集、2.1. 心脏病数据集描述对于我们的研究，克利夫兰心脏病数据集从加州大学欧文分校（UCI）在线机器学习和数据挖掘存储库（Cleveland，0000）获得。该数据集包含303个主题记录实例，但其中6个包含缺失的类值。该数据集包含每个受试者的76个变量，但过去的研究表明，13个特征在检测心脏病方面是有效的。该数据集具有分类和数值特征;我们在表1中列出了它们。数据集的目的是根据对受试者进行的各种医学测试的结果来预测心脏病的存在或不存在。数据集中的“num”变量显示受试者是否存在心脏病。“num”变量具有从0（不存在）到4的值。先前对克利夫兰数据集的研究试图区分心脏病的存在（值1、2、3、4）与心脏病的不存在（值0）。2.2. 以前的研究克利夫兰心脏病数据集被用于各种分类模型对心脏病的预测，在过去的十年中，他们报告了很高的预测精度 Das等人表1心脏病数据集的特征。特征编号特征描述类型1年龄数值2性分类3胸痛型分类4静息血压数值5血清胆固醇数值6空腹血糖分类7静息心电图结果分类8达到的最大心率数值9心绞痛分类10ST-压低数值11ST斜率分类12主要船只分类13地中海贫血分类14num（目标变量）分类在所提出的系统的中间是神经网络（多层前馈神经网络）集成过程。这种基于集成的方法通过整合后验概率或期望值从几个前趋模型创建新模型他们提出的模型取得了89.01%的分类准确率Anooj（2012）提出了一种用于心脏病诊断的加权模糊临床决策支持系统（CDSS）他们提出的临床决策支持系统有两个阶段。首先，利用挖掘方法、属性选择和属性加权方法得到加权模糊规则。然后，根据加权模糊规则和选定的属性，设计模糊系统使用克利夫兰心脏病数据集在该系统上进行的实验具有62.35%的预测准确率 Samuel等人（2017）使用模糊层次分析法（Fuzzy AHP）技术根据属性的个体贡献来确定属性的全局权重。然后，代表属性贡献的全局权重被应用于训练神经网络分类器来预测心脏病。他们提出的混合方法（人工神经网络和模糊层次分析法）在MATLAB上实现。Ali等人（2019）介绍了一种诊断系统，该系统堆叠了两个支持向量机（SVM）模型来预测心脏病。第一个SVM模型是L1正则化的，具有线性核。第二个SVM模型是L2正则化的。他们提出了一种混合网格搜索算法（HGSA），可以同时优化这两个模型他们提出的模型具有92.22%的准确率。他们使用Python包来模拟实验。从（Ali et al.，2019），我们需要解决正则化和过拟合-欠拟合问题。虽然先前的方法提供了结果的实质性改进，但是，仍然存在一些未探索的技术：（i）上述方法都没有探索基于树的机器学习算法，如XGBoost，其具有用于正则化和处理过拟合-欠拟合的内置参数;（ii）现有方法没有使用分类特征编码技术来编码心脏病数据集中的分类特征;（iii）直到现在，这些先前的方法没有使用贝叶斯优化作为用于优化机器学习模型的超参数优化技术，其与穷举搜索策略相比非常有效。2.3. Xgboost（极限梯度增强）XGBoost （ Chen and Guestrin ， 2016 ）（ Extreme GradientBoosting）和Gradient Boosting（Friedman，2001）（GB）都是集成树方法，使用梯度下降架构来提升弱学习器。然而，XGBoost增强了基本的GBK. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4516P¼ið ÞX2通过系统优化和算法改进，最初由Chen和Guestrin（2016）进行，并由其他开发人员继续进行。XGboost是一个属于分布式机器学习社区（DMLC）的软件包。GB是一个阶段性的加性模型（弗里德曼，10月。 2001年）。第一、表2XGBoost分类器参数。参数默认说明learning_rate 0.3收缩每一步的权重n_estimators 100要拟合的树的数量。弱分类器适合于数据。它符合一个更弱的分类器为了改善现有模型的性能，客观二元：逻辑二分类逻辑回归在前一个分类器中的变化，并且该过程继续。每个新的分类器都必须考虑以前的分类器在哪里表现不好。一般Boosting算法流程如图所示。1.一、首先，我们通过将数据拟合到决策树来估计y1，并且第二棵树基于来自连续步骤的残差（y-y1）来拟合，采用类比法可以有效地减小算法误差。在仔细阅读Chen和Guestrin（2016），Friedman（2001）和Xia等人的工作后，GB和XGBoost算法总结如下。（2017年）。假设我们D ¼ x ; y;j Dj <$n;x2Rm;y2Rn是样本数，m是特征数，x和booster gbtree为每次迭代选择模型nthread max输入系统核心数min_child_weight1最小重量max_depth 6树的最大深度gamma 0所需的最小损失减少分裂subsample 1控制样本的比例colsample_bytree1列的通过正则化项控制模型的简单性。我们可以定义XGBoost的目标函数，如等式（3）所示：y表示数据集的特征和目标变量。我们的n k心脏病数据集包含n= 303个观察结果和m = 13个fea。图。在GB中，对于数据集D，k树预测得分总和是预-Obj¼XLy^i;yiXRfi31/11/1通过被称为K加性函数的函数计算的检测结果，如等式（1）所示。（1）：其中L表示损失函数，其确定模型对训练数据的兼容性;预测标签由y^i表示，yi表示实际标签。R（f）负责处罚y^kk¼1fkxi;fk2F1训练树函数的复杂性。它还处理过拟合问题。为了定义复杂性，首先，我们需要其中，yi表示在第k次提升时第i个实例的预测，xi表示训练数据集的第i个第k棵树的值是fkxi，所有决策树的值都由函数F表示.GB最小化损失函数Lk，其定义在等式中。（二）、n定义树f的函数为fxwqx;w2RT;q：Rm！f1;2;· ··;Tg4这里w表示叶子分数向量，q表示将数据实例映射到对应叶子的映射函数，并且叶子的数量由T表示。的公式惩罚模型的复杂性在等式中示出。（五）：LkLy^i;yi21/1由于GB和XGBoost都是基于决策树的算法，RfcTajjwjj一千jjwjj2ð5Þ使用多个树相关超参数（包括子样本和max_depth）来减少过拟合问题并提高模型性能。此外，learning_rate管理添加到模型中的树权重，它还用于降低模型对训练数据的适应率。XGBoost还定义了这些超参数，它们的描述可以在表2中找到。XGBoost目标函数具有正则化概念，有助于选择预测函数并控制模型的复杂性。将损失函数和正则化项放在一起，我们得到XGBoost的目标函数。模型的预测能力由损失函数控制，其中k和c是超参数或常系数，每个叶值由c表示，并且叶的总数在树中，由T表示。jjwjj2表示叶控制的k项权重的L2范数，jjwjj表示叶控制的a项权重的L1范数。L2正则化（由reg_lambda项控制）鼓励权重较小，而L1正则化（由reg_alpha项控制）鼓励稀疏。用于进一步划分的超参数c（gamma）确定最小损失减少。类似于c，a超参数wmc（min_child_weight）控制树的深度，大的wmc可以使模型在Fig. 1. 梯度提升算法流程。K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4517X2Xy1/1我我不不我^2011-01- 21我我我Pn分裂的过程。上述超参数的定义可以在表2中找到。像其他监督学习模型一样，我们有一个目标函数，我们需要优化它。XGBoost使用梯度下降来优化目标函数。我们的模型是一个加性模型，每次预测结果等于前一棵树和新树的组合结果时，它都会在模型中包含一棵树。因此，在第t步，在这些方程中，每一步的目标由方程计算。（6）并且选择ft以最小化目标函数。减少预测结果以及加上ft后的实际结果。Objtn Ly;y^t-1fxiRf常数6由于我们没有每个目标函数的导数，因此我们计算二阶泰勒近似，如等式所示。（七）、目标尺寸X½L×y;y^t-1mm×i1hif2xi]Rfxω¼arg minfx 11这里，f（x）表示在验证集中评估的要最小化的客观分数;xω是产生最低分数值的超参数的集合，并且x可以取X域中的任何值。简单地说，我们要找到在验证集度量上给出最佳得分的模型超参数。超参数优化的问题是，评估目标函数以找到分数的成本非常高。我们必须在训练数据上训练模型，在验证数据上进行预测，然后在每次尝试不同的超参数时测量验证度量。由于有大量的超参数和模型，如合奏或深度神经网络，可能需要几天的时间来训练，这个过程无法手动完成。超参数优化的四种常用方法如下：● 手动搜索我我1/1我不2吨吨● 网格搜索● 随机搜索常数其中g 是（8）且H1是（9）。g ¼@t1L/y;y^t-1L/yy● 贝叶斯优化人工搜索对于大量的超参数是难以处理的。网格和随机搜索优于人工搜索i^-i我我ð9Þ因为他们可以自动运行训练-预测-评估循环，h ¼@2L/y;y^t-1L/y通过从方程中去除常数项并添加正则化项，（5），我们得到Eq.（10），ObjtPn½giftxi1hif2xi]cTaPT xj1kPT X2然而，即使这些方法也有些低效，因为它们在选择要评估的下一个超参数结果，很多时候他们花了大量的时间来评估错误的集合，1/2吨第1页2j¼1Jð10Þ超参数。另一方面，贝叶斯优化考虑到当量（10）示出了第t步的目标函数。与GB相比，列二次采样（Zieba等人， 2016）是XGBoost中使用的另一种技术，以进一步避免过拟合。事实证明，使用列子采样在防止过拟合方面比传统的行子采样更有效（Bergstra 和Bengio ，2012 ）。数据的行子采样由超参数 “subsample” 完成“colsample_bytree”超参数的定义树结构是通过计算每一层的叶子分数、正则化和目标函数来建立的，因为不可能同时计算树的所有组合该树结构将在后续迭代中重用，这将显著降低计算复杂度。此外，在节点分裂过程中计算每个特征的增益它不断地寻找最佳分裂点，直到达到最大深度。然后，它修剪出的节点在一个自下而上的顺序，具有负增益。这XGBoost有许多超参数（XGBoost，0000），这些超参数可以用来执行模型所需的一些任务。我们在表2中列出了用于获得结果的参数。我们基于表2中描述的超参数计算结果。如果未设置参数，则XGBoost会选择默认值，但可以根据所需模型指定参数。2.4. 超参数优化机器学习中的超参数优化是为给定的机器学习算法找到最佳超参数，该算法在验证集上进行评估时具有最佳性能。超参数优化以方程的形式表示为：当选择下一步评估的超参数集通过以知情的方式选择其超参数组合，它使自己能够集中于它认为将带来最有希望的验证分数的搜索空间通常，该方法需要较少的迭代来获得超参数值的最佳集合。在仔细阅读之后（Wu等人， 2019年），我们可以有把握地假设贝叶斯优化可以应用于广泛使用的机器学习模型，并且与人工搜索相比，它还大大减少了运行时间。2.5. 贝叶斯优化XGBoost有几个超参数，调整这些超参数可能非常复杂，因为选择超参数会显著影响模型的性能。因此，小心地调整这些超参数是重要的。网格搜索（GS）已经在先前的研究中被应用于模型的超参数调整（Ali等人，2019年），其模型中的超参数数量较少，但对于我们的XGBoost模型来说是不可行的，因为我们的模型中包含了大量的超参数。贝叶斯优化是全局优化目标函数的有效方式，其评估成本高（Mockus，1994; Jones等人，0000）。本文介绍了贝叶斯超参数优化技术，并将其用于XGBoost模型的优化。大多数机器学习优化问题是黑盒优化问题，其中fx是黑盒函数。我们没有f的解析表达式，也不知道它的导数。这是贝叶斯优化技术最有用的领域。该技术用于近似目标函数的模型称为代理模型。高斯过程（ GPs ）（ Rasmussen ， 2004;Williams and Rasmussen，2006）是贝叶斯优化的一种常见替代模型。未知的目标在预先确定的模型超参数网格上循环K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4518使用高斯过程（GP）对函数空间进行建模GP是无限数量的随机变量的集合，这些随机变量对于任何有限数量的组合具有联合高斯分布GP提供了一种方法来指定由其均值和协方差函数定义的光滑函数空间上的先验分布。Matérn内核2.5也用于所提出的模型是一个流行的协方差函数的选择此外，贝叶斯优化使用了一个采集函数，它将采样引导到有可能改善当前最佳观测的区域。获取函数的作用是指导我们达到最佳目标函数。捕获函数以这样的方式定义，即高的捕获函数值对应于高的目标函数值。为了得到下一个评估点，它优化了采集函数。期望改进（EI）、最大改进概率（MPI）和置信上限（UCB）是常用的捕获函数。在下文中，预期改进（EI）将用于所提出的模型中，其是最广泛使用的获取函数。假设f是目标函数，其采样点为xt：xt¼ argmaxxuxj D1：t-112其中u是采集函数，在我们的情况下是预期改进（EI），并且D1 ：t-11/4fx1;y1;：;fxt-1;yt-1，包含到目前为止从f中提取的t - 1个样本。2.5.1. 通用贝叶斯优化算法对于t1/4; 2;3 ···重复：● 通过在GP上优化采集函数，找到下一个采样点：● 通过评估目标函数f，获得可能有噪声的样本yt<$f <$xt<$st● 将新样本xt;y t添加到以前的样本D1：t1/4fD1：t-1;t1xt;yt重新生成并更新GP。2.6. 分类变量和数值变量本文中使用的数据集（Chen和Guestrin，2016）是分类变量和数值变量的集合，如表1所示。如果我们想将分类算法应用于既有分类变量又有数值变量的数据，我们必须将数值变量转换为分类变量，或者将分类变量转换为数值变量。心脏病数据集包含8个分类特征。本文对分类特征进行了编码。我们使用One-Hot（OH）编码技术将分类变量转换为数值变量。2.6.1. 独热编码One-Hot编码，有时称为“虚拟编码”，是一种经常使用的将分类变量转换为数值变量的技术。在One-hot编码中，为每个类别创建一个新的特征，即为每个类别级别创建一个二进制特征。One-Hot编码的示例显示在图二.然而，在高基数的情况下，这种技术会产生相当多的特征。在缺失值的情况下，One-hot-encoding将包含缺失值（NaN）的每行作为单独的特征列，如图所示。3.第三章。3. 拟议方法3.1. 预处理数据集心脏病数据集分为训练数据集和测试数据集，分别占80%和20%。我们使用训练数据集进行模型训练和优化。在数据集中，6名受试者有缺失值，4个“主要血管数量”值和2个“血栓形成”值。由于两者都是分类特征，因此分类特征编码技术（OH编码）将处理分类特征编码步骤中的缺失值，如图4所示。我们将数据集的“num”变量转换为一个名为“diagnosis”的目标变量，该变量有两个类，即心脏病的存在和不存在。这就变成了二元分类的问题，目标变量类标签是0和1，1表示有心脏病，0表示没有心脏病。3.2. Xgboost训练和超参数优化建议的诊断系统如图所示。五、在对训练数据集和测试数据集进行预处理后，采用XGBoost分类器对训练数据进行贝叶斯优化，对目标变量进行二值分类贝叶斯优化用于调整超参数。不需要调整表2中的所有超参数。在本文中，我们选择了九个参数进行调整;它们是learning_rate，n_estimators，min_child_weight和max_depth，subsample ， cosample_bytree ， gamma ， reg_lambda ，reg_alpha 。 learning_rate 使模型更加稳定和鲁棒，min_child_weight，max_depth，subsample，colsample_bytree，gamma用于控制过拟合。同时，正则化参数reg_lambda和reg_alpha会在模型变得更复杂时对其进行惩罚，并将其简化为简单模型。虽然我们选择了这九个超参数来通过贝叶斯优化进行优化，但我们将表1中的其他几个重要超参数设置为默认值，其中binary：logistic是目标超参数，其旨在用于XGBoost算法中的分类处理。优化任务针对的目标函数是XGBoost算法，具有不同的超参数集和评价指标，该指标是训练数据的20倍分层交叉验证的平均AUC得分，其根据所选择的目标函数而变化图5示出了训练数据的交叉验证和XGBoost的一组超参数的平均AUC得分的评估贝叶斯优化尝试在每次迭代时最大化平均AUC得分。在完成给定的迭代次数后，它选择具有最高平均AUC得分的模型来预测保持测试数据。我们使用不同的评估指标来衡量所选择的优化XGBoost模型在保持测试数据上的性能。图二. 独热编码K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4519¼¼¼¼图三. 独热编码缺失值处理。见图4。所提出方法的框图。图五. 20-交叉验证XGBoost模型的一组超参数提出了贝叶斯优化。3.3. 评估指标我们使用准确性、灵敏度、特异性、F1评分和ROC曲线下的面积（AUC）等评估指标来评估所提出方法的有效性。准确率是被正确分类的所有受试者的百分比。敏感性是那些确实患有这种疾病的人测试呈阳性的比例。特异性是指没有患病但检测结果呈阴性的人所占的比例。回忆和敏感是一样的。精度是精度RTPRTNRTPRTNRFPRFN灵敏度召回RTPRTP RFN特异性RTNRTN RFPRTPð13Þð14Þð15Þ被正确识别为阳性的受试者数量占被识别为阳性的子样本总数。F1分数是精确度和召回率的调和平均值。这些是精密度¼RTP精密度RFP精密度16毫米K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4520¼¼¼图6所示的混淆矩阵用于描述二进制分类预测结果。它包含用于测试的数据集的所有实例的预测结果4. 结果和讨论我们在本节中进行了两种类型的实验，以评估所提出的模型的有效性。在第一个实验中，XGBoost分类器与贝叶斯优化用于心脏病的预测，我们用不同的性能指标来评估性能最后，为了比较该模型与其他机器学习模型的性能，进行了第二个实验。我们在GoogleColab上执行了所有计算，它在Ubuntu 64位下运行，由单核超线程Intel Xeon处理器@2.3 GHz和13 GB RAM组成此外，Python编程的开源软件包被用来模拟实验。4.1. 实验结果见图6。二进制分类的混淆矩阵。F12×Recall×PrecisionRecall×Precisionð17Þ本文使用XGBoost机器学习算法作为分类器进行训练和测试。首先利用贝叶斯优化算法对XGBoost算法的超参数在超参数优化阶段，贝叶斯优化算法应用XGBoost参数的不同组合，并尝试在20倍分层交叉验证中最大化平均AUC评分。通过其中TP和FP表示正确和错误分类的数量。患有心脏病的受试者。类似地，TN和FN分别表示正确分类和错误分类的未患有心脏病的受试者的数量ROC曲线（受试者工作特征曲线）绘制了不同分类阈值下的真阳性率（TPR）与假阳性率（FPR）。贝叶斯优化算法反复迭代，得到一组最优参数。我们将模型设置为在20次迭代后停止，因为预计不会有重大改进。使用OH编码对分类特征进行编码，并使用OH编码的分类特征创建数据集。我们在表3中示出了在超参数优化阶段中处理的超参数。表3中的第15次迭代具有最佳参数TPRRTPRTP RFNFPRFPRTN RFPð18Þð19Þ提出的模型。我们展示了表4建议模型的性能。AUC代表AUC = 1的值是一个完美的异常分类器，而AUC = 0.5的值意味着模型表3使用贝叶斯优化对具有OH编码分类特征的数据集进行XGBoost超参数优化的模拟结果迭代目标学习率n_估计量最大深度最小儿童体重colsample_bytree子样本伽马reg_alphareg_lambda00.50.071257950600.8322380.9669961.86569547.7663131.2642410.50.354186984920.9274490.6727674.57986220.0250642.4638320.50.193667865100.5940930.9871990.83191767.9600516.7576430.8510320.444497873400.8024020.9969490.04993913.9662833.551240.50.122879867830.7774730.6687332.82028529.2422982.5579550.50.412998830010.8291810.9601912.84007556.7729673.9113760.50.33898934430.5809880.8803014.81782132.3608135.2630570.50.113141940010.7008660.5598093.5405827.19796523.0047180.50.247004951830.5867460.5032532.57143847.6516895.162290.50.357743831210.5956790.8566772.50668238.184118.97874100.7805750.33927874300.5996180.5168532.58028512.2042931.65795110.50.51000105110100100120.8616670.5800100110075.13478130.8457940.5850105110044.55726140.50.51000001100100150.8707940.309467801330.6583990.6428070.7616241.13585497.30065160.8548020.5879100110041.64379170.50.5800105110100100180.50.51000051101000190.50.582900110062.66708数据精度特异性灵敏度F1得分火车0.85950.90070.81080.8411测试0.91800.96960.85710.9056K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4521见图7。(a)提出的模型的列车数据预测结果的混淆矩阵。(b)所提出的模型的测试数据预测结果的混淆矩阵。表4中的模型。混淆矩阵包含了所提出的模型对训练数据和测试数据的预测结果的总和，如图所示。 7（a）和（b）。ROC图是另一个评价指标，用于进一步验证所提出的模型的性能。从图6中可以看出，我们在具有OH编码的分类特征的数据集上获得了优化的XGBoost模型的AUC = 0.9134因此，可以看出，所提出的模型的性能似乎更好，从所有的评价方面。因此，我们考虑提出的模型进行进一步的比较分析。4.2. 与其他机器学习模型的4.2.1. 与其他基于树的模型的通过与随机森林（RF）和额外树（ET）分类器的实验结果比较，验证了该模型的有效性。我们还在OH编码的分类特征数据集上训练了这两个模型，并使用贝叶斯优化来优化这两个模型的超参数。对于这两个模型，在超参数优化阶段中处理的超参数如表5和表6所示。表5中的第13次迭代和表6中的第5次迭代分别是RF模型和ET模型的最佳参数。表7显示了这些模型的结果。从表7中我们可以得出结论，所提出的模型的性能优于RF和ET模型。我们还比较了所提出的模型的性能与其他模型的基础上的ROC曲线图的AUC，以进一步验证所提出的模型的有效性。提出的模型、RF和ET模型ROC图分别如图8、图9（a）和（b）所示。从图中可以清楚地看出，所提出的模型的ROC曲线AUC为0.9285，RF 模型的 ROC 曲线 AUC 为 0.8804 ， ET 模型的 ROC 曲线 AUC 为0.8831。因此，所提出的模型的性能优于RF和ET模型的基础上使用的两个评价指标，这是准确性和AUC的ROC曲线。这验证了所提出的模型的有效性4.2.2. 与以往方法的在本节中，与先前提出的基于分类准确性的方法进行了比较分析。我们在表8中显示了这些方法与分类精度的比较。在Ali等人（2019）中，准确性记录很高，这可能是因为他们使用了堆叠两个SVM模型的堆叠技术，并且他们还同时在两个模型上使用网格搜索方法，这可能需要大量的资源和时间，但他们的结果是准确的，无法进一步改进对表5在具有OH编码分类特征的数据集上使用贝叶斯优化的RF超参数优化的模拟结果迭代目标n_估计量最大深度最小样本分割最大特征00.83234115150.65927610.86674616340.34506120.86980210340.88746330.84662711340.74071940.88035717280.11237850.861786204100.99960.78132914100.170.7883731420.180.876706134100.190.87436519360.144512100.87650810420.1110.87170619190.146712120.86865116370.139933130.88226220420.1140.8542868390.317397K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4522表6在具有OH编码的分类特征的数据集上使用贝叶斯优化的ET超参数优化的模拟结果迭代目标n_估计量最大深度最小样本叶最大特征00.8143062214.93704810.8516476149.37058520.8597029117.90686230.8268256118.92427540.8724610118.70961750.8935322035160.87476220351070.8440081215180.8919442031190.88990112358.383702100.86059517117.536591110.6923611351120.854663131510130.88238114316.825332140.82882913510表7与其他型号的性能比较表8所提出的模型和文献中使用心脏病数据集的先前模型的分类准确性。模型精度研究（年）方法准确度%随机森林0.8852Das等人（二零零九年）神经网络集成89.01额外的树0.885203 The Fantasy（2012）加权模糊规则62.35该模型0.9180Samuel等人（2017年）人工神经网络与模糊层次分析法91.10Ali等（2019年）优化的Stacked SVM92.22该模型在数据集91.80OH编码的分类特征见图8。建议模型的ROC图。另一方面，如果我们也使用网格搜索，我们的模型精度仍然有可能得到提高从表8中，我们可以得出结论，所提出的模型优于其他一些模型。5. 结论本文提出了一种用于心脏病诊断的诊断系统。我们提出的诊断系统方法使用One-Hot编码来编码数据集的分类特征，并优化XGBoost进行分类。我们使用五种不同的评估指标，即准确性、灵敏度、特异性、F1评分和ROC曲线下的面积（AUC），对所提出的方法进行了评估。我们观察到，我们提出的基于树的集成方法在准确性方面优于其他三种先前提出的方法。该方法使用贝叶斯优化作为超参数优化技术，这被证明是一个非常有效的技术，以获得最佳的超参数。此外，我们比较了所提出的方法与其他两个基于树的集成机器学习方法的质量。我们的模型在准确性方面比这两个模型高出3.28%。根据实验结果，我们可以得出结论，建议的诊断方法将提高决策过程中的心脏疾病诊断的质量。未来的研究应该测试其他见图9。 RF和ET模型的ROC图。K. Budholiya，Shailendra Kumar Shrivastava和V. Sharma沙特国王大学学报4523类似的任务或其他相关的数据集，以评估其产生类似精度的能力。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用塞缪尔，O.W.，Asogbon，G.M.，Sangaiah，A.K.，Fang，P.，Li，G.，2017.基于人工神经网络和模糊层次分析法的心力衰竭风险预测集成决策支持系统专家系统应用68，163-172。Alizadehsani，R.，Hosseini，M.J.，Sani，Z.A.，Ghandeharioun，A.，博格拉提河2012.使用成本敏感算法诊断冠状动脉疾病。In：Proc. IEEE 12th Int.Conf. 数据挖掘研讨会（ICDMW），12月。2012年，第页9比16Arabasadi，Z.，Alizadehsani，R. ，Roshanzamir ，M. ，Moosaei ，H. ，Yarifard ，A.A.，Apr. 2017年。“使用混合神经网络-遗传算法进行心脏病检测的计算机辅助决策”。Comput.方法程序生物医学。141

下载后可阅读完整内容，剩余1页未读，立即下载