基于粒子群优化的肝病预测模型比较研究

55 浏览量更新于2023-12-19 收藏 3.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁17（2019）100255预测肝病的计算机辅助决策基于粒子群优化的特征选择支持向量机Javad Hassannataj Joloudaria，Hamid Saadatfar a，Abdollah Dehzangi b，Shahaboddin Shamshirbandc，d，*a伊朗比尔詹德大学电子和计算机工程系b美国马里兰州巴尔的摩市摩根州立大学计算机科学系，邮编：21251c越南胡志明市Ton Duc Thang大学科技发展管理系d越南胡志明市Ton Duc Thang大学信息技术学院A R T I C L EI N FO保留字：数据挖掘肝脏疾病分类模型特征选择疾病预测A B S T R A C T近年来，利用医学数据挖掘模型进行疾病预测被认为是一种重要的方法。在医疗保健领域，我们面临着大量的数据，这是预测和分析目标疾病的挑战之一。借助数据挖掘模型，可以将这些数据转化为有价值的信息，并通过逻辑和科学的分析，达到准确的决策和实际预测。疾病预测领域的另一个挑战是选择比其他特征更重要的特征。进行特征子集选择，以提高模型的性能，具有最高的精度。本研究的目的是通过比较数据挖掘模型来选择重要特征，以基于提取，加载，转换，分析（ELTA）方法预测肝脏疾病，以进行正确诊断。因此，数据挖掘模型进行了比较的基础上ELTA方法，如随机森林，多层感知器（MLP）神经网络，贝叶斯网络，支持向量机（SVM），粒子群优化（PSO）-SVM。在这些模型中，PSO-SVM模型在特异性、灵敏度、准确性、曲线下面积（AUC）、F-测量、精确度和假阳性率（FPR）的标准方面具有最佳性能。此外，使用用于评估模型的10倍交叉验证方法，以便在肝脏疾病数据集上评估模型。随机森林模型、MLP神经网络模型、贝叶斯网络模型、支持向量机模型和粒子群-支持向量机模型的平均估计精度分别为87.35%、对于上述的评价标准，我们获得了最高的性能的准确性与最少的功能，通过混合PSO-SVM为基础的优化模型。1. 介绍在医学中，提高医疗质量可以通过影响它的驱动力来更好地定义，包括医疗数据;换句话说，在任何以患者为中心的质量改进计划中，数据都被视为该计划的中心[1]。通过使用数据挖掘过程从与医疗记录相关联的数据中提取知识，可以导致对控制疾病的产生、增长和加速的规律的识别，并且提供有价值的信息，以根据医疗保健中流行的环境因素来识别疾病诊断和治疗的原因。数据挖掘方法可以用于疾病识别中发现知识的过程。数据挖掘可以发现隐藏的数据之间的关系，趋势和模式，从而提高疾病的准确识别[2]。数据库中的知识发现（Knowledge discovery in databases，KDD）概念是从数据中提取知识的理论和方法的基础。KDD包括五个步骤（选择、预处理、转换、数据挖掘和解释/评估），如图所示。 1 [3]。由于本文的案例研究是肝脏疾病的诊断，我们解释如下。肝脏是人体第二重要的内部器官，在新陈代谢中起着重要作用，并提供几种重要功能，例如红细胞的分解[4]。通常，超过75%或四分之三的肝组织需要在功能降低发生之前受到影响。1999年至2016年，美国肝硬化死亡人数增加了65%，达到34174人，* 通讯作者。越南胡志明市Ton Duc Thang大学科技发展管理系。电子邮件地址：shahaboddin. tdtu.edu.vn（S.Shamshirband）。https://doi.org/10.1016/j.imu.2019.100255接收日期：2019年8月27日;接收日期：2019年10月3日;接受日期：2019年10月12日在线预订2019年10月18日2352-9148/© 2019由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuJ.H. Joloudari等人医学信息学解锁17（2019）1002552根据《英国医学杂志》发表的研究结果，肝细胞癌的死亡人数翻了一番，超过11073人。只一部分亚太岛民观察到每年肝细胞癌的年死亡率有所回升。肝硬化死亡率的增加对美洲原住民来说更显着。年轻人（25-34岁）经历了酒精相关死亡的最高平均年增长率，这是由酒精相关肝病驱动的。在美国南部和西部，肝硬化的年死亡率突然增加[5]。肝病的出现有特定的因素，其中最重要的是肝病家族史、吸烟、饮酒、肥胖和糖尿病[6]。预测和描述模型作为数据挖掘技术应用于医学数据挖掘[7]。医学成像用于诊断肝脏疾病，例如Sonogra-物理检查CT扫描和核磁共振这些工具有一些有害的影响和高昂的成本。因此，研究人员提出了在疾病诊断中取代成像设备的方法，其中讨论最多的是数据挖掘。本研究的目的是基于所提出的数据挖掘过程称为提取，加载，转换和分析（ELTA）比较肝病发病率的多种预测模型。在这项研究中，五个广泛使用的数据挖掘分类模型：随机森林，MLP神经网络，贝叶斯网络，SVM和PSO-SVM，以及10倍交叉验证方法，进行了比较。采用准确性、敏感性、特异性、受试者工作特征（ROC）即曲线下面积（AUC）、F-测量、FPR和精密度进行评价。由于本研究的主要目的是选择肝病的显著特征，因此作者比较了不同模型的特征选择本研究报告在第二节中提供了所需的背景资料2. 相关工作在第3节中讨论。拟议方法见第4节。在第5节中，对模型的性能进行了评估和分析。第6节表示实验的结果。最后，第七章和第八章分别介绍了研究结果和结论，即2. 背景在本节中，我们首先描述用于本研究的数据集。然后，讨论了数据挖掘的基本概念和方法。之后，我们举例说明了本研究中使用的分类模型。最后，简要介绍了数据挖掘中的特征选择方法。2.1. 肝病数据集描述在这项研究中，肝病数据收集自UCI机器学习库[8]。该数据集包含583条记录，具有11个特征，包括年龄，性别，TB，DB，Alkphos，Sgpt，Sgot，TP，ALB，A/G比率和目标标签。表1提供了详细的描述和功能类型[9]。数据集分为两组，包括第1组（肝脏患者）的416条记录和第2（非肝病患者）。此外，图2显示了关于肝病数据集的特征的记录2.2. 数据挖掘将数据挖掘模型应用于医学研究（如肝病）是一项重要的任务，因为有大量与肝脏相关的数据集可用于提取知识。因此，有必要提供一个通用的数据挖掘模式，提出了一个树结构。图3显示了医疗数据挖掘模型[10]。数据挖掘方法主要分为两大类：描述性方法和预测性方法。2.2.1. 描述方法这些方法找到解释基于数据的关系的描述性模式，而不管任何标签或输出变量，即，在描述性方法中决策变量是未知的。聚类[11，12]、关联规则挖掘[13，14]和序列模式发现[15]是数据挖掘中具有描述性的三种模型学习方法。2.2.2. 预测方法预测方法使用某些特征的值来预测特定特征的值或特定疾病的识别在这些方法中，确定未来数据的状态是基于患者的过去和当前值。这些方法被称为监督方法（即，问题的目的在预测方法中是众所周知的）。分类[14]、回归[16]和异常检测[10]方法是预测模型中最常用的方法。2.3. 基本模型2.3.1. 随机森林随机森林模型是机器学习的描述性模型之一，在医学、金融、化工等各个领域都有很好的预测应用。为了提高随机森林模型的效率，可以提高精度和速度[17]。该模型生成几棵树，并选择最重要的投票。在提高精度方面，采用了多种特征的评价和功能的组合。为了分类，它将每个输入向量放入森林中的每棵树 UCI肝病数据集的随机森林模型如图所示。四、2.3.2. 神经网络（多层感知器）神经网络建模基于人脑的神经元[ 18 ]。神经网络包括与加权通信耦合的输入/输出节点。神经网络技术产生非线性预测模型，教导如何使模式适应特定的配置文件[19]。基于图5，MLP神经网络模型的输出包括三个部分：输入层（包括10个节点）、中间层（隐藏的;包括节点的权重）和输出层（目标1和目标2）。在输入层中，每个节点都是预测变量之一。一般来说，输入神经元加上和Fig. 1. KDD的五个步骤[3]。J.H. Joloudari等人医学信息学解锁17（2019）1002553表1来自UCI Liver数据集的特征描述号特征名称特征描述特征类型缺失值域测量平均标准品平均误差STD. 偏差范围1.年龄患者年龄实数Null（4-90）44.75 0.6716.19862.性别患者性别分类Null（男─- ---（女）3.TB总胆红素实际值（0. 4 -75）3. 3 0. 26 6. 21 74. 619.64.DB直接胆红素实际值<$（0. 1 - 19. 7）1. 49 0. 12 2. 815.Alkphos碱性磷酸酶整数Null（63-2110）290.5810.06242.9420476.SGPT转氨酶整数Null（10-2000年）80.717.56182.6219907.SGOT转氨酶整数Null（10-4929）109.9111.97288.9249198.TP总蛋白实数Null（2.7-9.6）6.480.051.096.99.ALB白蛋白实数Null（0.9-5.5）3.140.030.84.610.A/G比值白蛋白和球蛋白比值实数4（0.3-2.8）0.950.010.322.511.目标/类别用于数据集的分类Null（一、二）1.290.020.451图二. 关于肝病数据集特征的记录分布直方图：（a）年龄组，（b）性别，（c）TB，（d）DB，（e）Alkphos，（f）Sgpt，（g）Sgot，（h）TP，（i）ALB，（j）A/g比，（k）目标;（X轴上的记录数量和Y轴上的特征范围将每个输入边的给定权重相乘，并通过应用偏置（原点的宽度），将结果转换为激活函数，其输出继续到下一层。4.1.1. 贝叶斯网络朴素贝叶斯分类器是一种简单的概率分类器，基于应用贝叶斯J.H. Joloudari等人医学信息学解锁17（2019）1002554¼独立假设。图三. 医学数据挖掘模型[10]。的粒子[23]。该模型使用一种基于特征发生概率对特征进行分类的方法[20]。一般来说，贝叶斯网络是一种图形结构，通过有向或非圆形信号图（DAG）显示预测特征及其条件关系。图中的节点是预测特征[21]。贝叶斯网络直方图如图6所示，用于使用RapidMiner工具进行本研究的特征。4.1.2. 粒子群优化粒子群优化（PSO）是一种相对较新的技术，已被证明在许多优化问题上表现良好。证据也提供了支持不同的模型预测的理论规格，使用混合基础活动，以检查具体的特点。PSO模型是对鸟类类别的社会行为执行的集体搜索模型[22]。PSO的工作原理基于任何给定的值的时刻，其中每个粒子根据其邻域中的最佳位置来调整其在搜索空间中的位置。此外，每个粒子包括通过评估当前位置的平衡性能而获得的当前平衡量4.1.3. 支持向量机支持向量机（SVM）最初是由Vapnik在1992年设计SVM基于学习统计理论和结构风险最小化的思想[24]。SVM模型在训练阶段试图选择决策边界，使到每个类别的最小距离最大化。这种选择在实践中会做出更好的决定。边界的选择是基于称为支持向量的点来完成的。SVM需要一个好的核函数，并选择参数C（这里C 1.0）[25]。SVM图表如图所示。第七章x-AX is和y-AX is分别是计数器和标签，因此数据集属于标签“1“和“2“，用于分布两个4.1.4. PSO-SVM粒子群算法开发技术用于分析具有大量特征的数据集该技术用于优化功能、降低维度以及对研究应用进行分类[26]。在此过程中，基于SVM的智能模型J.H. Joloudari等人医学信息学解锁17（2019）1002555图四、 UCI肝病数据集上的随机森林模型。图五. 神经网络模型结合粒子群优化技术建立了肝病因素预测模型。优化的SVM模型的目的是找到肝脏疾病的显著特征[26，27]，在下一节中用如下图所示。在这个进化模型中，标签已被转换为“假“（没有肝脏疾病）和“真“（存在肝脏疾病）值。图8中示出了具有“假“和“真“值标签的肝脏数据集上的两个特征“男性“和“女性“的PSO-SVM散点。应该注意的是，PSO-SVM建模是使用RapidMiner仿真工具进行的。2.4. 特征选择在图1中的数据转换阶段，特征选择是与数据挖掘过程相关的最重要的部分之一。特征选择可以定义为识别相关特征的过程，为了查看显著特征的子集、减少计算时间和更好的预测准确性，去除不相关和重复的特征。一般来说，有两类特征选择方法：基于过滤器和基于包装器的方法[28在基于过滤器的方法中，使用了诸如基尼指数[34]，SVM权重[35，36]，信息增益[34，37]和主成分分析（PCA）[26，38]等特征。基尼系数衡量频率分布值之间的不平等系数。事实上，基尼指数表示在给定子集中标签分布的情况下，标签被随机误认为元素的概率。在通过SVM的权重中，分配线性SVM的法向量的系数作为特征权重。信息增益是基于数据集被划分为特征后熵的减少。PCA的本质是它是一种正交线性变换，将主要特征线性转换为称为主成分的非相关变量。特别地，主成分是线性的。J.H. Joloudari等人医学信息学解锁17（2019）1002556见图6。通过贝叶斯网络模型对肝病数据集的特征分布：（a）TB，（b）DB，（c）Alkphos，（d）Sgpt，（e）Sgot，（f）TP，（g）ALB，（h）A/g比值，（i）年龄组，（j）性别;（Y轴上的记录密度和X轴上的特征范围所有观察结果的组合，以减少数据的维度。因此，基于过滤器的方法通过测量将有意义的评级分配给特征的各种组合，而不管所使用的分类算法如何。然而，在基于包装器的方法中，使用算法相关的评估标准来确定特征子集的有用性，其具有像遗传算法以及PSO算法的迭代方法。因此，本文提出了基于滤波器的特征子集选择方法，包括“信息增益加权”和“支持向量机加权”，第一种方法适用于随机森林、贝叶斯网络、MLP- 神经网络和PSO-SVM 模型，第二种方法适用于支持向量机模型。3. 相关作品如今，医学中的一个基本问题包括肝脏疾病，除非迅速发现，否则可能导致死亡。因此，需要计算理论和工具来帮助从数据中提取知识。因此，其他人试图用特征选择方法[28Ramana等人评价了不同类型的肝脏数据集，即AP肝脏数据集和UCLA数据集。他们评估了分类方法在精密度、准确度、特异性和灵敏度方面的性能。他们指出，AP肝脏数据集优于UCLA肝脏数据集。反向传播方法对UCLA肝脏数据集的所有特征的性能为71.59%，这是两种方法中最好的。此外，K最近邻算法具有J.H. Joloudari等人医学信息学解锁17（2019）1002557图第七章支持向量机分散两个特征：（a）性别1/4男性，（b）性别1/4女性。印度肝脏数据集提供了最佳结果，准确率为97.47% [39]。在另一项研究中，对于肝病分类，提出了一种改进的旋转森林模型，使其具有多层感知（MLP）模型和用于UCI数据集的随机子集特征选择技术。使用MLP的准确度测量在UCI肝脏数据集上，随机子集法为74.78%。此外，KStar模型的准确性为73.07，基于印度肝病数据集的相关性特征选择（CFS）[40]。此外，Ramana等人使用方差分析（ANOVA）和多变量分析评估了两个肝病数据集，即美国和印度，J.H. Joloudari等人医学信息学解锁17（2019）1002558图八、两个特征的PSO-SVM散布：（a）性别1/4男性，（b）性别1/4女性。J.H. Joloudari等人医学信息学解锁17（2019）1002559¼方差（MANOVA）。他们发现不同人群之间肝病不同特征的组成存在显着差异[41]。Bahramirad等人实现了11个数据挖掘分类模型来对AP和BUPA数据集中的数据进行分类，其评估标准是准确度，精确度和召回率。结果显示在一些模型中;在准确性方面，AP数据集的性能略好于BUPA数据集[42]。Alfisahrin和Mantoro提出了NBTree算法，通过结合决策树和朴素贝叶斯算法生成NB树算法的准确率为67.01%，决策树和朴素贝叶斯算法的准确率分别为66.14%和56.14%然而，朴素贝叶斯算法与其他两种算法相比具有最快的运行时间。还使用排序方法确定UCI数据集在肝病检测中的特征[43]。Dhamodharn回顾了肝病疾病的数据挖掘技术。他特别比较了两个模型，即FT增长和朴素贝叶斯。他观察到，朴素贝叶斯（75.54% ）的准确性优于FT增长模型（72.66%）。该比较在具有12个不同特征的29个数据集上进行[44]。Jin等人使用了来自UCI机器学习库的印度肝脏患者数据集，其中有三个模型-决策树，K最近邻和Logistic。决策树的准确率为69.40，其他模型的准确率较低[45]。格雷戈里提出从两个肝脏患者中建立预测模型数据集，并评估这些模型在肝脏疾病检测领域。结果表明，FT树模型的准确率为78.00%，优于其他模型[46]。Weng等人使用人工神经网络（ANN）模型来构建三种类型的分类器-个体分类器（IC）、集合分类器（EC）和单独分类器（SC）。此外，他们将肝脏患者数据集（ILPD）应用于他们提出的方法。结果表明，当k 3时，准确率为68.49%，分类器为EC-IC-2，EC-IC-Best [ 47 ]。Abdar等人使用决策树C5.0对来自UCI储库的肝脏数据集进行增强，获得了93.75%的肝脏疾病诊断准确率[48]。此外，Abdar等人在另一项研究中使用了来自UCI存储库数据集的多层感知器神经网络和提升决策树（MLPNNB-C5.0）结果表明，他们提出的方法具有94.12%的准确度[19]。Priya等人提出了分类模型，并发现J48模型在应用粒子群最优化（PSO）特征选择，准确率为95.04%。在他们的研究中，特征选择方法是基于包装器的[49]。本研究的主要动机是在数据挖掘过程中提出一种从UCI肝病数据集中提取、加载、转换和分析（ELTA）的方法，通过选择最佳特征来实现对肝病的最准确预测。为此，在建模阶段，我们实现了五个分类模型，包括支持向量机，随机森林，贝叶斯网络，神经网络和PSO-SVM使用特征选择方法。此外，为了评估这些模型，我们使用了具有七个不同标准的混淆矩阵-准确性，假阳性率，灵敏度，特异性，F-测量，精确度和AUC。4. 拟议方法在这项研究中，RapidMiner Studio 7.6版用于在UCI肝病数据集上进行实验，因为它提供了预测分析图的强大视觉表示。在实验中，我们使用ELTA方法的数据挖掘过程。图9表示基于ELTA方法的实验图中的所提出的方法。ELTA方法包括分类建模的预处理和分析，其中“ELT“表示预处理步骤，“A“表示分析步骤。首先，根据ELTA方法，从UCI中提取肝脏疾病数据集[8] 实验中然后，将数据集加载到RapidMiner模拟中。在该方法中，数据挖掘过程从预处理步骤（ELT）开始，然后是特征工程，以选择与特征转换和分类建模相关的重要特征，从而使用数据挖掘技术创建用于预测的模型。对所有特征进行了特征选择和建模。在整个数据挖掘过程之后，基于ELTA方法对每个模型的性能进行了分析。事实上，根据基于过滤器的方法生成具有显著特征的合适模型。第4.1小节更详细地描述了数据预处理（ELT）。第5.2节和第5.3节分别描述了分类模型的特征选择和分类模型的构建图第九章基于ELTA 方法的拟议方法图。J.H. Joloudari等人医学信息学解锁17（2019）10025510第1081章X（一）X（2）4.1. 数据预处理根据图9中的ELTA方法，首先，在收集数据之后对数据进行预处理。预处理步骤包括以下步骤：A) 有四条记录具有与A/ G功能相关的缺失值。根据用与A/G特征相关的最常用值替换缺失值，1.0的值已被替换[50]。年龄特征值分为三个年龄组：小于30岁，30 - 61岁之间，大于61岁。将全部数据划分为总计583条记录的目标输入数据，并且将肝病的目标数据划分为两组，即组1和组2;（组1用于存在肝病患者记录，组2用于不存在肝病患者记录）。B) 将随机森林模型中的目标标签值转换为非数值。然后将数据集分为两组：训练和测试。关于这一点，对模型进行了一组测试和训练数据，其中60%的数据集用于训练（350个数据集），40%用于测试数据集（233个数据集）。D）准备数据用于对模型进行分类在对数据进行预处理之后，开始了分类模型的选择阶段。在模型定义的基础上，建立了分类模型。4.2. 分类模型本研究的重要部分之一是与肝病预测特征的意义有关。在用于肝病预测的11个特征中，只有“年龄”和“性别”特征涉及每个患者的个人信息。其馀9个特徴均是从不同的医学检查中收集的临床特徴。在本实验中，选择使用基于随机森林、MLP-神经网络、贝叶斯网络、SVM和PSO-SVM等五种分类器的特征加权的显著特征来生成分类模型。因此，为了识别用于预测肝脏疾病的显著特征，应该评估和测量其显著特征选择的性能。事实上，所选择的显著特征的组合对于肝病检测和预测可以是有效的。因此，寻找这些特征的常用方法之一是为它们分配权重，称为信息增益权重。信息增益计算在基于相关模型中的特征的值做出决定之后关于数据集中的熵的减少的有效变化。进一步的增益，即使用信息增益的最大增益表示熵的值被减小，从而获得具有我们数据集的关键特征的信息[34，37，43，48]。因此，我们找到了预测肝病的特征，最大的预期信息增益。信息熵和信息增益的公式如下。N2Ci信息增益信息熵信息增益信息熵N2Ci信息熵计算器-Pilog2Pij1对于数据集S，即，记录数，选择特征X。其中S被划分成n个子集或分区，即，特征的数量，根据X的值的划分S，并且其中P是划分的概率分布（C1，C2，P1=P2=PjSj;jC2j=jSj;：：： ;jCij=jSj（3）其中C i是不相交的综合类的数量，|S|是S中的记录数。增益的值如下获得。增益信息熵信息增益（4）这表示在识别特征X的值之后区分Si的元素所需的信息与区分Si的元素所需的信息之间的差异。事实上，这是对特征X的信息注意力的增益。根据关于信息增益所述的情况，由于信息增益方法的权重，选择了随机森林模型的九个特征，如图10所示。请注意，最大的信息增益值被用作随机森林模型的主要节点或特征根据图10，最显著的预测特征是Alkphos，值为0.71，最不显著的预测特征是年龄，预测肝病的值为0.26为了研究基于SVM权重的排序和基于SVM权重的特征选择方法，作者进行了模拟实验。通过计算输入数据集的每个特征相对于类特征的权重，选择相关特征超平面的系数被设置为特征权重，由SVM计算。因此，作为特征权重的线性SVM的法向量的系数对于SVM分类器，由于权重而选择了所有特征，如图所示。十一岁根据图11，最重要的预测器特征是具有0.71值的Sgot，并且最不重要的预测器特征是具有0.21值的性别。对于贝叶斯网络模型，由于信息增益的权重而选择了所有特征，如图所示。 12个。对于贝叶斯网络模型，根据分配给每个特征的概率为特征分配权重，选择具有最大概率的最重要特征。根据图12，最重要的预测特征是值为0.65的Sgot，最不重要的预测特征是值为0.18的性别对于MLP神经网络模型，由于信息增益的权重而选择了所有特征，如图所示。 13岁在每次迭代中更新每层的权重，以使用反向传播来训练多层神经网络。特征之间的连接强度由权重表示通常，具有随机权重的神经网络被表示，其中隐层和输入层之间的权重是随机选择的，输出层和隐层之间的权重是解析获得的[51]。如果权重接近于零，则改变输入不会改变输出。MLP神经网络最重要的预测特征是Sgot，值为0.73，最不重要的预测特征是性别，值为0.28，如图13所示。最后，对于PSO-SVM模型，通过使用信息增益权重选择了七个特征，如图14所示。数据的选取是PSO-SVM模型中最重要的步骤之一，获取一组合适的训练数据对于提高模型的预测精度具有重要意义。因此，通过PSO-SVM模型选择最显著的特征。通过信息增益加权对特征进行加权。根据图14，最显著的预测特征是PSO-SVM模型的Alkphos，值为0.75，最不显著的预测特征是年龄，预测肝病的值为0.344.3. 分类模型根据ELTA方法，对数据进行预处理后，使用RapidMiner Studio实现了所提出的模型.在这项研究中，随机森林，MLP神经网络，贝叶斯网络，SVM和PSO-SVM的分类建模使用快速矿工工具。J.H. Joloudari等人医学信息学解锁17（2019）10025511见图10。利用随机森林模型分析特征的显著性。见图11。使用SVM模型选择显著特征。5. 绩效评价图12个。使用贝叶斯网络模型选择显著特征。在RapidMiner Studio 7.6版模拟中，通过模型获得平均精度。为了评估模型的性能，分类-根据ELTA方法，我们应该使用混淆矩阵X 评估和分析模型。如数据预处理部分所述，数据集分为两组：训练和测试。在这方面，对模型进行了一组测试和训练数据，其中60%的数据用于训练（350个数据集），40%用于测试数据集（233个数据集）。我们还使用了10倍交叉验证方法[52]来评估基于以下公式（5）计算鉴定标准准确性、灵敏度、特异性（ROC，受试者操作特征）即（AUC，曲线下面积）、F-测量、精确度和FPR(10)[53].为了检验模型的准确性，将现有数据的分类模型分为两个部分：训练和测试。通过训练数据集建立模型测试数据集用于确定模型的准确性。J.H. Joloudari等人医学信息学解锁17（2019）10025512●¼●¼●¼●¼图13岁使用MLP神经网络模型选择显著性特征。图14个。选取的显著特征采用PSO-SVM模型。[56]见表2。特异性<$真阴性率（TNR）<$TN /TNFP（5）灵敏度或召回率<$真阳性率（TPR）<$TP / TPFP（6）准确度<$TP/TN/TPFP（7）精密度¼TP/TP精密FP（8）F 测量值 ¼2*精确度*召回率 / 精确度* 召回率（9）FPR1/4-特异性（10）其中TP是真阳性的数量，TN是真阴性的数量此外，FP是假阳性的数量，FN是假阴性的数量[9，54，55]。这些值解释如下：FN预测为负但实际为正的记录数TP预测为正数但实际为正数的记录数FP预测为正数但实际为负数的记录数TN预测为负但实际为负的记录数此外，为了评估模型的标准，混淆矩阵为这允许通过说明错误分类的样本与实际类别的距离以及更好地解释的程度来可视化模型的性能[57]。6. 实验结果在本节中，根据表2的分类模型的结果是通过使用七个标准的混淆矩阵获得的。通过比较数据挖掘模型的性能，随机森林、MLP神经网络、贝叶斯网络和SVM模型的准确率分别为86.26%、78.11%、66.09%和75.10%，而基于ELTA方法的PSO-SVM模型的准确率为94.42%。根据其他准则，PSO-SVM方法具有表2测试数据集的混淆矩阵X（233个数据集）。模型预测值TPFNFPTN随机森林142201259MLP神经网络137292245贝叶斯网络123403931SVM133302842PSO-SVM1508570J.H. Joloudari等人医学信息学解锁17（2019）10025513¼最高的灵敏度、特异性、精确度和F-测量，并且是最好的预测模型。基于ELTA方法的模型的标准评价结果如表3所示。此外，在这项研究中，使用10倍交叉验证方法，我们的模型在肝脏疾病数据集上进行了评估，随机森林，MLP神经网络，贝叶斯网络，SVM和PSO-SVM模型的平均估计准确率分别为87.35%，78.91%，66.78%，76.51%和95.17%。此外，用于确定分类模型的效率的另一个重要标准是AUC标准。AUC表示ROC图下方的表面积[58]。ROC是真阳性率（灵敏度）和假阳性率（1-特异性）之间的权衡的二维图形说明。AUC值越大，表示模型的性能越高。图1中展示了模型的ROC曲线。 15个。ROC曲线表明，PSO-SVM模型的AUC优于其他模型（ROC准确率为97.34%）。最后，在测试数据集（40%用于测试数据集：233个数据集）上创建混合模型的提升图，该测试数据集分为两组（存在肝病患者记录作为组1，不存在肝病患者记录作为组2），标签：（目标：1，2）。第1组的提升图如图所示。十六岁根据图 16，第1组的置信度，例如范围0.6与第三个记录相关的记录包括142个，表明有89人患有这种疾病。因此，集团的信心1在0.6范围内对142条记录非常显著，表明95%以上的患者患有该疾病。此外，第2组的升力图如图所示。地下17层。因此，组1的置信度，例如在与第七个记录相关的范围0.31中，包括142个记录，证明53个人患有该疾病，如图17所示。因此，对于142条记录，第1组在范围0.31的数据集上的置信度非常显著，表明超过95%的患者患有该疾病。7. 结果和讨论我们利用过程数据挖掘的ELTA方法。该方法包括预处理（ELT，（EX traction，Loading，Transformation））和分析（A）两部分。在图9中，通过组合PSO-SVM以提高性能来获得最佳结果。根据ELTA，分类模型在七个标准方面进行了比较-准确性，灵敏度或召回，特异性，精确度，F-测量，FPR和AUC。本研究的主要目的是通过选择基于ELTA方法的显著特征来比较肝脏疾病的多种预测模型。本研究发展了五种广泛使用的数据挖掘分类模型，随机森林，MLP-神经网络，贝叶斯网络，SVM和PSO-SVM，以及10倍交叉验证方法。使用这种方法，我们的模型进行了评估，以便计算的平均估计精度，发现分别为 87.35% ，78.91%，66.78%，76.51%和95.17%的随机森林，MLP神经网络，贝叶斯网络，SVM和PSO-SVM模型。关于表3，PSO-SVM模型在以下方面具有最佳性能：根据上述标准。此外，本研究的重要部分之一是选择预测肝病的特征，比较不同模型的选择。基于图的特征。10- 14最后，PSO-SVM模型是最好的选择的七个特征和投票操作，其中Alkphos的比率为0.75是最重要的特征，年龄的比率为0.34是最不重要的特征。此外，PSO-SVM模型的Lift Chart图是在图1和图2所示的测试数据集上创建的。图16和17中，基于肝病，记录中目标组的置信指数对于健康人与患者的诊断非常重要。图18示出了使用七个标准的分类模型之间的比较。所提出的模型在准确性、f-测量、精密度、灵敏度、特异性、AUC和FPR标准方面表现出更好的性能此外，不同模型在特征选择方法方面的比较如表4所示。根据表4，从肝病数据集上的实验可以得出结论，通过选择最佳特征，即，使用信息增益加权方法的最少特征数表5中显示了通过选择提取的重要特征的子集相对于在肝病数据集上获得的准确度进行的不同分类模型之间的比较。在参考文献[40]中，使用KStar分类模型和基于相关性的特征选择进行肝病分类，获得的准确率为73.07%，因此在结局中未识别出特征。在参考文献[41]中，在美国和印度进行了一项肝脏患者疾病数据集研究，以确定重要特征。K-NN模型仅识别出AlkPhos、SGPT和SGOT三个特征。然而，在本研究中选择了这三个特征。本研究的作者使用PSO-SVM模型识别特征的准确率为94.42%。在文献[43]中，使用NBTree模型，获得了67.01%的准确率，因此通过排序方法根据其重要性识别了10个特征。而在本研究中，我们使用PSO-SVM模型，根据信息增益的权重加权的特征作为基于特征选择过滤器的方法，从而获得了94.42%的准确率，从而在结果中选择了7个显著的特征。在文献[45]中，仅使用决策树模型，与其他模型相比，获得了最高的准确率为69.40%但没有发现特征在文献[47]中，使用具有K3的ANN模型，获得了68.49%的准确度。然而，在这项研究中，使用PSO-SVM模型与七个识别功能，获得了94.42%的准确率。在参考文献[48]中，使用Bosted C5.0模型预测肝脏疾病，根据特征的重要性排列了10个特征，准确率为93.75%。然而，在本研究中，通过信息增益在参考文献[19]中，使用MLPNNB-C5.0模型，由于特征的重要性，根据其优先级排列了10个特征，准确率为94.12%。在这项研究中，作者通过PSO-SVM模型获得了94.42%的准确率，其中最重要的特征是使用信息增益加权来选择的，这些特征被选为共同的和关键的特征。表3最后给出了基于ELTA方法的模型评价结果分类模型精度灵敏度特异性精度F-measureFPR随机森林86.2687.6583.0992.2089.8616.91SVM75.1081.5960.0082.6082.0940.00朴素贝叶斯66.0975.4644.2875.9275.6855.72MLP神经网络78.1182.5367.1686.1684.3032.84PSO-SVM94.4294.9393.3396.7795.846.67J.H. Joloudari等人医学信息学解锁17（2019）10025514图15个。基于ELTA方法的模型的ROC曲线。图十六岁第1组混合PSO-SVM 建模的提升图。J.H. Joloudari等人医学信息学解锁17（2019）10025515图十七岁第2组混合PSO-SVM 建模的提升图。8. 结论和今后的工作图十八岁使用七个标准的模型之间的性能比较。证明了PSO-SVM模型具有最好的性能相比，根据图的其他模型。 18、表4而且在本研究中，对UCI数据集上的肝病医学数据挖掘进行了系统的努力[8]。及时预测肝脏疾病是非常重要的，特别是关于其准确性。由于本文的主要目的是根据ELTA方法选择最重要的特征以实现预测肝脏疾病的最高准确度，因此作者检查了五种分类模型，包括随机森林，MLP神经网络，贝叶斯网络，SVM和PSO-SVM。最终，使用PSO-SVM模型，提取了七此外，本文的另一个目的是在准确性、灵敏度、特异性、AUC、F-测量、精密度和FPR标准方面比较所经过比较，结果10- 采用交叉验证法对模型进行评价。使用这种方法，PSO-SVM模型具有最高的平均估计精度相比，其他分类模型。作为未来的工作，PSO-SVM模型可以在一个真正的实验室环境中使用。因此，这些发现可以作为一种合适和有益的方式来识别在真实环境中患有肝病或没有肝病的人。元启发式模型可用于优化分类模型，如肝病领域的蚁群系统（ACS）和遗传模型（GM）。此外，在智能算法在疾病（特别是肝病）的诊断和预测中的应用中，可以使用在肝病数据集和其他数据集上实现的深度神经网络来改善诊断和预测。J.H. Joloudari等人医学信息学解锁17（2019）10025516þ þþ表4不同模型之间的比较，在其特征选择方法与获得的准确性。引用[1] 放大图片作者：RogersG.挖掘您的数据以提高医疗保健质量在：SAS分类模型特征选择方法特征的重要性价值准确度（%）用户组国际会议; 1997年。p. 641-7[2] 李文，李文，李文.数据挖掘：概念与技术。Elsevier; 2011.[3] 法耶兹大学数据库中的数据挖掘和知识发现：对科学数据库的影响。第九届国际科学大会论文集随机森林权重信息增益ALB：0.43，A/g比：0.48，Alkphos：0.71，TP：0.52，TB：0.47，DB：0.39，Sgot：0.63，年龄：0.26和Sgpt：0.5486.26和统计数据库管理（Cat. 号97TB100150）。IEEE; 1997年。p. 2比11[4] 王文，等.基于粗糙集理论的肝病分类与规则提取.中国肝病杂志，2000，14（1）：

下载后可阅读完整内容，剩余1页未读，立即下载