头脑风暴优化算法预测乳腺癌复发的多阶段学习技术

187 浏览量更新于2024-01-17 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于头脑风暴优化算法的混合多阶段学习技术预测乳腺癌复发Maram Alwohaibia，b，Malek Alzaqebaha，b，Noura M.Alotaibia，b，Abeer M.Alzahrania，b，Mariem Zoucha，ba伊玛目Abdulrahman Bin Faisal大学理学院数学系，P.O. Box 1982，达曼，沙特阿拉伯b基础和应用科学研究中心，伊玛目Abdulrahman Bin Faisal大学，邮政编码。Box 1982，达曼，沙特阿拉伯阿提奇莱因福奥文章历史记录：2021年2月21日收到2021年5月10日修订2021年5月12日接受2021年5月20日网上发售保留字：数据挖掘乳腺癌复发机器学习头脑风暴优化特征选择方法A B S T R A C T乳腺癌被认为是妇女死亡的第二大原因。不幸的是，即使癌症的治疗在诊断后不久就开始了，癌细胞也可能留在体内，癌症可能会复发。最近应用了各种机器学习（ML）方法来预测乳腺癌复发，需要检查ML方法的性能以确定适当的预测方法。通常，数据集包含许多有时可能误导预测过程的特征;因为某些特征可能导致混淆或不准确的预测。因此，在这项研究中，对两个乳腺癌复发数据集进行了统计分析，并通过头脑风暴优化算法（BSO）进行了进一步优化。所提出的多阶段技术包括三个主要阶段;第一，统计特征选择方法（SFM），其基于重要性排名和特征相关性以及统计假设检验来统计地选择区分特征，特征根据其与类变量的相关性进行排名。第二阶段，即多分类器（MC），它评估每个方法的基础上，三个分类器，并产生一个组合的功能进行两个SFM和三个分类器。在第三阶段中，所选特征的最佳组合由BSO算法识别，以搜索产生最高准确度的最佳解决方案此外，对BSO算法进行了改进，使其能够处理特征选择问题.所提出的技术的性能进行了评估，分层10倍交叉验证。结果表明，多阶段学习技术在对特征进行排名方面是有效的，并提高了乳腺癌复发的分类准确性版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍癌症是人类健康面临的最大疾病威胁之一。癌症被认为是一组由异常细胞组成的在全球范围内，癌症是第二大死亡原因（世界卫生组织2018年9月12日新闻稿）。癌症的正确诊断对于充分和有效的治疗至关重要。一些癌症类型（即，*通讯作者：沙特阿拉伯伊玛目阿卜杜勒拉赫曼本费萨尔大学理学院数学系电子邮件地址：malwohaibi@iau.edu.sa（M.Alwohaibi），maafehaid@iau.edu.sa（M.Alzaqebah）。沙特国王大学负责同行审查乳腺癌）在早期发现（预测）时有很高的成功治疗机会。因此，准确预测乳腺癌的复发是帮助医生在决策过程中为患者确定合适治疗方法的关键然而，癌症复发的研究并没有像癌症本身那样深入，这可能是由于缺乏包含癌症患者复发信息的数据（Warren 和 Yabroff ，2015）。数据挖掘旨在使用机器学习（ML），统计学和概率方法从海量数据集中发现有用的信息（Kantardzic，2011）。机器学习方法已经显示出有效的学习和预测能力，这激励研究人员将ML用于几种疾病的医学诊断和预测（Kourou等人，2015年; Pan等人，2017年）。ML算法基于数学模型工作，该数学模型定义了特征之间的关系并检测大规模数据集中的模式（Passos等人，2016年）。因此，ML算法在医学研究人员社区中变得越来越受欢迎。大量MLhttps://doi.org/10.1016/j.jksuci.2021.05.0041319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5193已经在许多医学数据上开发了算法来对乳腺癌进行分类（Abreu等人，2016年）。分类算法的性能在很大程度上取决于给定数据集的所选特征这是因为给定数据集中的某些特征可能会提高分类性能，而某些特征可能会导致不准确的分类，因为不相关的特征会降低分类性能。因此，采用特征选择方法来选择作为分类的良好候选者的特征子集（Aggarwa，2014）。进一步减少特征的数量有利于以更少的计算成本创建良好的分类模型。即使在医学领域，较少的特征也会导致较少的诊断和测试成本（Akay，2009）。乳腺癌复发数据集存在各种问题。首先，在真实的医学数据集中发现大量缺失数据是很自然的，此外，由于不具有代表性的实例，数据集可能包含一些重复、缺失值、噪声或偏差（Kourou等人，2015年）。因此，需要对数据进行预处理，以产生更合适的数据进行分类和分析。因此，处理缺失数据的方法需要基于给定的数据集（Sajjadnia等人，2020年）。第二，数据集通常是高维的，并且包含不同类型的特征，并且特征在不同的数据集之间可能不同。具有不同类型的特征可能需要使用不同的特征选择技术。例如，区分特征选择方法通常选择具有最大区分能力的特征子集，而包装器方法基于优化算法选择子集（Zhang et al.，2019年）。因此，很难确定用于不同类型数据集的最佳特征选择方法。重要的是这里要注意的是，乳腺癌复发数据集本质上是高维的，并且具有不同类型的特征。第三个问题是如何测量相关性和独立性，这是一个挑战。此外，可以通过计算每个特征与类之间的相关系数来感知每个特征与目标变量（类）之间的相关性。在这方面，如果任何特征与其余特征的相关性不高，但与类别的相关性足够高，那么它对预测是有利的（Yu和Liu，2003）。相比之下，特征之间的独立性非常重要，因为它可以为预测提供额外的信息。相关性和独立性同样可以提供宝贵的能力预测（Atrey等人，2010; Sajjadnia等人， 2020年）。总之，为了克服上述问题，没有通用的方法来处理每个数据集的这些问题。此外，分类算法可以对每个不同的所选子集产生不同的结果。因此，本文提出了一种多阶段的学习技术来进行预测乳腺癌复发的风险考虑了来自UCI数据库的两个数据集（乳腺癌数据和WPBC）。对于每个数据集，选择最合适的一对特征选择方法和算法。然后，根据观测精度值，得出了一定的结论。在本文中，我们提出了一个多阶段的学习技术，乳腺癌复发，多种方法的特征选择和分类算法的战略性地产生和组合，以解决乳腺癌复发问题。多阶段学习方法可以实现比单独从任何学习方法可能实现的更好的预测性能。我们介绍了BSO算法的特征选择问题。此外，我们提出了一种混合的特征选择方法，结合两种统计特征选择方法和包装器特征选择（BSO算法）。传统的包装方法大多认为特征是相互独立的，而混合特征选择方法中，在传递给BSO算法之前，由三个分类器进行分析和评估。本文的下一部分包含了乳腺癌复发研究的一些相关工作，然后是方法部分，解释了用于乳腺癌复发预测的多阶段学习最后，结果部分讨论了评估方法，并显示了实验结果，然后是结论部分和未来的范围。2. 相关工作在这段时间里，随着对数据背后知识的需求增加，数据也会增加。相关地，一些癌症复发研究使用机器学习（ML）算法; ML算法背后的数学模型可以是预测性或描述性的（Kantardzic，2011）。描述性模型旨在通过发现模式（Kantardzic，2011）来建立描述数据的模型，包括聚类（Cimpanu和Ferariu，2012）、异常检测（Liu等人，2013）和关联规则（Hong等人，2003年）。预测模型用于基于一些给定的示例（例如分类）来预测值（Prilutsky等人，2011）和回归（Samanta等人， 2009年）。ML算法的类型高度依赖于所使用的数据集。数据集可以包含一组二进制、分类或连续特征。此外，数据集中的每个实例都可以提供其对应的精确输出（标签），因此，要使用的学习类型是由预测模型描述的监督学习，或者可能没有为每个实例提供输出在后一种情况下，将使用由描述性模型描述的无监督学习（ Jain 等人，1999;Kantardzic，2011）。在某些情况下，只有部分实例数据具有标签，这种情况称为半监督学习（Van Engelen和Hoos，2020）。许多ML算法包含一个可以作为监督学习开发的过程。分类算法本质上是监督学习算法，其中这些算法学习如何将类（目标、标签或类别）分配给来自训练数据集的实例，然后将给定的新实例划分为类（Jain等人，1999; Birkle等人，2019年）。然而，数据集中的特征极大地影响了分类算法的性能（Pawlak，1982）。Pritom等人（2016）比较了SVM，Naive Bayes和决策树在有和没有特征选择的情况下的不同结果。他们证明了具有较少特征的数据集往往会给出更好的结果，因为一些特征往往会误导分类器。在他们的论文中，他们将这些方法应用于UCI乳腺癌威斯康星数据，并得出结论，SVM在预测复发方面表现出更好Rana等人（Rana等人，2015）使用UCI乳腺癌数据库（WPBC）预测复发变量的乳腺癌。作者使用了几种机器学习技术。算法的性能根据参数的选择而总体而言，K-最近邻（KNN）技术给出了最好的结果，诊断准确率为95.68%，复发预测准确率为72%。在文献中可以找到不同的特征选择方法。在 Mauricio 等人（Schiezaro和Pedrini，2013年）中，通过使用基于人工蜂群（ABC）算法的特征选择方法作为包装方法，提高了准确性。将该方法应用于UCI乳腺癌数据集，使用特征选择方法后，平均准确率从73.08%提高到75.87%。Sakri等人（Sakri等人，2018）实施粒子群优化作为特征选择方法来预测乳腺癌复发。在这项研究中，粒子群算法与三个分类器，即朴素贝叶斯，快速决策树，K-最近邻。M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5194实验结果表明，所有分类器的分类精度都得到了提高，无论是否使用粒子群算法作为特征选择方法，朴素贝叶斯分类器的性能都优于其他分类器。Brain Storming Optimization（BSO）是Shi在2011年提出的一种优化算法（Shi，2011）。BSO模仿人类的真实头脑风暴行为的过程，其收集想法（解决方案）的数量，然后，解决方案被聚类以将搜索集中在减少通信时间的有希望的解决方案上（Cheng等人，2016年）。由于BSO算法具有创造性思想并迭代地改进它们的性质，它已被用于许多领域来解决优化问题，并且该算法已被证明是解决不同优化问题的有效且有前途的方法（Alzaqebah等人，2020; Cheng等人，2017年）。在这项工作中，BSO用于解决特征选择问题，以预测乳房癌症复发考虑到文献，可以观察到有许多方法用于乳腺癌复发和一般的卫生保健。此外，各种方法是可用的，其中大多数是独立使用的。示例包括特征选择、缺失值填补和分类算法。因此，乳腺癌复发预测仍然需要更多的研究，以涵盖大多数可用的方法。因此，本文旨在研究预测乳腺癌复发的各种方法，特别是通过提出一种用于乳腺癌复发预测的混合多阶段学习技术。3. 混合多阶段学习过程本节描述了所提出的多阶段学习技术的总体过程图1详细显示了拟议的框架。首先，对数据集进行预处理（即估算、缩放、排名和/或编码），然后应用混合特征选择;使用统计特征选择方法选择重要特征，并将其传递给Brain Storm。采用BSO算法作为包装器特征选择方法，对提高分类器预测精度的特征进行评价和选择。BSO算法的适应度函数是分层10倍交叉验证的平均值（He和Ma，2013）。拟议框架的步骤将在以下各小节中更详细地说明。这些子部分的结构基于图1（从左到右），从癌症数据集描述开始，接着是数据预处理的阶段1，然后是混合特征选择的阶段2，最后是分类算法的阶段3。3.1. 癌症数据集描述在本文中，两个乳腺癌复发数据集（即，研究了数据集1和数据集2），数据集来自UCI机器学习库（Dua和Graff，2019）。这些数据集的详细信息见附录A。数据集1：威斯康星州乳腺癌（预后）数据集。它是由威斯康星大学的 William ， Wolberg ， Nick Street 和 Mangasarian 创建的（Mangasarian和Wolberg，1990）。该数据集包含198个实例和34个特征，以及一个指示151个非复发实例和47个复发实例的类。数据集2：该数据集由大学医学中心肿瘤研究所于1988年7月收集（Zwitter等人，1988年）。数据集中的每个实例都代表一名接受手术切除癌症的患者该数据集包含286个实例、9个特征和一个响应变量（类），该响应变量指示手术后5年内的复发事件。所有病例可分为两类，即201例未复发和85例复发。可以看出，两个数据集的数据是不平衡的，为了克服数据不平衡的问题，我们使用分层10折交叉验证来确认原始分布中发现的非复发与复发实例的百分比在所有折中都有表示（He和Ma，2013）。Fig. 1. 所提出的混合多阶段学习技术的框架。M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5195Bb1/4i3.2. 数据预处理基于数据集的性质，考虑如下所述的几个预处理3.2.1. 数据插补处理缺失值的一个简单决策是删除具有缺失值的实例。通常情况下，当有几个缺失值的实例时，没有影响（Khan和Hoque，2020）。然而，丢弃大量实例会导致数据的信息和统计能力损失（Kwak和Kim，2017; Zhang，2015）。因此，需要插补方法来处理缺失值。在这项工作中，对于数字特征，使用简单线性回归插补缺失值。另一方面，通过使用样本模式对缺失值进行插补来处理性别特征。在数据集1中，仅在一个特征（淋巴结状态）中发现4个缺失值，因此，评估了该特征与所有其他特征之间的相关性。然后，使用简单线性回归来预测该特征中的缺失值。以下公式：y =a+bx其中公式的参数是基于数据集估计的。在此，回归模型为y =-0.7164 +1.3697 *（肿瘤大小）。3.2.2. 数据缩放数据的范围可能非常宽，并且可能因特征而异。因此，数据缩放或归一化技术用于标准化特征的数据范围。它成为使用机器学习算法之前的数据预处理的必要步骤。对于乳腺癌威斯康星（预后）数据集Dataset1，通过减去其平均值并将其除以其范围来归一化特征的数据，如下所示：算法在SFS和CB方法中，特征被选择为独立于所选分类器的预处理步骤，而BSO方法在机器学习过程中使用在每种方法中，得到的子集将被用作分类器的输入在本节的剩余部分，对替代方法的简要描述如下：3.3.1. 基于假设检验的统计特征选择统计特征选择-也称为过滤器（FS）-在选择过程中使用由于样本量足够大（>30），所有数字特征均呈正态分布的假设因此，对于每个数字特征，应用独立样本t检验（考虑类别为因子;复发/非复发）。另一方面，对于分类变量，为每个特征构建列联表，并使用统计假设检验来确定特征变量和类变量之间是否存在关联。在这方面，如果满足卡方检验的预期频率假设，则执行卡方独立性检验，否则执行Fisher精确检验。使用这种方法，这项研究发现，来自WPBC数据集（数据集1）的34个特征中有24个，来自乳腺癌数据集（数据集2）的9个特征中有4个与类变量无关，因此被排除在外。在本研究中考虑的两个数据集上使用这种方法会产生两个新的子集，称为 Dataset1_SFS 和Dataset2_SFS。3.3.2. 基于相关性的特征选择（CB）在应用CB选择方法之前，为每个特征分配一个分数（排名），以显示其重要性或相关性。为此，计算每个fea之间的相关系数真实和目标变量;具有更高相关系数的特征yxi-平均值x最大值x-最小值x 其中x：实例。此步骤是必需的ficients被认为是更相关的，因此更高的排名是仅数字特征3.3. 混合特征选择特征选择是一个过程，用于选择特征的子集，用于构建机器学习模型，以去除冗余和不相关的数据-关于要学习的任务-而不会导致太多的信息丢失。除了减少实现学习所需的数据量外，特征选择的好处还包括提高预测精度和降低模型的复杂性，从而减少执行时间（Hall，1999）。特征选择方法被分为基于过滤器、基于包装器和嵌入式或基于混合的方法（Xue等人， 2016年）。前者在分类之前通过基于特定标准对所有特征进行排序来选择特征，而不使用数据挖掘算法（Zhang等人，2019年）。包装方法选择特征的子集，并使用分类算法来评估所选特征。该子集是基于优化算法来选择的，该优化算法迭代地选择特征的子集并评估所选择的特征的子集，直到满足最佳分类精度。算法中有粒子群优化（ PSO ）（ Sakri 等人，2018 ），鲸鱼优化（ Mafarja 和 Mirjalili ， 2018 ）遗传算法（ Shreem 等人， 2012 ），和 MothFlamOptimization（Alzaqebah等人， 2020年）。另一方面，混合模型的收益得益于两种模型在不同搜索阶段的不同评价原则在该方法中，特征选择过程嵌入在分类过程的训练期间（Liu等人， 2010年）。在本文中，不同的特征选择方法进行了测试，它们是：统计特征选择（SFS）、基于相关性的特征选择（CB）和头脑风暴优化（BSO）该重要性排名有助于在下一步中移除某些特征的决策。考虑到目标变量是一个具有两个类别的名义型变量，本研究分别对尺度变量（第一个数据集）和分类变量（第二个数据集）使用点双相关系数和Cramer V。下一步是执行成对比较，以评估每对特征之间的相关性图 2和图3.可视化了所考虑的每个数据集中的特征之间的相关性。与排序步骤一样，使用了点二分法和Cramer V在这方面，具有高于预定阈值的相关系数的每对特征被认为是高度相关的，并且将被处理以去除冗余（这里，阈值被设置为0.7）。在每个高度相关的对中，具有较低重要性的特征（即，较低的等级，因此与目标变量的相关性较低）被移除。使用这种方法，WPBC数据集（数据集1）中34个特征中的19个和乳腺癌数据集（数据集2）中9个特征中的2个被删除。在正在验证的数据集上使用此方法会产生称为Dataset1CB和Dataset2CB的新数据集。3.3.3. 头脑风暴优化算法头脑风暴优化（BrainstormOptimization，BSO）是一种新的基于种群的算法，它模仿了人类头脑风暴的过程。头脑风暴的目的是找到一个创造性的解决问题的办法，通过考虑一个具体的问题，然后从一个团队的人收集与问题有关的新想法。然后，对这些想法进行单独评估和筛选，以便在提供的想法中选择最佳想法。Osborn在1963年（Osborn，1963）提出了头脑风暴过程的主要阶段如下：M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5196图二、WPBC数据集（数据集1）中变量之间的相关性图三. 乳腺癌数据集（数据集2）中变量之间的相关性。M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报51971. 一个参与为特定问题提供解决方案的团队聚集在一起，根据四条规则提出新的想法，即：注重数量，避免批评，欢迎不寻常的想法，和交叉施肥。（奥斯本，1963年）2. 问题的所有者（客户）考虑所提供的想法，并选择解决问题的最佳想法。3. 在这个阶段，从第二阶段中选择的想法被用来激励团队提供更多的想法。4. 客户从第三阶段选择解决问题的最佳方案。5. 重复第2至第5阶段，直到获得令人满意的想法这一过程的三个贡献者是：鼓励团队提出想法的促进者，提出想法的团队，以及评估想法并选择最佳想法的客户（Friedman等人，2001年）。因此，图4表示BSO算法的伪代码。 BSO算法通过随机产生多个思想（解）来优化种群.然后，迭代地开始两个主要阶段;即，聚类和更新。聚类阶段使用K-means算法将群体中的解决方案聚类到多个聚类中。然后，在每个聚类中，选择最佳解设置为聚类中心（Friedmanet al.， 2001年）。同时，更新阶段基于以下四种邻域方法之一来更新解（Alzaqebah等人，2020），基于预定概率选择：(A) 向/从一个随机选择的聚类的中心（解决方案）添加/删除随机特征(B) 向/从随机选择的解决方案中添加/删除随机特征。(C) 从两个随机选择的中心交换两个随机特征。(D) 从两个随机选择的解决方案中交换两个随机特征。当生成相邻解时，然后基于由分类器，以决定是否将生成的解决方案替换为原始解决方案。BSO算法是一种随机特征选择方法，该算法能够有效地探索搜索空间。传统的包装器特征选择方法认为特征是相互独立的。在某种程度上，特征之间存在着不可忽视的相关性。此外，特征的最佳子集不能简单地是产生更高分类精度的多个特征的组合，因此需要对特征进行预分析3.4. 分类算法在这项研究中，三个分类器被认为是产生准确性在实验期间，即支持向量机（SVM），逻辑回归（LR），和线性判别分析（LDA）。这些分类器是根据其准确性和稳定性从文献中的所有可用分类器中通过实验选择的。SVM、LDA和LR分类器给出确定性结果，而其他分类器在每次运行中给出略有不同的结果4. 结果和讨论本研究中的所有实验都是在配备2.5 GHz Intel Core i5处理器和8GB RAM的标准PC上进行的，而所有方法都是在Python 3.7.1中实现的，以检查多阶段学习技术的本研究中使用的参数是基于初步实验设置的，以找到BSO参数的合适值，因为我们发现在时间和准确度方面最合适的值是;最大迭代次数为100，群体大小为30，并且基于每个数据集的以下方法（Bholowalia和Kumar，2014见图4。BSO算法伪代码。M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5198为了显示所提出的技术对乳腺癌复发数据集的意义，对两个乳腺癌复发数据集进行了三次实验比较因此，本研究进行了多次交叉验证以比较所得结果，其中多次交叉验证方法能够解释算法本身的方差，因为它多次运行交叉验证并计算每次运行准确度的平均值和标准差为了避免测试阶段的过拟合，数据集被划分如下：80%用于训练目的，20%用于测试（Shi，2011）。此外，为了确保在所有运行中进行公平比较，算法配置有固定的种子随机数，以确保将相同的数据拆分为每个分类器的测试和训练在这项研究中，BSO算法被用作三种形式的包装器特征选择方法，以生成以下三种方法：没有引导的BSO，表示为BSO由统计特征选择引导的BSO（BSO与SFS集成），表示为GBSO_SFS由特征相关性引导的BSO（与CBSF集成的BSO），表示为GBSO_CB选择这些方法来进一步研究本研究对于两个测试数据集，对所提出的方法的每个阶段中的平均值、标准差和所选特征的数量进行比较，如下所示：对于原始数据集，SFS、CB、BSO、GBSO_SFS和GBSO_CB。因此，表1和表2分别说明了数据集1和数据集2的结果每个数据集的最佳结果以粗体显示。对两个数据集进行了相同的方法。首先，这三个分类器被应用到整个数据集后，imputation，排名，编码（或缩放）。然后，使用10倍交叉验证来估计分类精度。如表1所示，GBSO_CB方法是每个分类器中最好的执行者。具有LR分类器的BSO和GBSO_CB表现出几乎相同的性能，但GBSO_CB具有更少的特征数量，这表明性能更好，因为特征选择方法旨在减少所选择的特征数量。SFS、CB、BSO、GBSO_SFS和GBSO_CB的结果都此外，GBSO_SFS倾向于与较小的特征尺寸一起工作，而GBSO_CB倾向于支持较大的特征尺寸。此外，GBSO_CB与SVM分类器是相当强大的，并有最好的结果在所有测试的方法与分类器。由三个分类器即SVM、LR和LDR为数据集1产生的分类结果如图5所示。如图所示，X轴表示应用于原始数据集的方法，而Y轴表示平均精度。六、Dataset1的分类精度受分类器和应用于原始数据集的方法的影响。通过对分类器进行分类，很明显，这三个分类器产生了稍微相似的行为，这表明改进所提出的方法是独立的分类器的类型。此外，CB和SFS方法提出了改进和良好的平均精度。BSO算法进一步帮助找到一个合适的子集，提高平均精度的功能。同时，CB引导的BSO（GBSO_CB）算法在BSO和GBSO_SFS算法中性能最好.这证明了特征之间的相关性不能被忽略，最优子集不能简单地是多个特征的组合。通过对数据集1进行类似的设置，也对数据集2进行了实验。如表2所示，GBSO_SFS在使用LR和SVM分类器的情况下实现了最佳性能。对于数据集2，表2显示，尽管在数据集2上执行的SFS、CB、BSO、GBSO_SFS和GBSO_CB可能优于原始数据集，但在数据集2上观察到的趋势与数据集1对于不同的特征尺寸，也观察到类似的趋势，如表2所示。数据集2的分类结果如图7所示。该数据集的分类质量显然更受选择特征的方法的影响。支持向量机分类精度与GBSO_SFS方法是相当高的。所有排名方法都为Dataset2提供了比原始数据集更好的准确性结果。同样，在表2和图8中，仅显示了特定数据集的结果，但趋势也与其他数据集相似。鉴于上述情况，很明显，多阶段方法是必要的，以确定每个阶段的最佳选择，以用于更好的学习，因为在本研究的实验中已经证明了分类器和方法的许多不同行为。因此，本研究的主要目的是实施一种方法，帮助找到可用于预测癌症复发的最强大工具。值得注意的是，文献中应用了各种方法，很难确认哪种方法效果更好，因为不可能具有普遍性。另一方面，多阶段方法能够在每个学习阶段自动地找到最佳和合适的方法，并产生最终的预测结果。图9表示从数据集1和数据集2的所有方法中选择每个特征的次数。图 9表明大多数方法决定这些特征在预测乳腺癌复发方面是重要的。从图9数据集1可以看出，最多选择的特征是radus_largest和time，由10个不同的组合选择，其次是lymph_node_status，由9个不同的组合选择，相应地，在数据集2中，deg-maling是最多选择的特征，其次是breast、invenodes和node_caps。使用这种类型的排名显示了乳腺癌复发的最重要特征，它提供了一个强大的学习器，可以获得比单个学习器更好的性能。有关每种方法所选特征的更多详细信息，请参见附录B。不同的方法可能会选择完全不同的功能，如本节所示，并在文献综述中陈述。所提出的多阶段技术能够在每个阶段使用不同的方法来发现乳腺癌复发的最重要特征，而不是仅使用单一方法为了评估所提出的多级技术的性能，我们与表3和表4中所示的一些相关工作进行了比较。对于数据集1和数据集2，符号破折号（-）表示未提供结果。表1应用于数据集1的不同分类器的性能评估。方法原始SFSCBBSOGBSO_SFSGBSO_CB分类器平均SD是说SD是说SD是说SDSF是说SDSF是说SDSFSVM0.1177.890.1078.340.0881.940.101778.890.09 582.850.06 11LR77.860.0876.390.1077.980.0879.440.101677.290.08 779.420.10 11LDA79.280.0779.860.1077.840.0681.440.101781.860.10 681.920.09 7···M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5199表2应用于数据集2的不同分类器的性能评估。方法原始SFSCBBSOGBSO_SFSGBSO_CB分类器平均SD是说SD平均值SD是说SD SF是说SD SF是说SD SFSVM60.16 0.3660.860.37 60.880.3770.630.33 676.010.32 275.300.31 3LR59.08 0.3461.590.37 58.710.3570.560.34 370.490.32 370.000.45 2LDA58.72 0.3561.960.36 57.270.3571.370.30 569.160.33 370.540.39 2图五. 不同方法估计的分类器平均精度见图7。不同方法估计的分类器平均精度。见图6。通过不同方法为数据集1估计的选定特征。见图8。通过不同方法为数据集2估计的选定特征。从表3和表4中可以看出，多阶段学习技术在数据集1和数据集2上的最佳平均准确率分别为82%和76%。5. 结论和今后的工作在目前的工作中，多阶段学习技术的乳腺癌复发预测。特征选择问题（统计方法和包装方法）近来在机器学习研究领域得到了广泛的关注学习统计方法可以对特征进行过滤和排名以降低特征维度，其中包装器方法迭代地减少和评估特征以获得最佳子集。此外，不存在最佳特征选择方法，特别是当在不同数据集中使用不同分类器时，因为由不同分类器获得的准确度可以曲线作为特征数量的函数而显著不同。为了确保对问题的最佳准确性的阐述，需要在从不同特征选择方法中选择的特征子集上测试分类器。相应地，研究方法M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5200见图9。使用不同的方法选择最多的功能。表3与数据集1上的相关工作进行比较方法精度特异性精度召回ANNGA（Singla等人， 2019年度）7996–33GASVM（Vieira等人， 2013年度）7791–33PSOSVM（Vieira等人， 2013年度）7894–28PSO（Aalaei等人，（ 2016年）7892–33GA（Aalaei等人，（2016年）7892–31SVM（Ojha和Goel，2017）76–7798PSONB（Mohammed等人， 2020年）818663多阶段学习技术82968182表4数据集2上相关工作的比较方法精度特异性精度召回J48（Carreñoz等人， 2018年）74–9999NB（Carreñoz等人， 2018年）75–––SMO（Carreñoz等人， 2018年）72–––BayesNet（Sakri等人， 2018年）70–75–Naive Bay（Sakri等人， 2018年）71–75–多阶段学习技术76968182对于验证这种多阶段技术能够找到乳腺癌复发的最重要特征，而不仅仅是通过使用单一方法是非常重要的。结果，多阶段算法能够找到最佳解决方案，通过确定最佳每个阶段产生的特征。将所提出的技术扩展到大尺寸数据集，即，SEER数据集应在未来的工作中考虑，因为它将提供更详细的分析并建立一个模型来提取数据集可解释结果的特征M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5201竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了沙特阿拉伯王国伊玛目Abdulrahman Bin Faisal大学科学研究主任的支持，资助代码：2019-157-Sci。附录A表A1和A2表A1号例如类型（范围）失踪1类二进制02年龄分类03更年期分类04肿瘤大小分类05逆节点分类06节点帽二进制87代格马利格分类08乳腺二进制09胸四柱分类110照射二进制0表A2号例如类型（范围）失踪1身份证号数值02结果二进制03时间数值04平均半径数值05平均纹理数值06平均周长数值07平均面积数值08平均平滑度数值09平均紧性数值010平均值数值011平均凹点数值012平均对称数值013平均分维数值014Radius SE数值015纹理SE数值016周边SE数值017面积SE数值018平滑度SE数值019紧凑性SE数值020凹面SE数值021凹点SE数值022对称SE数值023分形维数SE数值024最差半径数值025最差纹理数值026最差周长数值027最差区域数值028最差平滑度数值029最差紧性数值030最坏的结果数值031最差凹点数值032最差对称性数值033平均分维数值034肿瘤大小数值035淋巴结状态数值4M. Alwohaibi，M.新墨西哥州AlzaqebahAlotaibi等人沙特国王大学学报5202附录B表B1和B2表B1表B2引用Aalaei，S.，Shahraki，H.，Rowhanimanesh，A.，伊斯拉米，S.，2016年。使用遗传算法进行乳腺癌诊断的特征选择：在三个不同数据集上的实验。伊朗基础医学科学杂志19（5），476。Abreu，P.H.，桑托斯，硕士，Abreu，M.H.，Andrade，B.，华盛顿特区席尔瓦2016年。使用机器学习技术预测乳腺癌复发：系统性综述。ACM计算调查（CSUR）49（3），52。C.C. Aggarwa数据分类：算法和应用。数据挖掘和知识发现系列2014Akay，M.F.，2009.结合特征选择的支持向量机用于乳腺癌诊断。专家系统Appl.36（2），3240-3247。Alzaqebah，M.，Alrefai，N.，Ahmed，E.A.，Jawarneh，S.，Alsmadi，M.K.，2020.用蛾优化算法作为特征选择问题的包装器的邻域搜索方法。International JournalofElectrical and Computer Engineering 10（4），3672.Alzaqebah，M.，Jawarneh，S.，Alwohaibi，M.，Alsmadi，M. K.，Almarashdeh岛&穆罕默德河M. A.（2020年）。混合头脑风暴优化算法和延迟接受爬山法求解柔性作业车间调度问题。沙特国王大学学报-计算机与信息科学Atrey，P.K.，Hossain，医学硕士El Saddik，A.，Kankanhalli，M.S.，2010年。多媒体分析的多模态融合：综述。多媒体系统 16（6），345-379。Bholowalia，P.，库马尔，A.，2014. EBK-means：一种基于肘形法和k-means的无线传感器网络聚类技术。国际计算机应用杂志105（9）。Birkle，P.，Zouch，M.，Alzaqebah，M.，&Alwohaibi，M.（2019年）。基于机器学习的常规与非常规油藏采出水类型自动识别方法。在石油地质统计2019年（第2019卷，第1号，第2019页）。1-5）。欧洲地球科学家工程师协会。Carreñoz，E.J.M.，Béjar，R.M.，Rivero，上午，Rodríguez，A.R.，2018.机器学习用于乳腺癌的进化分析。科学与研究杂志：Revista Ciudere Investigación 3，44郑， S. ， Qin ， Q. ，陈杰，施， Y. ， 2016. Brainstorm Optimization Algorithm ：AReview.第内特尔Rev. 46（4），445-458.郑，S.，Sun，Y.，陈杰，Qin，Q.，Chu，X.，雷，X.，施，Y.，2017.头脑风暴优化算法综述。2017年IEEE Congress on Evolutionary Computation（CEC），第100页。1637-1644. https://doi.org/10.1109/CEC.2017.7969498.Cimpanu角，

下载后可阅读完整内容，剩余1页未读，立即下载