基于进化计算的医疗诊断特征选择算法研究

108 浏览量更新于2024-01-27 收藏 918KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于进化计算的特征选择算法普拉纳利湾作者：Shrishailappa T.马尼克罗？帕蒂尔多尔印度浦那Savitribai Pune大学Vishwakarma技术学院计算机工程系阿提奇莱因福奥文章历史记录：收到2020年2020年12月20日修订2020年12月20日接受2020年12月31日在线提供保留字：分类进化算法特征选择Jaya优化算法多目标优化A B S T R A C T医疗诊断决策支持系统使用机器学习和数据挖掘算法来检测和诊断疾病。如果在感染的早期阶段发现和治愈这些疾病，就可以避免几例死亡。特征选择是一种重要的预处理方法，用于获得最显著的特征，从而提高数据挖掘模型的分类精度。本文提出了一种新的特征选择算法，将特征选择问题转化为多目标优化问题。分类错误率最小化和特征子集基数最小化是两个相互矛盾的所提出的工作应用于五个临床数据集，如肺癌，乳腺癌，糖尿病，生育和免疫治疗，并将结果与基于其他6个数据集的现有技术进行比较。本文将实值Jaya优化算法转换到二进制空间。它还处理早熟收敛和敏感性-特异性权衡。所提出的算法的效率进行评估和分析的基础上，平均分类精度，灵敏度，特异性，选择的特征数量，百分比特征选择，和CPU计算时间。该算法提高了基于数据挖掘的医疗诊断决策支持系统的有效性。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍如今，像癌症、糖尿病、不孕症这样的疾病变得流行和严重（Chatra等人，2019年）的报告。如果在感染的早期阶段发现这些疾病，可以治疗和治愈。医疗诊断决策支持系统帮助医生更准确地诊断疾病。这些模型是使用数据挖掘和机器学习算法创建的，以在早期阶段检测和诊断疾病（Lima，2020）。这些数据集包含大量的特征。使用所有这些功能构建的数据挖掘模型是无效的，因为它不重要。因此，特征选择成为数据挖掘中的一个关键步骤。它通过消除不相关的特征来减少计算开销。分类算法的性能可以通过从原始特征中选择信息量最大的特征*通讯作者。电子邮件地址：pranalisheth@gmail.com（P.D.Sheth）。沙特国王大学负责同行审查最终数据集。所选特征表示原始数据集中的所有特征特征选择问题可以作为多目标优化问题来解决，其中目标最小化分类误差和需要同时优化的所选特征的数量。特征子集的选择过程包括三个步骤。在特征选择过程的第一步中，通过采用搜索策略来创建特征子集。在第二步中，对每个候选子集进行评估，然后与其他特征子集进行比较。最佳子集用于建立数据挖掘模型。在最后一步，该过程重复迭代，直到满足停止标准。然后根据数据集验证最佳子集（Arora，2019）。特征选择问题可以通过采用三种重要的方法来解决：过滤器方法，包装器方法和嵌入方法（Huali，2018）。在过滤方法中，机器学习算法不参与特征的选择。在基于统计测量获得每个特征的排名之后，移除或选择特征。它们通常是单变量的，并且在高维数据集上快速执行。但是，它们不能处理冗余特征。滤波器方法使用诸如信息增益、卡方、相关系数等测量https://doi.org/10.1016/j.jksuci.2020.12.0121319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报5076命名法DDTGenK MMaxGen映射具有T个要素的输入数据集用于计算迭代次数的变量KNN算法中常数K的值解向量中“1 0”的个数终止条件-最大生成次数c2;j;i0-1范围内的勘探率随机递减值缩写基于变异MutRate 突变率P群体PopSize人口规模CAEECFS分类精度分类误差进化计算特征选择TRVJ原始输入数据集中的要素数D实数集P中的第j个结合双界支持向量机的Vjki1Vjki第k个变量的第j个解的值th thV j;k j的值 k变量的解;;i;;第1次迭代第一个i希腊符号一c1;j;i0-1范围内的随机递减值0-1范围内的勘探率随机递减值KNN K近邻PSO粒子群优化算法S子集中所选要素的数量TF要素UCI加州大学欧文分校WBCD世界乳腺癌诊断世界卫生组织世界卫生组织score，f-score准则互信息（Huali，2018）。包装器方法使用多种功能组合。在特征选择方法针对学习算法的预测精度来评估每个特征子集基于所获得的准确度来分配分数然后应用搜索策略以最小化迭代次数。以这种方式，选择信息量最大的特征子集。包装器方法比过滤器方法花费更多的计算时间，但通常会产生更好的准确性，因为每个包装器方法都包含用于候选子集评估的机器学习算法（Huali，2018）。包装器方法的类型包括向前选择、向后选择和递归特征消除。过滤器和包装器方法的特性在嵌入式方法中结合在一起。嵌入式方法使用具有原始特征选择方法的算法来实现（Huali，2018）。嵌入式方法的示例包括LASSO回归、RIDGE回归和弹性网络。最近，特征选择问题已经使用进化启发式计算技术解决（Yusta，2009）。随机搜索从随机生成的子集开始。这是一个迭代过程，其中随机生成的子集的质量在每次迭代中都不断提高。基于启发式搜索的随机自然启发算法在合理的时间内找到接近最优的解决方案（Yusta，2009）。这些算法主要是进化计算（EC）技术，如遗传算法（GA）、遗传编程（GP）和基于群智能（SI）的算法，即蚁群优化（ACO）、人工蜂群（ABC）和粒子群优化（PSO）（Arora，2019）。这些算法在包装器的特征选择方法。2. 动机和目标这里讨论的所有算法都是基于随机化概念的，并且是概率性的。所有算法都具有共同的控制参数，如种群大小、精英率和最大代数（Rao和Patel，2012）。此外，一些算法-算法具有其算法特定的控制参数。例如，在一个实施例中，选择、交叉和变异是GA的算法特定操作符（Rao和Patel，2012）。这些算法（Rao和Patel，2012）介绍了一种算法特定的无参数的基于教学的优化算法（TLBO）。在很短的时间内，TLBO在研究人员中变得非常流行，用于获得无约束和约束优化问题的解决方案（Rao和Patel，2012; Rao ， 2015; Satapathy 等人， 2013 年 ; Kiziloz 和 Deniz ，2018年）采用TLBO进行特征选择。在TLBO成功之后，2015年，Rao提出了另一种简单的单相和算法特定的无参数算法，称为 Jaya 优化算法（ JOA ）（ Rao ，2016）。在梵语中，Jaya被认为是胜利。该算法总是试图朝着最佳解决方案前进，而忽略最差的解决方案（Rao，2016）。JOA仅依赖于共同的控制参数。它使用的参数，如世代数和人口规模。对于解决优化问题，与GA、TLBO和ICA优化算法相比，JOA显示出更好的性能（Abhishek等人，2017年）。2019年，（Rao，2019）出版了一本关于Jaya优化算法的书，并将其描述为工程应用中的高级优化算法。 JOA应用于各种标准优化问题，例如解决经济负荷分配（Bhoye等人，2016）、作业车间调度（Gao等人，2018），流水车间调度（Buddala和Mahapatra，2018），神经网络中的谐波分析（Candès，1999）和背包问题（Congcong和He，2020）。它还被应用于实时应用，例如识别面部情绪、光伏模型和压电致动器的参数调整、设计热交换器、支撑圆顶结构和微通道散热器以及板翅式热交换器的优化和电弧焊接工艺（Awadallah等人，2020年）。然而，一些作者发现JOA算法的局限性，如1）JOA算法不处理均匀探索，2）在JOA的搜索过程中，多样性保持策略没有应用。3）作者将JOA应用于癌症诊断问题，警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报5077..j;worst;i;best;i研究发现，JOA算法在特征选择时容易陷入局部最优。JOA中发现的这些局限性鼓励研究人员改进JOA。许多研究人员提出了修改和应用-V0j;k;i=1/4Vj;k;i=c1;j;i×Vj;bes t;i-. Vj;k;i. n -c2;j;i×nVj;wors t;i-. Vj;k;i. Þð1Þ通过使用自适应参数，创建特定的JOA版本，SVjki1Vjki表示第j个变量的值混合版本与其他优化组件，并更新其他环境;;对于第k个1 e-Vj;k;i1的情况。作者观察到JOA在数学上适合特征选择优化问题。该算法具有低计算复杂度（Satapathy等人，2013年）。因此，它将是有用的预处理技术，并将适用于多维数据集。在文献中，据观察，研究人员提出了几个二进制版本的 JOA ，以适应特征选择问题。（Awadallah等人，2020）提出了二进制Jaya优化算法与自适应变异，特征选择作者提出了二进制版本关于Jaya优化算法（Sheth等人，（2020）作为候选人在第i迭代。由方程式(1)VVJ是最好的最坏的解决方案P。每个变量的值(1)[10]第10段。c1;j;i和c2;j;i是范围[0，1]中的实值，随机生成。这是JOA中的启发式因素，一缩放因子和确保探索的项c1;j;i× <$V j;best;i-Vj;k;i<$表示解试图移动到最佳解，而-c2;j;i× <$V j;worst;i-表示解试图移动到最佳解。V j;k;i. 表示它尝试避免最坏的解决方案。V0j为下一次迭代保留，如果;k;i1BinJOA-S特征选择算法。结果表明，BinJOA-S算法容易陷入局部最优解，缺乏探索性。本文通过引入位翻转变异算子，对Jaya优化算法进行改进，Awadallah等人在2020年修改了具有自适应突变的Jaya优化算法，而作者在所有迭代中使用了统一的突变率，并使用了位翻转突变。最近，（Hammouri等人， 2020）提出了一种改进的Dragonfly算法用于特征选择。它是Dragonfly算法的二进制版本。（Al-Betar等人，2020）提出了具有S形传递函数的二进制b-爬山优化器用于特征选择。在这项研究工作中，提出了一种新的JOA在包装器的方法来解决特征选择问题。的优点给出了比Vj;k;i更好的适应度值。在每一次的结束在这种情况下，所有接受的适应度值都被保留（Rao等人，2016年）。这些值将替换为旧值。在下一次迭代中，这些值将作为输入。通过这种方式，JOA总是试图通过超越最差的解决方案来实现最佳解决方案。3.2. S形传递函数Sigmoidal函数将连续值转换为相应的二进制值。这是一种流行的离散化方法（Candes等人）。它使用等式将每个候选解的每个变量的值转换为二进制数字（利马，2020年）。（1）;ifrand11提出的工作是：1）将原始实值JOA转换为使用带突变的S形传递函数的二进制编码算法（BinJOA-SM）。2）提出的BinJOA-SM算法Vj;k¼0的整数;否则1e-Vj;kð2Þ通过应用进化算法的变异多样性控制算子，结果得到改善。3）将该算法应用于5个临床数据集，以处理分类问题。Sonar、Wine、Zoo、Ionosphere、Musk1和Photography数据集是用于与现有技术进行分类准确性比较的附加数据集该算法的平均分类精度，灵敏度，特异性，选择的特征数量，百分比特征选择，和CPU计算时间进行了实验评估分析表明，该算法在11个数据集中的6个数据集上都有较好的性能.本文的其余部分按以下顺序组织。第2节描述了原始JOA和S形传递函数。在第3节中，讨论了所提出的算法。数据集、参数设置、评价标准和实验结果在第4节中解释。第5讨论了拟议工作的结果。第六是研究结论。3. 预赛3.1. Jaya优化算法Rao在2015年提出了Jaya优化算法，该算法对于解决无约束和约束优化问题具有决定性意义（Rao，2016）。它只有一个执行阶段。它是基于“避免一切失败而取得胜利”的原则.设f（x）是要最大化或最小化的目标函数。在每次迭代i，假设有m个设计变量和n个候选解。在JOA中，种群P在过程变量的范围内随机生成。最好的解决方案意味着具有最高适应度的解决方案，而最差的解决方案具有最低适应度。使用等式（1）对每一解的各变量进行随机修正。4. 方法在本节中解释了使用带突变的S形函数进行特征选择的二进制编码Jaya优化算法该算法使用编码，初始化的人口，和适应度评估采取重要步骤的进化算法。4.1. 编码特征选择问题是一个二元优化问题。因此，每个维度的特征选择问题的搜索空间仅包含两个值：{0，1}（Chatra等人，2019年）的报告。BinJOA-SM群体中的解被编码为1- D向量。这种一维向量的长度等于原始数据集中的特征数向量中每个单元格的值可以是“10”或“00”。单元格值“1 0 "指定选择了相应的特征;而单元格值”0 0"表示未选择相应的特征。例如，具有十个特征的向量1，001，001，001指示第1、第4、第7和第10个特征被选择，如图1所示。BinJOA- SM形成具有这样的n个解的群体P4.2. 种群初始化BinJOA-SM的群体P中的所有解使用随机数生成器初始化总体P中的解的个数为图1.一、二进制编码的特征向量。警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报5078-ðÞ2½]þ×保持不变。P中的每个解都是一串二进制值1和0。DT是包含T个特征的输入数据集。Vj;k;i10如果randS<$Vj;k;i<$1<$<1如果randPS<$Vj;k;i<$1<$ð7Þfea1;fea2;fea3;：;feaT] 2R是T维列向量（特征向量）。假设我们已经获得了一个特征向量Vj，其中Vj; k; i≤ 1 表示第j个can的第k个变量的值使用随机数发生器（RNG）指示是否选择特定特征。Vj是总体P中所有PopSize数量的解的子集。VjP，其中j¼1为PopSizeVj=1/2; 1;0;0; 1;：：1]，其中j= 1toT，j2f0; 1g= 3g对总体P进行修剪，并使用以下映射选择特征：d：Pfeat ！PTrimM4d fea的输出是M维向量，其中M=P中1的数量。4.3. 适应度评估特征选择问题是一个多目标优化问题，其中具有最少特征数量和最高精度的解决方案被认为是最佳解决方案。在文献中有几种方法可用于解决多目标优化问题。BinJOA-SM算法将特征选择问题归结为线性尺度化问题。在线性标量化问题（LSP）中，非负权重被分配给每个目标函数。然后，将目标函数的加权和作为单目标优化问题求解（Emmerich和Deutz，2018）和（Gunantara，2018）。为了评估P中的每个解，使用两个目标的加权和作为适应度函数。为了在两个冲突的目标之间进行平衡，适应度函数被设计为如等式2中给出的。（五）、在Eq.设计公式（5），使得分类误差的最小化和所选特征的数量的最小化是要实现的目标函数适合度最小值1-aωEaωS=TF]5每个解决方案的分类精度得到使用K-最近邻（KNN）分类器。其中，E是错误率，表示KNN对于解决方案特征子集的分类错误率。误差率计算为1精度。 S表示在特征子集中选择的特征的数量。项S除以输入数据集的TF。该比率乘以确保最小化的因子a。a代表所选特征数量的相关重要性，其范围为0; 1。分配给所选特征数量的权重不足。4.4. BinJOA-SM算法JOA适用Eq. (1)用于更新每个解的每个实值变量。等式（1）使用随机数进行探索。在每一次迭代中，最好和最坏的解生成一个新的实值后代。旧迭代和当前迭代中较好的解决方案将在下一次迭代的种群中恢复在JOA的二进制版本中采用了类似的搜索策略Eq的输出。(1)是一个浮点实数。这些实值解被压缩到二进制搜索空间中，使用等式中给出的S形（S形）传递函数（六）、这种转变发生在每个维度。在第i1次迭代时didate。所提出的算法的伪代码在图中给出。3 .第三章。在JOA的生命周期中，勘探由Eq.（一）. 如第二节所A，c1;j;i和c2;j;i是启发式因子，保持探索性.在所提出的算法的执行过程中，有必要检查算法是否陷入局部最优，即解决方案开始变得相同。有一种检查方法可以观察算法是否停滞在局部最优值。在迭代中发现的最佳解的周期性计数如果最好的解决办法不是改善，必须采取额外的措施来为了保持BinJOA-SM算法种群的多样性，采用了进化计算中的变异算子。所提出的BinJOA-SM算法使用位翻转变异来保持多样性。在位翻转突变中，每个解的特定数目的位被反转（即，0变为1，1变为0）。这个数字等于突变率。反转如图2所示进行。粗体值表示解的翻转位。突变率必须被指定为低，理想地在0.5%-1%的范围内。高突变率导致随机搜索。BinJOA-SM算法使用1%的变异率。如果一个二进制解包含60个属性，那么解中只有一个随机位会被反转。所提出的算法的伪代码在图3中表示，而图6示出了所提出的BinJOA-SM算法的流程图。5. 实验结果群体P中的每个个体代表不同的特征子集。在训练阶段，K折交叉验证评估分类性能。我们取K = 10。在10折交叉验证中，主数据集被分为10折。每次，9个折叠用于训练，剩余的一个折叠用于测试目的。这种方法重复T次。对于每个数据集，测量BinJOA-SM算法10 T次。所有的实验都是在英特尔酷睿i5机器上进行的所有算法在所有实验中使用共同的配置和参数设置所用参数值列于表1中。由于所有算法都是随机的、随机化的和基于群体的，因此报告了每个数据集30次独立运行的结果对于所有算法，迭代次数方面的终止准则保持相同KNN算法中的所有数据集都取K = 5。K的值是通过查阅文献确定的（Kennedy，1997）。这些参数设置参考（Yu，2017）5.1. 数据集所提出的二进制编码方法的性能是在五个临床数据集和6个额外的数据集上进行了评估，用于比较所提出的算法的性能，Vj;k;i10如果randS<$Vj;k;i<$1<$<1如果randPS<$Vj;k;i<$1<$ð6Þ发表在文献中的算法列出了数据集S形传递函数输出一个实值解，该解必须要求一个阈值才能获得相应的二进制值。为了达到二进制值，应用共同的随机阈值（七）、图2.位翻转突变的表示。.¼.¼警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报5079.2019-04 -25 00： 00：00TPFFN表2数据集描述。数据集名称数据集数量数量的特征班数Pima Indian Diabetis（PID）1151 20 2免疫治疗9082WBCD569322生育100102肺癌32563声纳208602酒178133动物园101177电离层351342麝香1号4761662淋巴造影148184精子浓度涵盖社会人口学数据、生殖因素、健康状况和生活习惯（ Lima ， 2020 ）。 Sonar ， Wine ， Zoo ， Ionosphere ， Musk1 和Photography数据集用于性能比较。5.2. 评价标准表1图三.所提出的BinJOA-SM算法的伪码。基于混淆矩阵的分量进行分类性能分析。性能指标，如准确性，灵敏度，特异性被认为是评估和分析所提出的算法的性能，根据Eqs。(8)、（9）和（10）。正确分类的阳性和阴性实例的数量表示为真阳性（TP）和真阴性（TN）。假阳性（FP）实例是被错误分类为阳性的阴性样本的数量，而假阴性（FN）样本表示被错误分类为阴性的阳性实例的数量。CATPPURCTN100 8TPTNFPFN敏感度为10%。TP× 100×8mm特异性<0.5%。 TNΣ×100ð10Þ参数设置。配置条件值试验次数30迭代次数200人口规模30c1;j;i0c2;j;i0突变率0.01KNN算法5在表2中，从UCI机器学习库（UCI机器学习库，2019）中选择。这些数据集包括范围为8-71的特征数量。每个数据集中有两个类，除了肺癌数据集，它包含3个类。每个数据集都展示了不同的现实问题。世界乳腺癌诊断（WBCD）数据集已经提取了细针抽吸乳腺组织图像的特征。这些特征详细描述了图像中的细胞核。在肺癌数据集中，特征是从数字化图像中提取的。该数据集包含三种病理类型的肺癌。免疫治疗数据集提供了90名患者的肿块治疗结果。生育数据集分析了100名志愿者的精液样本，这些志愿者按照WHO 2010年发布的规范进行测试。的FP-100除了上述措施之外，选择的特征的数量、减少的特征的数量和CPU计算时间是用于分析实验结果的附加评估标准5.3. 结果提出的BinJOA-SM算法的分类精度的基础上进行评估。表3和图4中报告了30次独立运行的分类准确度平均值。将BinJOA-SM算法与结合双有界支持向量机（FSTBSVM）算法（Lima，2020）的新特征选择方法进行了准确度测量灵敏度和特异性的比较。还将BinJOA-SM算法的准确度结果与使用粒子群优化（PSO）算法获得的准确度值进行了比较（Xue，2018）。所获得的结果表明，BinJOA-SM算法在Pima Indians糖尿病、免疫疗法和生育数据集中的分类准确性优于FSTBSVM算法。Pima IndiansDiabetes仅使用75%的总特征就实现了78.04%的准确率。免疫治疗数据集仅使用25%的特征就产生了87.92%的平均分类准确率。警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报表50805080准确度、灵敏度和特异性结果。数据集算法精度PSOFSTBSVMBinJOA-SM灵敏度FSTBSVMBinJOA-SM特异性FSTBSVMBinJOA-SM皮马印第安人糖尿病–77.2178.0487.2158.2071.0658.20免疫治疗–87.8987.92100.094.36100.094.36WBCD93.3498.2494.36100.089.62100.089.62生育–91.8992.02100.098.8688.8998.86肺癌74.00–75.00–66.64–63.67每个数据集的准确度、灵敏度和特异性的良好表现结果以粗体表示。见图4。平均分类精度。原始数据集。在WBCD的情况下，仅使用原始数据集的40%特征，平均准确率达到94.36%。FSTBSVM算法使用WBCD数据集的70%特征产生98.24%的准确率。生育数据集报告了92.02%的准确率，使用了50%的特征。BinJOA-SM算法也优于标准粒子群算法，对WBCD数据集的而肺癌数据集为75%。理想情况下，灵敏度和特异性值必须平衡。通常，如果我们试图增加灵敏度（真阳性率），特异性（真阴性率）就会降低，反之亦然。FSTBSVM算法（Lima，2020）在Pima Indians糖尿病和生育数据集中显示灵敏度和特异性值存在非常高的差距。然而，BinJOA-SM算法在所有数据集中产生平衡的灵敏度和特异性值，如图所示。五、表4显示了以数字和百分比值选择的特征。BinJOA-SM算法使用Pima Indians糖尿病数据集中可用的8个特征中的6个特征，并提供78.04%的平均准确度。BinJOA-SM算法只需要2个特征见图6。 BinJOA-SM算法流程图。图五.灵敏度和特异性值之间的平衡实例。在免疫疗法数据集中总共8个可用特征中，使用了一个，以产生87.92%的平均准确度。表6示出了所提出的算法与基于分类准确度的现有算法的比较。分类准确度的值从（Awadallah等人，2020年）。表5显示了用于比较分类准确度值的方法列表。它还显示了每种方法的焦度。根据表6中列出的结果，BinJOA-SM算法获得了分类精度。警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报5081表4选择的特征数和特征选择百分比数据集/总功能数量选要素选定的功能（%）算法PSOFSTBSVMBinJOA-SMFSTBSVM BinJOA-SM皮马印第安人糖尿病8–4650.00 75.00免疫治疗8–1212.50 25.00WBCD3011.82211270.00 40.00生育10–5550.00 50.00肺癌5623.58–26–BinJOA-SM算法中选择的特征数量和特征选择百分比的值以粗体表示表5比较方法及其缩写。表7CPU计算时间方法名称缩写CPU计算时间二进制蚱蜢优化算法BGOA数据集在几分钟内以秒二进制灰狼优化器BGWO皮马印第安人糖尿病5324二元引力搜索算法BGSA免疫治疗2132二进制bat算法BBAWBCD321925混合引力搜索算法HGSA生育2125鲸鱼优化算法WOA肺癌163遗传算法GA粒子群优化PSO只在一个数据集里。然而，其余数据集的结果具有可比性。WBCD数据集仅适用于数据集中30个特征中的12个特征，平均准确率为94.36%BinJOA-SM算法使用生育数据集中可用的10个特征中的5个特征，平均准确率为92.02%。肺癌是不平衡数据集的一个例子它包含32个实例和56个特征。BinJOA-SM算法仅使用26个特征就能产生75%的平均准确率。表7示出了在200次迭代中执行BinJOA-SM算法所需的时间PimaIndians Diabetes 包含 1151 个实例，其中执行在 5 分钟内完成immunother-bandwidth数据集在2分钟内完成了90个实例的执行。WBCD数据集有569个实例，完成200次运行需要32分钟具有100个实例的生育率数据集在2分钟内完成肺癌数据集仅需1分钟即可完成32个数据行的200次运行。6. 讨论实验结果表明，与FSTBSVM算法相比，BinJOA-SM算法在PimaIndians Diabetes，Immunotherapy，and Fertility数据集的优化特征数下获得了更好的分类精度.据观察，变异算子，当结合Jaya优化算法，保持种群的多样性。它有助于在全球搜索空间中找到多样化的解决方案。从而避免了BinJOA-SM算法陷入局部最优的停滞。这样，BinJOA-SM算法有效地克服了早熟收敛，解决了多目标优化问题。因此，我们获得了更高的分类精度。分类算法分析不能仅仅通过将分类准确度作为性能度量来真实地进行。灵敏度计算正类准确性，而特异性评估负类准确性。在评价分类算法的性能时，必须考虑灵敏度和特异性的平衡。具体而言，它是具有类不平衡的数据集（例如肺癌数据集）的基本测量。只有32个数据实例，而特征的数量是56。肺癌数据集仅使用所有特征的46.43%实现了75%的分类准确率。据观察，BinJOA-SM算法为所有数据集产生灵敏度和特异性的平衡值。当提出的BinJOA-SM算法与基于百分比灵敏度和特异度的FSTBSVM算法进行比较时，它给出了可比较的结果提出BinJOA-SM算法的主要目标是通过最小化所选特征的数量来最大化分类精度。所提出的BinJOA-SM算法在减少所有数据集中的特征数量的情况下提供了更好的准确性。通过获得更好的准确性，所有数据集的特征数量至少减少25%表6提出的BinJOA-SM算法与现有算法的分类精度的比较数据集BinJOA-SMBGOABGWOBGSABBAHGSAWOAGAPSOWBCD0.9420.9800.9680.9570.9370.9740.9680.9570.949麝香10.8680.8630.9080.8980.826––0.8620.845电离层0.8690.8990.8850.8810.8770.9340.9260.8630.876淋巴造影0.9790.8680.8130.7810.7010.8920.8520.7580.759声纳0.8430.9120.8360.8880.8440.9580.9190.8330.804酒0.9380.9890.9600.9510.9190.9890.9590.9470.937动物园0.9640.9930.9750.9390.8740.9320.9800.9460.963每个数据集的最佳分类精度值通过使其加粗来呈现。警局Sheth，S.T.Patil和M.L.多尔沙特国王大学学报50827. 结论本文提出了一种基于进化计算的特征选择算法--BinJOA-SM算法。五个临床数据集，如Pima Indians糖尿病，免疫治疗，WBCD，生育力和肺癌，用于验证我们的算法。Sonar、Wine、Zoo、Ionosphere、Musk1和Photography数据集是用于与现有特征选择技术进行性能比较的6个附加数据集。该算法使用Jaya优化算法进行最优特征选择。本文BinJOA-SM算法使用较少的特征数量获得更好的分类精度。在5个医学数据集中的5个中观察到特征数量减少。当与FSTBSVM算法进行分类比较时，所提出的算法在5个数据集中的5个数据集上优于准确度。它解决了多目标优化问题，克服了精度和特征基数的折衷。与基于元启发式算法的特征选择技术相比，所提出的算法在6个数据集中的1个数据集中表现出色，并且对其余数据集产生了可比较的结果。BinJOA-SM算法是对Jaya优化算法的改进，引入了变异算子。BinJOA-SM算法还为所有医学数据集生成平衡的灵敏度和特异性值。它被用作各种多元数据集的有效预处理技术。引用查特拉，K.，Kuppili，V.，Edla，D.R.，维尔玛，A.K.，2019年。使用二进制蝙蝠优化和具有新适应度函数的极端学习机的癌症数据分类医学生物工程计算57（12），2673-2682。https://doi.org/10.1007/s11517-019-02043-5.de Lima，医学博士，de Oliveira Roque e Lima，J.，Barbosa，R.M.，2020.一种新的特征选择算法与双界支持向量机相结合的医学数据集分类。医学生物工程计算58（3），519-528。https://doi.org/10.1007/s11517-019-02100-z网站。阿罗拉，S.，Anand，P.，2019年。用于特征选择的二进制蝶形优化方法专家系统Appl. 116，147-160。https://doi.org/10.1016/j.eswa.2018.08.051。华丽，X.，2018年一种改进的萤火虫分类特征选择算法无线网络Commun. 102（4），2823https://doi.org/10.1007/s11277-018-5309-1南卡罗来纳州尤斯塔，2009.不同的元启发式策略来解决特征选择问题。模式识别Lett.30（5），525-534. https://doi.org/10.1016/j.patrec.2008.11.012.Rao，R.V.，帕特尔，V.， 2012. 基于精英教与学的复杂约束优化问题优化算法。国际工业工程计算杂志3（4），535-560。https://doi.org/10.5267/j.ijiec.2012.03.007网站。Rao ， R.V. ， 2015. 教学基于学习的优化及其工程应用。施普林格出版社，伦敦。https://doi.org/10.1007/978-3-319-22732-0.Satapathy，S.，Naik，A.，Parvathi，K.， 2013. 基于粗糙集的无监督特征选择和基于教学学习的优化。国际人工智能杂志软计算 3 （ 3 ）， 244-256 。https://doi.org/10.1504/IJAISC.2013.053401网站。Kiziloz，H.，Deniz，A.，2018.特征子集选择问题的TLBO算法。神经计算306，94-107. https://doi.org/10.1016/j的网站。neucom.2018.04.020网站。Rao，R.V.，2016. Jaya：一个简单的新的优化算法，用于解决约束和无约束优化问题。国际工业工程计算杂志7（1），19-34。https://doi.org/10.5267/j.ijiec.2015.8.004网站。Abhishek，K.，库马尔，V.R.，达塔，S.，Mahapatra，S.S.，（西班牙语）2017.JAYA算法在CFRP（环氧）复合材料车削加工性能优化中的应用：与TLBO、GA和ICA的比较。工程计算 33（ 3）， 457-475 。 https://doi.org/10.1007/s00366-016-0484-8Rao，R.V.，2019. Jaya：一种改进的优化算法及其工程应用。施普林格国际出版社，中国。Candès，E.J.，1999年神经网络的谐波分析Appl. Comput. 和谐肛门6（2），197-218。https://doi.org/10.1006/acha.1998.0248网站。艾默里奇，麻省理工学院，Deutz，A.H.，2018.多目标优化教程：基本原理与进化方法。 Nat. Comput. 17 （ 3 ）， 585 网址： http ： //doi.org/10.1007/s11047-018-9685-yGunantara，N.，艾，Q. ，2018 年多目标优化：方法及其应用。Cogent工程师5（1），1502242。https://doi.org/10.1080/23311916.2018.1502242。肯尼迪，J.，埃伯哈特河，1997.粒子群算法的离散二进制版本，IEEE系统、人与控制论国际会议。Comput.模拟控制论5，4104-4108。https://doi.org/10.1109/ICSMC.1997.637339。UCI机器学习存储库，可访问：https://archive.ics.uci.edu/ml/datasets。 php，2019.徐，H.， 2018. 一种改进的萤火虫分类特征选择算法。无线电通信，1-12Bhoye，M. ，Pandya，M.H. ，Valvi ，S.，Trivedi，I. N. ，Jangir，P.，Parmar，S.A.，2016.采用Jaya算法求解含微电网的排放约束经济负荷分配问题。2016年国际可持续能源效率技术会议（ICEETS） 497- 502高，K.，杨，F.，Zhou，M.C.，潘，Q. Suganthan，P.N.，2018.基于离散Jaya算法的新工件插入柔性作业车间调度。IEEE Trans. 赛博恩49（5），1944-1955年。布达拉河Mahapatra，S.S.，（西班牙语）2018.改进的基于教与学的Jaya优化算法求解柔性流水车间调度问题。J. Ind. Eng. Int. 14（3），555-570.Congcong，W.，他，Y.，2020年。用一种新的混合Jaya算法求解集并背包问题。Soft Comput 24（3），1883 https://doi.org/10.1007/s00500-019-04021-3.Awadallah，文学硕士例如，2020.二进制JAYA算法与自适应变异的特征选择。阿拉伯人J. Sci.工程师：1-16谢思警局Patil，S.T.，2020.基于进化二进制编码的癌症诊断数据特征选择的改进Jaya优化算法。Solid State Technol.63（02），992-1006。Yu，K.，Liang，J.J.，Qu，B.Y.，陈旭，王，H.，2017.基于改进Jaya优化算法的光伏模型参数辨识。能量转换器

下载后可阅读完整内容，剩余1页未读，立即下载