微阵列数据的特征选择与进化文化算法的应用

98 浏览量更新于2024-01-23 收藏 986KB PDF 举报

基因表达

进化算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软计算快报3（2021）100007使用数据复杂性度量和进化文化算法进行微阵列数据Saeed Sarbazi-Azad，Mohammad Saniee AbadehAbdullah，Mohammad Erfan MowlaeiTarbiat Modares大学电气计算机工程学院，邮政编码。Box：14115-194，Jalal Al-e Ahmad，Tehran，IranaRT i cL e i nf o保留字：特征选择微阵列基因表达数据复杂性度量遗传算法进化算法a b sTR a cT使用基因表达数据进行癌症检测是过去十年的主要研究趋势。微阵列基因表达数据是最具挑战性的数据类型之一，由于高维度和可用样本的稀有性特征冗余极大地增加了预测任务的难度。因此，必须对数据集进行特征选择，以减少为分类任务选择的特征数量。在本文中，提出了一种新的两阶段的框架，以面对灾难的维数在微阵列数据中使用数据复杂性的措施和定制的文化算法，将一个静态的信念空间的遗传算法，以减少搜索空间和优先级的重要基因。实验结果表明，与Gli85、Colon、DLBCL、SMK和CNS数据集上的最新方法相比，所选基因的准确性大大提高，数量减少。1. 介绍DNA微阵列包含大量基因的信息这种类型的数据用于疾病诊断和肿瘤鉴别。由于维数灾难[1]，微阵列数据不能容易地通过机器学习算法进行分析。此外，这种类型的数据很少见，并且基于它构建的模型性能很差。许多微阵列研究已经证明，大多数特征对标签预测没有贡献[2]。另一方面，处理高维数据需要大量的时间和计算资源。因此，为了克服上述问题，减少特征空间是不可避免的，并且在分类任务之前对数据进行预处理是必须的。降低数据维数的一种方法是特征选择。特征选择是选择重要特征并忽略其他特征以训练高性能模型的过程[3]。有三种主要的特征选择算法，即过滤器，包装器和嵌入式方法[4]。过滤器通常使用统计测量来评估每个特征的重要性。过滤方法是快速的，因为它们不考虑特征之间的一致性;然而，它们不能确定性地选择最佳特征子集，并且由过滤器创建的结果模型可能不如其他方法可靠。一些最流行的滤波器方法是信息增益（IG），增益比属性评估器（GRAE），卡方属性评估器（Chi），对称不确定性（SU）和ReliefF（REL）[4]。过滤方法分为单变量和多变量。吃的方法。单变量和多变量方法之间的区别在于多变量方法中考虑了特征依赖性，而单变量方法没有考虑这一点。过滤器或排名器的问题在于，每个过滤器或排名器所排名的重要特征可能并不相同。因此，可以选择不重要的特征，而不是重要的特征。在[43]中，提出了一种基于双目标排序的Pareto前沿技术来克服这个问题。在该方法中，使用两个基于排名的技术的帕累托最优解被生成。对8个微阵列数据的处理和7种排序方法的21个模型的建立表明，该方法可以筛选出重要的致病基因。包装器使用分类器在每次迭代中评估所选的特征子集，以实现所需的性能。使用分类器会使包装器比过滤器慢，但最终模型的性能通常很高，因为模型是基于分类器的准确性生成的。这种方法的问题是数据维度增长带来的指数计算时间。因此，包装器不是研究人员的选择，特别是在微阵列上。第三类是过滤器和包装器之间的中间体，使用分类器的核心来评估功能;使嵌入式方法比包装器快，比过滤器慢。有一种方法是一种同时进行主成分分析（PCA）和回归的方法，称为偏最小二乘法（PLS）。它适用于降维和预测模型训练。多元回归方法，如偏最小二乘回归（PLS-R），主要用于高维数和低样本数的问题。[42]一个变形的PLSR，即Par。∗ 通讯作者。电子邮件地址：s. modares.ac.ir（S. Sarbazi-Azad），saniee@modares.ac.ir（M. Saniee Abadeh），e. modares.ac.ir（M.E.Mowlaei）。https://doi.org/10.1016/j.socl.2020.100007接收日期：2020年2月9日;接收日期：2020年8月14日;接受日期：2020年10月10日2666-2221/© 2020由Elsevier B. V.出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表软计算快报期刊主页：www.elsevier.com/locate/soclS. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007提出了一种基于最小二乘判别分析的高光谱数据分类方法。该方法是PLS-R的变体，当标签是分类的时使用。结果表明，PLSA在高光谱数据中，它可以优于其他分类器，如K-最近邻（KNN），支持向量机（SVM），对角线性判别分析（DLDA），最大不确定性线性判别分析（MLDA）和收缩线性判别分析（SLDA）。这些数据也证实了维数灾难和特征之间的高度相关性。PLSDA有两个变体，称为PLS 1-DA和PLS 2-DA，分别用于一个或两个以及两个以上的类问题[40]。Wang等人[39]提出了一种递归特征消除方法，称为（PLS-RFE），该方法使用模拟退火和平方根方案来加速微阵列中的特征选择。在该方法中，在每次迭代中忽略一些特征。在[41]中，提出了一种基于PLS的二进制和多类问题降维的新方法，该方法选择具有高识别度的特征子集。该方法还考虑了特征的相关性，使其能够用于强交互效应检测。在上述方法中，首先，应用过滤器以减少搜索空间，然后通过包装器方法选择满足某些条件的其他基因。另一种获得极大关注的方法是使用数据复杂性度量来提取数据特征并量化数据集的复杂性[5]。如果数据很难分类，那么数据的复杂性就很高，另一方面，如果类是线性可分的，那么数据的复杂性就很低。复杂性测度的概念最早是由Ho和Basu[6] indicat提出的。研究数据复杂性与分类准确性之间的关系。复杂性度量用于许多机器学习问题，例如数据集的实例级分析，以减少复杂性并提高分类性能[7]，类重叠和偏斜减少[8，9]以及用于提高准确性的特征选择[10，11]。Moran-Fernandez等人[11]提出了一种特征选择方法在微阵列中，首先垂直分割数据，然后在每次分割时应用来自滤波器的简单特征选择算法。然后为每个要素创建一个投票编号，以指示该编号在不同的轮中通过特征选择算法选择特征的次数。最后，在合并阶段，采用数据复杂性度量来选择具有特定票数的最佳特征。在上述研究中，应用数据复杂性度量的目的是选择最简单的特征子集。在[4]中，介绍了七种简单的特征选择方法及其在九个众所周知的二进制微阵列数据集上的结果。结果表明，简单的滤波器不能确定性地选择最佳的特征子集，因此建议实现混合方法，将滤波器与其他方法相结合，以获得更稳健的结果。在[12]中，提出了一种新的特征选择的分布式方法，其中随机和基于秩的分裂被应用于选择特征的子集。在基于等级的方法中，在类别预测中具有类似作用的特征被分组在同一分裂中。为了将相似的特征合并到一个分割中，使用了两个单变量滤波器，即IG和ReliefF，以及一个称为最小冗余最大相关性（MRMR）的多变量滤波器。最后，当且仅当所得到的子集可以提高分类精度时，合并分裂的子集。上述研究的议程是分配的特征选择任务，以减少所消耗的时间和维数。[13]中提出的另一种算法将特征空间垂直分割为子特征，其中每个分割中的特征数量等于样本计数的一半。作者提到过拟合回避是这种预处理的动机。接下来，将二进制引力搜索算法（BGSA）应用于每个分裂。对于每一个分裂，一个二进制的ob- 对象，要素集的大小在每个像元中为零或一被认为用于指示相应特征的存在或不存在。最后，将进化算法应用于每个分割，以找到最佳的特征子集。实验结果表明，该方法在高维空间的特征选择方面具有较强的鲁棒性。空间数据上述方法被称为合作协同进化特征选择（CCFS），因为它合作地选择特征。在[14] 提出了一种使用基于相关性的特征选择（CFS）、信息能量作为特征类冗余（RCF）和犹豫相关系数作为特征-特征冗余（RFF）进行特征选择的方法启发式算法是另一种流行的降维方法。Wang etal.[37]提出了一种新的细菌菌落优化方法，使用多维种群（BCO-MDP）进行癌症基因表达数据分类中的特征选择在这种方法中，种群被分成部落，每个部落中首先有两个细菌，维度作为问题特征大小。通过替换某些特征来更新细菌Saini等人[15] 提出了一种启发式策略，该策略忽略了与标记检测无关的基因。在[16]中提出了一种基于模因算法的新方法，其中模因算法递归迭代。如果没有得到所需的拟合度，并且可以减少特征，则应用过滤器来选择和排列特征。Potharaju和Sreedevi在[17]中提出了一种方法，首先应用对称不确定性（SU）对特征进行排名，然后使用CFS分配子集中的特征数量。接下来，特征在不同的聚类中传播，基于SU等级的最最后，主导集群是使用多层感知器（MLP）实现最高精度和最低均方根误差（RMS）的集群。另一项研究[18]提出了一种新的混合方法，即最小冗余最大新分类信息（MR-MNCI），使用称为减少特征冗余和增加分类信息的两个标准的集成，用于微阵列上的特征选择。取得的结果表明，高平均分类精度。的新方法[19]提出了一种分布式方法，并最终合并各部分的结果。在该方法的合并阶段，数据复杂性度量用于选择具有较低数据复杂性的特征子集。如果降低数据的复杂性或选择可以更好地表达数据的基因子集，则将实现高类别预测准确性[20]中的研究提出了一种使用数据复杂性度量而不是分类器来评估微阵列中所选特征的有效性的方法。微阵列中还使用了一些值得注意的方法，包括利用互信息进行特征选择[21]，在向后消除方法中使用T得分[22]，采用基于MapReduce范式的进化方法[23]，基于内核的聚类[24]以及使用过滤器和包装器方法以及和声搜索算法的组合[25]。在这项研究中，一个新的两阶段框架，使用数据复杂-城市的措施和定制的文化算法，是在或- 以对抗微阵列数据中的维数灾难。在这种方法中，文化算法的搜索空间减少使用数据复杂性措施。这使得显著特征选择非常快。该过程还使数据集更易于分类。选取了五种著名的数据复杂性度量，从二进制数据集中选取重要特征，达到降维的目的。数据复杂性度量的应用有两个目标：首先，减少初始数据集的特征空间，其次，使遗传算法的搜索空间和时间复杂度最小化，并产生用于进化文化算法的静态信念空间。因此，所提出的方法的第一阶段是使用数据复杂性度量基于特征的排名创建具有较低维度的子数据集，然后，使用静态信念空间辅助遗传算法应用最终的降维。结果表明，该方法能有效地筛选出致病基因。这使我们能够减少冗余特征，从而得到按顺序排列的最小特征集以减少成本和运行时间，以及实现可接受的高识别率。S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007（（）（））（）1��2��1��2F2=本文的其余部分组织如下。所提出的方法将在第2节中介绍。然后将在第3节中讨论实验设置和结果。最后，第4节包含了本文的结论。2. 该方法微阵列数据的主要挑战是样本的高维性和稀缺性。当样本数小于400时，特征数大多数超过4000。大量的冗余特征阻碍了在类别预测中实现高精度。微阵列数据的另一个问题是处理这种类型的数据的高时间消耗和资源需求。因此，在对微阵列数据进行分类之前，减少维数是一个重要的任务。降维方法之一是特征选择，即选择对标签预测贡献最大的特征，忽略其他特征。在这项研究中，提出了一种新的方法，高维数据的特征选择。该方法采用一种进化的文化算法--静态信念空间辅助遗传算法，并结合数据复杂性度量，有效地降低了数据的维数。该过程导致创建一个具有训练高性能模型能力的数据子集，2.1. 数据复杂性度量数据复杂性度量主要分为三大类，分别是单个特征值的重叠度量，类的可分离性度量，以及流形的几何、拓扑和密度度量。在本研究中，三种数据重叠度量，即更好的判别比（F1），重叠区域的体积（F2）和特征效率（F3），被用于所提出的方法中。其他应用的度量是两个可分性度量，称为类可分性（L1）和混合可识别性（N1）度量[6]。在下文中，简要描述了在建议方法的第一阶段中应用的2.1.1. Fisher判别比（F1）当使用垂直分区时，通常应用最大Fisher度量，并应用复杂性度量来分配最佳特征子集[11]。可以预期，如果F1的最大值在具有高值的数据集中，所选子集中的至少一个特征可以线性地将样本的类别与其它类别区分开。然而，在这种方法中，考虑了每个特征的重要性，忽略了与其他特征的依赖性。F1对于二进制类数据集的计算如下：（1−2）2分类任务。数据复杂性度量用于减少特征空间，并形成遗传算法的信念空间��1 =��12 + ��22（1）在算法1中描述了使用复杂性度量进行特征选择的伪代码。算法1：使用复杂性度量进行特征选择的伪代码输入：特征集X，类标签Y//计算X中每个特征xi的如果（xi具有标称值）将xi映射到数值end if式中，1，2，12，22是两个类别的平均值和方差。��一个特征的值越高，该特征就越能分离类别样本[6]。2.1.2. 重叠区域的体积（F2）描述两个类条件分布尾部重叠的度量。F2计算如下：日本最大 ��，，max ��， ��，，min ��，��(max(��,��), max(��,��)) −�� (min(��,��), min( ,��))��Rank[i]← apply_complex_measure（xi，Y）端//选择具有最高等级值的特征��1��2��1��2（二）按降序对等级进行排序，并根据等级值选择前m个要素作为S根据每个复杂性度量对要素的投票创建信念将S和置信度引入遗传算法在所提出的方法的第一阶段，算法1将使用每个复杂性度量来执行，并且将从训练数据集中提取所选择的特征子集。此算法根据值将要素从最重要到最不重要进行排序复杂性的衡量标准。在从第一阶段过渡到第二阶段之前，由每个数据复杂度度量考虑产生的特征集将被合并，以形成单个特征空间。然而，合并后的特征空间会产生冗余特征。当一个特征基于多个复杂性度量的排名被评估为重要特征时，就会导致这种冗余。因此，冗余特征的存在指示新特征空间中特征的另一等级。使用复杂性度量对特征进行排名，在类别预测中考虑特征之间的关系。例如，当与使用复杂性度量排名的第二最重要特征和最不重要特征执行的类预测相比时，通过复杂性度量的两个最高排名特征可以证明提供差的类预测。因此，遗传算法被用作特征选择的第二阶段，以从通过数据复杂性度量选择的特征集中找到最佳特征子集。在本节的其余部分中，将详细讨论数据复杂性度量和我们研究中使用的遗传算法。其中i=1，2，��如果至少对于其中一个特征，值的重叠为零，则体积为零。2.1.3. 特征效率（F3）面对高维数据，重要的是找出跨特征的类别区分，F3测度计算特征在类别预测中的贡献。该度量被定义为可由每个特征分离的样本的数量。换句话说，特征效率是由特定特征分离的样本的分数[27]。2.1.4. 线性可分性（L1）该度量确定了数据中类的可分性，这些类强烈地受到离群值的影响。因此，去除离群值可能会增强数据的线性[6]。如果数据是线性可分的，则L1的值接近或等于零。为数据集计算的值是线性分类器的误差值[26]。2.1.5. 混合物可识别性（N1）确定两个样本来自同一分布的度量。它是从最小生成树（MST）计算的，接近类边界的样本数计为N1。换句话说，这个度量是通过最小生成树连接到相反类的数据中的样本率[5]。S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007图1.一、将复杂性度量的输出转换为GA的输入并形成静态信念空间（投票）的过程。2.2. 静态信念空间辅助遗传算法在这一部分中，遗传算法（GA）用于第二阶段将讨论特征选择。如前所述，对数据集应用每个复杂性度量的输出是来自初始特征空间的特征子集。从不同的复杂性度量得到的特征集可能具有它们之间的共享特征。因此，在对上述特征集合执行联合操作以形成最终集合并将上述最终集合馈送到GA之前，通过不同的复杂性度量选择特征的次数将被记录为特征的投票。图1描述了将初始特征空间转换为特征集和相应的投票的过程，这些特征集和投票将作为GA的输入。如图1所示，来自数据集的未被任何复杂性度量选择的特征（每个复杂性度量标记为假的特征）将在第二阶段中被丢弃（例如，特征C），并且仅由至少一个复杂性度量选择的特征（标记为真）将存在于所提出的特征选择框架的第二阶段中。所得到的特征集将用于生成我们的GA中的种群，并且所述特征集的相应投票将形成我们的GA种群的静态信念空间。这里使用的信念空间受到文化算法[28]的信念空间的启发，该信念空间在每次迭代后更新。然而，这里使用的信念空间将是静态的，没有任何更新。这些投票将作为算法关于特征的先验知识，这些投票将在以后的变异和交叉函数中使用。遗传算法的核心是从提供在[29]和GA的组件将在下面讨论。2.2.1. 染色体结构染色体保存着基因，基因的适应性和年龄参数。基因本质上是一个与特征列表相一致的0和1的列表。如果基因序列中基因的值为1，则相应的特征将用于分类任务，否则将不用于任务。基因序列的样本结构如图2所示。年龄表示模拟退火的温度符号，其嵌入在[29]中实现的遗传算法的核心中。染色体的年龄是指示染色体在突变或交叉后未能改进的次数的数字。如果染色体的年龄超过最大年龄值，则染色体具有从父池中丢弃的高概率，并且由丢弃的染色体的突变或交叉产生的新染色体将被替换。2.2.2. 健身拟合函数使用给定的基因序列计算两个参数，即准确度和基因数（NoG）。给定一个基因序列，将从数据集中提取所选特征，之后，将在5倍交叉验证中计算使用所提取特征创建的模型的准确度。NoG表示提取的特征的数量，或者换句话说，基因序列中的1的数量。奖励-惩罚函数使用准确度作为每个基因序列的奖励，使用NoG作为每个基因序列的惩罚。因此，所提出的算法的适合性是双目标的，并且算法的目标S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007∑∑��图二. 基因序列结构。是以最大化精度为主要目标，降低NoG为次要目标。例如，如果两个基因序列提供完全相同的精度，则使用较少特征的基因序列将具有最高的拟合值。2.2.3. 变异和交叉mutate函数将基因序列作为输入，概率为1/2，该函数决定使用复杂性度量投票选择突变的基因;否则，将随机选择基因。使用投票的基因选择的概率与每个基因具有的投票的相应数量具有线性关系，如等式（1）中所公式化。（3）：��(��)=��∕中国（3）式中，λ（λ）是给定基因序列中基因i的选择概率，λ是基因i的相应投票计数，�� 代表所有功能的投票总和。交叉函数将两个基因序列作为亲本和供体基因作为输入，并尝试将所选基因从供体替换到亲本。交叉函数使用与变异函数相同的变异概率来决定在基因选择中使用复杂性度量投票。类似于突变，在决定用于基因选择的投票的使用的情况下，每个特征具有的投票的数量将根据等式（1）与相应基因选择的概率具有线性关系。(3).例如，考虑到特征A具有1票并且特征B具有3票，则相应基因的选择概率为是变异和交叉函数中特征A的相应基因的3倍。投票（静态信念空间）的使用有助于变异和交叉功能通过给予被认为具有最多类分离的基因更高的选择机会来减少随机性并在贡献力。变异和交叉的伪代码函数分别在算法2和算法3中给出算法2：变异函数伪代码输入：基因序列G，投票V，投票使用概率//下载selection_probs=calc_prob（V）number_of_genes=Random（1，2）ifRandom（0，4）gene_indices=sample_genes（from：G，probability：selection_probs，count=number_of_genes）其他gene_indices=sample_genes（from：G，count：number_of_genes）end if对于gene_index中的每个gene_index，G[gene_index]=按位_not（G[gene_index]）端算法3：交叉函数输入：亲本基因序列P，供体基因序列D，投票V，投票使用概率V//对于P中的每个索引，run_indices=[]filtered_votes=[]is_identical=True如果P[index]不等于D[index]run_indices←indexfiltered_votes←V[index]is_identical=False如果结束，则结束if_identical//使用create函数将父基因替换为新的基因序列返回Noneend ifnumber_of_genes=Random（1，2）selection_probs=calc_prob（filtered_votes）ifRandom（0，4）gene_indices=sample_genes（from：run_indices，probability：selection_probs，count=number_of_genes）其他gene_indices=sample_genes（from：run_indices，count：number_of_genes）end if对于目标基因中的每个目标基因=D[目标基因]端返回P变异及交叉率乃根据截至目前为止对适应性改善的贡献而动态厘定。改进列表和导致每个改进的策略由算法维护，并且每次使用轮盘赌选择从亲本池中选择染色体时，将对所选择的基因序列应用突变或交叉。例如，如果策略列表包含2个突变和3个交叉，那么下一个基因序列有40%的机会被突变，60%的机会被交叉函数修改3. 业绩评估和讨论在本节中，将介绍实验装置和结果。五个著名的二进制微阵列数据集被选择用于评估所提出的方法。所用的微阵列数据列于表1中，描述了样品的数量、特征和类别、不平衡（IR）和最大Fisher判别比（F1）。IR和F1是两种数据复杂度度量。IR是多数类中的样本数与少数类中的样本数之比，其中后者是指示数据集中最具鉴别力的特征的能力的度量。最大Fisher判别比的值越大，类别越可分离[30]。S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007表1数据集特征。特性数据集#示例#特性#类IR F1下载Gli858522,28322.272.35[三十一]结肠622,00021.821.08[32个]DLBCL474,02621.042.91[33个]SMK18719,99321.080.41[34个]CNS607,12921.860.45[35]第三十五届图六、决策树分类器对Colon数据集的准确性。图3.第三章。通过Naive Bayes分类器对CNS数据集的准确性。图四、决策树分类器对CNS数据集的准确性。图7.第一次会议。通过Naive Bayes分类器对DLBCL数据集的准确性。图8.第八条。决策树分类器对DLBCL数据集的准确性。图五、通过Naive Bayes分类器对Colon数据集的准确性。用于评估所提出的方法的分类器是决策树和朴素贝叶斯。以鱼为基础的方法的结果[36]指出了在基于fisher的方法中没有考虑的特征相关性的重要性。因此，遗传算法被用来找到最佳的特征子集，在减少的特征空间，导致复杂性措施。第二阶段的结果，其中静态信念空间辅助遗传算法已被用于降维描绘图。 3 - 12考虑四个国家时，图9.第九条。 Gli85数据集上的精度由Naive Bayes分类器提供。S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007图10个。决策树分类器对Gli85数据集的准确性。在变异和交叉中使用静态信念空间选择基因的概率分别为10%、30%、50%和70%，随机选择基因的概率分别为90%、70%、50%和30%。上述数字表明了遗传算法中静态信念空间的效果，其运行时间和数据集上的精度。纵轴表示精度，横轴表示时间表2图十一岁通过Naive Bayes分类器对SMK数据集的准确性。在配备Intel Xenon E5-2695 CPU和32 GB RAM的系统上消耗。根据图1和图2所示的结果，3 - 12，考虑了使用具有三种不同概率的信念空间的概率（基于信念空间或以随机方式选择遗传算法初始池的概率），在大多数数据集中，当随机性降低时，所提出的方法可以更快地找到重要基因决策树数据集的准确性、灵敏度和特异性数据集算法Gli85结肠DLBCLCNSSMKAvg无FSAC757470655877Se816069666477SP638270624875CFSAC797975646279Se816878566478SP758571715880INTAC787970595577Se817274515476SP718266665877IG #10AC857275606274Se887879716978SP797071484869IG #50AC818473656378Se868369626776SP718574675877ReliefF #10AC857285654775Se885083805968SP778587472574ReliefF #50AC828273615373Se886874616067SP709070624474SVM-RFE #10AC817181606573Se856082657466SP757779554874SVM-RFE #50AC798082655776Se837784626181SP708279664972mRMR #10AC798275685577Se868479717280SP617970642370mRMR #50AC808273625877Se916869667080SP549074573971CCFsAC807983655580Se836885646278SP738580633877基于Fisher的FSAC898691758485Se958392787384SP818991739385该方法AC100981001009498Se100991001009398SP100941001008896S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007表3数据集的准确性，灵敏度和特异性，由朴素贝叶斯。数据集算法Gli85结肠DLBCLCNSSMKAvg无FSAC845592636073Se886996606468SP734788665274CFSAC828590656781Se907696677579SP679084625479INTAC827790647081Se887696727780SP717783555878IG #10AC827994616381Se887296596778SP778292645880IG #50AC857792666380Se867696677578SP817788654279ReliefF #10AC868294676373Se887296717273SP818792634870ReliefF #50AC898492676774Se867796727278SP978788615871SVM-RFE #10AC827392716878Se836191777774SP818092645478SVM-RFE #50AC887692707080Se866991738275SP938092654981mRMR #10AC858092676380Se887896687981SP778298653376mRMR #50AC808094676278Se818696677575SP777792673877CCFsAC858296686584Se818271657178SP778277715376基于Fisher的FSAC9585100738387Se897592668080SP748387627977该方法AC1001001001009498Se1001001001009498SP1001001001008997图12个。决策树分类器对SMK数据集的准确性。这是因为在预处理阶段创建了一个指示特征重要性的元数据，称为置信空间。这个信念空间是使用2.2节中提到的数据复杂性度量创建的。另一方面，比较表1中数据集的较好分数，在不同的信念使用概率下，达到的准确度和达到该准确度所消耗的时间之间存在关系。考虑了例如，Gli85的得分高于SMK和CNS。因此，与其他两个相比，预计第一个会有更多的区别性特征。可以看出，当存在使分类器能够更容易地分离类的特征时，遗传算法的运行时间在发现重要基因时较低。换句话说，DLBCL和SMK数据集具有接近的IR值，因此，预期在上述数据集上实现的准确度相似。然而，DLBCL的最大Fisher判别比是SMK数据集的7倍，因此，DLBCL数据集在两个阶段中实现的准确度高于SMK数据集。SMK数据集在更少的时间和越来越少的基因数量Gli 85数据集中的类是不平衡的，预计会有很高的错误率;然而，由于更高的判别比，实现了高准确性。还可以讨论基于图中所示时间的例如，在DLBCL数据集中，准确性增长率远远高于SMK数据集。因此，可以推断，数据的复杂性强烈地影响了分类任务。准确度、灵敏度和特异性。灵敏度和特异性分别表示阳性和阴性样本的分类程度，准确度表示阳性和阴性类别的检测程度[13]。根据表2和表3中的结果，所提出的方法在准确性、特异性和灵敏度方面优于其他特征选择方法。基于Fisher的方法[36]可以有效地减少差异，S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007表4差异特征选择遗传算法的基因数、精度和时间消耗价值观= 0.7数据集NOG时间（分钟）精度NOG时间（分钟）精度NOG时间（分钟）精度Gli854.41510011.9501005.8124100结肠7.215989.22597.88.63796.8DLBCL2.4361002.2241003.452100SMK17.63793.225.25992.1348791.4CNS5.4181004.630986.23598.4表5不同方法选择基因的准确性和数量的类比方法然而，在该方法中，所实现的准确度不与特征的数量成比例。例如，在CNS数据集中，与仅选择5个最重要特征的情况相比，使用50个最重要特征的决策树的准确性下降。原因是Fisher没有考虑特征之间的相关性，这可能会影响准确性。静态置信空间辅助遗传算法方法的结果表明，由于在最终特征选择步骤中考虑了相关性，因此在准确性方面表现出色。比较表2和表3中最后两行的准确度表明，考虑选定特征的选择对于训练模型的重要性，因为与基于Fisher的方法相比，遗传算法实现了显著更高的准确度。本研究中的评估过程考虑了5个方面交叉验证该方法将样本分成5个大小相等的部分，每次迭代选取其中一个作为检验样本，其余的作为检验样本作为训练数据。在每次迭代中，随后应用所提出的用于特征选择和分类的方法。然后在测试中，从测试中选择在训练数据上确定的特征。迭代次数取决于考虑用于评估的折叠次数。在表4中，描述了基因的平均数量、遗传算法的时间和超过5倍的准确度。在遗传算法的变异和交叉函数中，考虑了三种状态下的结果，并给出了不同的概率分布。例如，一个表4中的k= 0.7表示每次调用变异或交叉函数时，使用置信空间选择基因的概率为70 随机选择基因的概率是30%。所得到的结果表明，在一般的增长，在特征空间和时间消耗减少，提高精度的结果。根据表4，降维在具有较低复杂度的数据集中更有效。例如，SMK数据集具有最大的复杂性，并且由所提出的方法得到的数据的描述基因的数量比其他数据集多。这一观察结果源于数据复杂性度量是直接从特征值计算出来的，重要特征的去除与重要特征的数量有直接关系。表5列出了选择的基因的数量和通过不同方法获得的准确度，其中获得了最佳结果。根据实验结果，该方法在准确度和基因数量上都明显优于其他方法。表5中列出的方法包括过滤器方法，其中Fisher判别比已用于对特征进行排名[36]（Fisher），协同进化合作特征选择（CCFS），用于降维的递归模因算法（RMA）[16]，分布式特征选择方法（DRF）[12]，多维种群细菌菌落优化（BCO-MDP）[37]，基于联合邻域熵的Fisher评分的基因选择算法（GSFSJNE）[38]，多目标优化（MOO）[43]和我们提出的方法。4. 结论从微阵列数据中训练高性能模型是困难的，这是由于数据的特征包括高维和样本稀缺，因为大多数特征是冗余的或在类别预测中没有贡献。因此，降维应该应用于微阵列，以避免过度拟合和有偏的模型。本文提出了一种基于数据复杂性度量的静态信念空间辅助遗传算法。五个著名的数据复杂性措施可执行的线性时间被选中应用在所提出的方法。在遗传算法的变异和交叉功能中，具有更大区分贡献的特征具有更大的选择机会。分配类别标签的特征的贡献由数据复杂性度量确定。在特征选择方法中，重要的是减少微阵列维数，同时提高训练模型的准确性。实验结果表明，该方法有效地降低了数据集的维数，提高了性能指标。该方法仅适用于本研究中的二进制数据集，因为数据复杂性度量是专门针对二进制分类问题实现的。并与文献中的8种常用特征选择方法进行了比较，详细地报道了结果。所提出的方法可以进一步发展，以处理多类数据集。方法数据集Fisher提出CCFsRMADRFBCO-MDP公司简介MooACCGLI859410085-----NOG504127ACC结肠861008210090-88100NOG150723255-ACCDLBCL100100961008610094100NOG502234288-ACCCNS8410068-80--83NOG518334-ACCSMK759465-----NOG54206.2S. Sarbazi-Azad，M. Saniee Abadeh和M.E. 莫莱软计算快报3（2021）100007供资来源这项研究并没有从公营、商业或非牟利资助机构获得任何特别拨款。引用[1] A. Jain，特征选择：评估，应用和小样本性能，IEEE Trans.Pattern Anal。马赫内特尔19（1997）153-158，doi：10.1109/34.574797。[2] T.R. 戈卢布Slonim，P. Tamayo，C.Huard，M.Gaasenbeek，J.P. Mesirov，H. M.L.科勒卢，J.R.唐宁，文学硕士卡利久里角布鲁姆菲尔德，E.S. 兰-der，Molecular classification of cancer：class discovery and class prediction bygene expression monitoring ， Science 80 286 （ 1999 ） 531 527 ， doi ：10.1126/sci-ence.286.5439.531。[3] I. Guyon，A.特征提取，基础与应用：特征提取导论，北京：计算机科学出版社。EX tr. Stud. Future Soft Comput. 207（2006） 1 -25，doi：10.1007/978-3-540-35488-8_1。[4] 诉博隆 - 卡内

下载后可阅读完整内容，剩余1页未读，立即下载