"改进多目标元算法识别高维癌症数据中重要生物标志物"

PDF格式 | 1.67MB | 更新于2025-01-16 | 200 浏览量 | 举报

沙特国王大学学报

采用改进的多目标元启发式算法从高维癌症数据中识别重要生物标志物

般若波罗蜜多辩经

印度奥里萨邦布巴内斯瓦尔国际信息技术学院计算机科学与工程系

阿提奇莱因福奥

文章历史记录：

收到2020年

2020

年

月

日修订

2020年12月22日接受

2021

年

月

日在线提供

保留字：

癌症数据分类基因选择

最小化

NoG

最大化分类精度

Fisher

评分

多目标混沌Jaya算法

A B S T R A C T

在高维癌症数据中识别最突出的生物标记或具有高分类准确度的基因仍然是机器学习研究人员面临的一个新兴

挑战。由于该挑战具有两个目标，即最小化基因数量（NoG）和最大化分类准确率（CAP），因此该问题可以

建模为二元多目标方法。在这项工作中，多目标Jaya算法的修改版本，多目标混沌Jaya（MOCJaya），建议

选择最小的NoG与高CAP。首先，一个过滤器的方法，即Fisher评分被应用到预先选择的信息基因。然后，

MOCJaya算法被用于选择关键基因和分类癌症数据。为了评估所设计的算法的有效性，考虑了十个二进制和

多类癌症数据集。在这里，建议的算法进行了比较多目标混沌遗传算法（MOCGA），多目标混沌粒子群优化

（MOCPSO），多目标Jaya（MOJaya），多目标PSO（MOPSO），和非支配排序遗传算法（NSGA-II）

模型。此外，MOCJaya算法与其他17个现有的模型进行了比较。实验结果和比较分析表明，MOCJaya分类的

阳性和阴性样本的癌症数据集在高CAP与较小的NoG。

CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。

介绍

高维微阵列数据往往遭受高维灾难，因为它由少量的样本或实例与

大量的属性或基因。因此，需要最相关的特征子集来降低微阵列数据集

的分类复杂性（Ochs，2010;Han， 2015; Maulik， 2011; Zheng，

2011）。传统的基因选择过程分为特征提取和特征选择两部分。在特征

提取中，原始特征集被转换为使用

通讯作者。

电子邮件地址：

c117007@iiit-bh.ac.in（P.P. Debata），puspanjali@iiit-bh.ac.in

（

P.Mohapatra

）。

沙特国王大学负责同行审查

制作和主办：Elsevier

线性和非线性技术（

Bicciato

等人，

2003

），而从原始特征中选择特

征的小子集（

DerMaaten

等人，

2009

）在特征选择方法中。本文重

点研究了特征选择方法根据评估措施，特征选择被分类为过滤器、

包装器和混合器（

Ang

等人，

2016

）技术。

过滤器方法侧重于度量学习任务前的特征的内在特征，而包装器方

法则围绕着机器学习算法，其评价标准主要是基于分类错误率或准确

率。Wrapper方法使用一些Meta启发式算法，这些算法与机器学习算

法一起进行最佳特征选择，例如使用支持向量机（SVM）的模糊后向特

征消除（Azizet al.，2016）、具有极端学习机（ELM）的遗传算法

（Shukla等人，2018），多群SVM（García-Nieto和Alba，2012），

PSO与 K-最近邻（ KNN）（ Kar 等人， 2015 ）、具有 SVM 的 GA

（ Hernandez 等人， 2007 ）、具有 SVM 的遗传蜂群（ GBC ）

（ Alshamlan 等人， 2015 ） ; 具有 SVM 的人工蜂群（ ABC ）

（ Alshamlan 等人， 2015 ）、使用 KELM 的猫群优化（ CSO ）

（Mohapatra等人，2016年），

https://doi.org/10.1016/j.jksuci.2020.12.014

作者。由爱思唯尔公司出版代表沙特国王大学

这是一篇基于

CC BY-NC-ND

许可证的开放获取文章（

http://creativecommons.org/licenses/by-nc-nd/4.0/

）。

可在ScienceDirect上获得目录列表

沙特国王大学学报

杂志首页：

www.sciencedirect.com

《般若波罗蜜多辩》和《般若波罗蜜多

辩》。

Mohapatra

沙特国王大学学报

4744

. -

是

的

. 5

使用SVM的纠错输出码（HE-ECOC）（Liu等人， 2016年），马尔可

夫毯（MB）与NB（王，2014年）和分布式排名过滤器（DRF）与基

于相关性的特征选择（CFS）（Bolón-Canedo等人，2015年）。这些

包装器方法能够发现基因-基因相互作用，从而提高基因选择过程的性

能。然而，在高维数据的情况下，这些技术的计算开销很高

（Alshamlan等人，2015年）。混合方法是将过滤器方法和包装器方法

的优点结合起来的一种方法在该方法中，首先应用过滤器技术来选

择最显著的基因，然后应用包装器方法来搜索基因的最佳子集。

在高维癌症数据的分类中，两个主要目标是集中的，即最小化基因

的数量（NoG）和最大化分类准确率（CAP）。因此，该问题可以映射

为二元多目标模型.近年来，几种多目标优化技术吸引研究人员同时最小

化NoG和最大化CAP，而不是单目标优化技术，即NSGA-II（Ravi等

人， 2017）、MOPSO（Zhao和Suganthan，2011）、MOCGA（Qi

等人， 2006）、多目标萤火虫算法（MOFA）（Marichelvam等人，

2013 ）、 CMOPSO （ Sun 等人， 2019 ）、多目标重力搜索算法

（ MOGSA ）（ Rashedi 等人， 2018 ）、基于多目标教学的优化

（ MOTLBO ）（ Patel 和 Savsani ， 2016 ）和多目标差分进化

（MODE）算法（Cheng等人， 2016年）。

虽然这些方法有效地处理了多目标问题中的一个特定问题，但它们

不能解决所有优化模型中的各种问题。因此，总是存在着解决具有不同

特征的问题的新方法的可能性。通常，元启发式算法经历

该模型在

个基准高维癌症数据集上实现

此外，该算法与其他

个现有的模型，也进行了比较。一些性能指标，如

倍交叉验证方

法的准确性，选择的

NoG

，灵敏度，

MCC

，

F-

测量，和特异性被用

来衡量所提出的算法的有效性

其余部分的工作安排如下：第2节讨论所有支持和建议的方法部分。

第3节涵盖了实验设置部分。第四部分是结果分析部分。结论部分在第5

中讨论。

方法

本节讨论了本研究中使用的所有支持和建议的方法。

2.1.

KELM

模型

Huang

等人（

Huang

，

2011

）提出了

KELM

，其中内核函数在

基本

ELM

中解释。

KELM

将线性不可分模型映射到高维特征空间，

实现线性可分性，提高了分类准确率。

在基本ELM;gshbh1

由方程式(1)，g

（

）

表示输出函数，s表示样本，h

（

）

和H表示隐

藏层的输出矩阵，b表示输出权重。为了使KELM更加普遍化，

稳定，则添加正则化参数（C）。现在，

将是COM-

推测如下：

两个阶段，即多样化和强化（Alba和

Dorronsoro

，

2005

年

; Olorunda

和

Engelbrecht

，

2008

年）。在分

散阶段，算法在不同的有利区域内搜索，

-1页

CQC

特定的搜索空间。在集约化阶段，该算法探索整个有利区域的最佳结

果，然后是多样化阶段（Lozano和García-Martínez，2010）。在这

里，采用Jaya优化算法（Rao，2016），因为该算法在这两个阶段之间

进行了适当的平衡。不仅如此，Jaya算法能够处理约束和无约束优化

问题

它是在保留最好的基础上设计的，

特征

（

）

可以由核函数映射为如下所示的等式

h<$HH

<$h <$s ih s

¼k s

ð3Þ

应用Eq. (2) 和等式(3) 由方程式(1)，我们将得到以下等式：

千吨

千

吨

去掉最差的一个。该算法也不需要任何

不

米

-1

六

、

7 .

第一

次

会议。

-1

算法的具体参数。

在这项工作中，一个新开发的多目标的

ver-

Jaya算法的一种新的混沌概念，称为MOCJaya

HH2C

建议。这里，两个多目标变量，即非

优势排序和拥挤距离（

Ravi

等人，

2017

）被认为是将单目标

Jaya

算

法扩展到二进制多目标

Jaya

算法。这项工作有两个目标，如最小化

的

NoG

和最大化的

ACP

。这里，

ACP

由内核

ELM

（

KELM

）计算。

Fisher

评分（

等人，

1202

）在这项工作中应用于预先选择基因。

本研究的主要贡献如下：

首次将MOJaya算法应用于高维癌症数据分类

为了获得更快的收敛速度，混沌理论包含在该算法中。

利用非支配排序和拥挤距离算子对

Pareto

最优解进行排序，分别

选择最优解。

建议的方法用于选择最相关的生物标志物和分类癌症数据的同时。

在这项工作中，径向基函数（RBF）作为核函数（黄和Siew，2004

年）。径向基核可以表示如下：

Kx;y

-ak

其中

表示内核参数。从等式（4）Eq. 显然，KELM取决于两个参

数，例如正则化系数（C）和核参数（

）。因此，这些参数将被有效地

优化。

2.2.

Jaya

算法

Jaya

是一种优化（

Rao

，

2016

）方法，不需要任何特定的面向算

法的参数。该算法计算时间短，实现复杂度低，收敛速度快

. Jaya

算

法的步骤详细说明为算法

：

《般若波罗蜜多辩》和《般若波罗蜜多

辩》。

Mohapatra

沙特国王大学学报

4745

- 是

的

是

的

好

吧

是

的

好

吧

···

FS1000000000000000000

000000000000000000000

0000000000000000000

n1 n

j;k;i

采用排序方法来表示

Pareto

最优解的排序。

算法

：

Jaya

算法

输入总体大小、设计变量数和迭代次数

输出全局最佳解

设置总体的大小、设计变量的数量和作为停止条件。

从人群中获得最好和最差的解决方案。

根据最佳和最差解决方案的结果将通过应用方程改变（六）、

;

最

好

的

;

-r

;

最差

;

在第

次

迭代期间，

;

是第

个

候选项的第

个变量的值。这里，

是总体大小，

是迭代次数，

被认为是设计变量的数量。

然后将现有的解决方案与修改后的解决方案进行比较，如果发现修改后的解决方案更好，则将其与前一个解决方案交

换，否则将保留前一个解决方案

从第

步到第

步的程序将重复进行，直到最大数量。迭代次数达到。

2.3.

通过过滤器方法

在这项工作中，一个过滤器技术被应用到预先选择的最显着的基

因，其次是一个包装器的方法来搜索的最佳子集的基因。在各种滤

波器技术中，

Fisher

评分（

等人，

1202

）在这项工作中应用于预

先选择基因。该方法采用

Fisher

准则，根据特征的得分独立地选择

每个在此，使用

Fisher

评分选择一系列

500

个排名靠前的基因（取自

（

Dashtban

和

Balafar

，

2017

））作为过滤的基因子集。

在

Fisher

评分基因预选方法中，被视为输入。这里，

表示特征

或基因的数量，

表示实例或样本大小。然后，为了计算基因

的

Fisher

得分（

），应用以下等式：

这里，

表示迭代次数，

是

第

混沌迭代的值，

的初始值是在其

间任意创建的（

Ochs

，

2010

）。

2.5.

建议的

MOCJaya

办法

这里，MOCJaya算法与两种方法结合，

即优势排序和拥挤距离（g）（Rao，2016）双目标癌分类问

题. 非-

优势排序

（

NDS

）和拥挤距离（

CWD

）评估方法确定最优解。例

如，解决方案

tion 与最高水平（排名 = 第一章和最高 g值是

最好的解决方案，反之亦然。如果多于一

解位于同一秩上，则具有最高秩的解

CWD

被认为是最好的一种。

我

由方程式（

），

表示第

个类中的样本数，

表示类的总数，

表示平均值，

mal solutions.

让我们考虑，

是要优化的目标函数的数量，

是要优化

的解的数量。

表示第

次

的

特征。

要分类。

支配准则：一个解

支配另一个解

2.4.

具有混沌学习策略的

在这项工作中，Jaya算法的变体之一，混沌Jaya（CJaya）被使

用。该算法建立在混沌理论基础上。该算法使收敛速度更快，并提供了

更好的搜索空间探索，而不考虑局部最优值（Wang，2017; Yu，

2018）。在数学上，混沌被定义为确定性动力系统的随机性。为了在

不同的优化算法中解释混沌理论，应用了各种具有各种数学方程的混沌

映射。本文从各种函数出发，利用Logistic映射函数的简单性，将其用

于产生混沌随机数。（八）、

¼4xt 1-x

其中

是混沌映射在

第

时刻

迭代

CJaya算法的工作原理与Jaya算法相同主要的变化是，在CJaya算

法中的随机数本文用Logistic混沌变量代替Jaya算法的两个随机变量

和

。人口更新为

分

。

好

吧

是

的

射线

是

的

是

的

j;k;i

þx

t;j;i

最佳

;i j;k;i

t;j;i

最

差

;i j;k;i

当且仅当

Obj

≤

Obj

对于所有

i = 1

，

，.. . ，

F and Obj ik1

Obj ik

为在至少一目的

(i)

、哪里

i1; 2; 3; ;F

（当考虑所有目标

的最小化时）。

非支配准则：只有当

中不存在支配

的

解

时

，才说

中的解

是

非支配的。

以同样的方式，

的每个解与其他解竞争，并且从

中

取出非支配

解并分配等级或级别

。

中的其余解再次被排序，遵循类似的原

理，并且非支配解被提取并且将它们分级为秩

。这个过程将继续下

去，直到

中的所有解都保持一个秩。然后，将具有相同秩的解视为

Pareto front

（

）。

2.5.2.

拥挤距离

拥挤距离（cwd）是对特定溶液存在时溶液密度的评价。设L等于位

于该特定PF上的解的数目（即L =| PF|），并根据以下步骤计算每个

PF的cwd：

步骤

：为组中的每个解

初始化

cwd

步骤

：根据目标函数

Objf

的最差阶

对

中的所有解进行排序，

其中

f = 1

，

.. .

、

步骤

：对于

f = 1

，

.. .

，

，初始化

到

排序列表的

边界解

的

无限拥挤距离（即，

cw d

），

则对于

j = 2

至

（

F-1

），根

据等式

找出

cwd

。

(10).

2.5.1.

排序方法

《般若波罗蜜多辩》和《般若波罗蜜多

辩》。

Mohapatra

沙特国王大学学报

4746

对数周期

数>

0：5

目标

cwd

ð10Þ

仅在一次运行和一种溶液中进行一次因此，计算函数的总次数

迭代次

数

迭代次数。

对象

最大值

对象最

小值

f f

人口

数量的运行。

这里，

被认为是排序列表中存在的解

Obj

j 1

是

第

解的

第

个

目标函数的结果，

Obj

min

和

Obj

max

分别是

算法：

建议的

MOCJaya

算法

投入：人口规模（

），迭代（

），

f f

第

个

目标函数在当前人口分别。

2.5.3.

数学实现

在数学上，多目标优化问题可以建立如下：

优化

：

;

· · ·

;

andx

]

受制于：

Mjx

≥

0;j <$1;2;3;···;A

Njx

≥

0;j< $1; 2; 3;···;B

≤

$1; 2; 3;

·· ·

≤

在Eqs。(11)、（12）、（13）和（14），F表示取了多少个目标函

数，C表示变量的数目， A和B分别表示不等式约束和等式约束的个

数，M

，N

，

和

分别表示等式约束、不等式约束和

第

j变量

癌症分类问题有两个目标函数，一个是最小化函数（等式2）。

(15)），另一个是最大化函数（等式2）。(16)），即

½min

无

G15μ g

和

¼max

最

大值

根据

Eq.

（

）在得到最佳和最差的解决方案之后。然后，将修正

后的解与初始解合并，形成

解

再次，应用非支配

和拥挤距离评

估程序对这

个

的解决方案，并找出其中的最佳解决方案

图

描述了流程图，算法

描述了建议的

MOCJaya

算法的步骤。

如果基因的子集具有与所提取的特征相同的

维度，则每个解是

={c

; c ;

;Xi

;

···

;

}

，其中

i={1

，

. . ，

。

号变量（

），适应度函数（

）

输出：具有最小NoG子集的

：开始

2：初始化P、I、f和d。

：对于每个解决方案，使用

，

和

预先选择的特征子集找出

Obj

，

Obj

（两个目标函数）

：计算

nds

和

cwd

。

、找出非劣解。将解排列成不同的非支配水平，并为每个非支

配水平分配一个秩（秩

被认为是最佳秩）

：根据

nds

设置最佳和最差解决方案

和CWD。

7：集合，I = 1

8：while I Maximum_ Iteration do

9：如果P == 1，则

10：通过应用等式11，找到混沌映射xm的值（八）

：更新等式中的两个随机值

和

(6)使用等式（八）

：对于

i = 1

：

做

：根据最佳非支配解，使用等式

更新解位置（九）

：结束

：其他

16：如果（curr_fit

：继续步骤

至

：其他

：休息。

：如果结束

：将更新的解决方案与初始解决方案合并（例如，初始解

（

）

更新解（

）

= 2n

）

：然后，找出

的

Obj

，

Obj

解决方案

如果解由n位组成，则前2位保留给c

，

和

n-2

位编码之间的基因子集（

Ochs

，

2010

）

使用变换函数（1表示选择，0表示该特定特征的拒绝），即Xi

[c，

c，0，1，1，，0]。

这里，转换函数用于将连续形式

将特征值转换为离散二进制形式。该函数（Eq. （17）定义如下：

：同样，计算

解的

nds

和

cwd

，选择非支配解，并将解排列

成不同的非支配水平

：根据解的非支配性水平对解进行排序。

(for

例如，等级

被

认为是最佳等级）

否则

ð17Þ

：从

个解中根据其非支配水平和

cwd

提取最佳

个解。

由方程式（十八）

logsig

。

ð18Þ

27：I = I +1

第

章：结束

：获得具有最佳

CAP

和最小

NoG

子集的最佳解决方案

在这里，我们计算的是类的平均测试精度

Fier

（

KELM

），采用

倍

法。在每次迭代中，

MOCJaya

方法

计算

Obj

，

Obj

（两个目标函数）

：结束

剩余15页未读，继续阅读

cpongm

粉丝: 6

"改进多目标元算法识别高维癌症数据中重要生物标志物"

单层竞争神经网络的数据分类—患者癌症发病预测_MATLAB智能算法.zip

头发光谱显微成像数据处理分析方法及其应用.pdf

miRNA臂切换可识别新型肿瘤生物标志物

ellipsoidFN：基于基因表达的异质性癌症生物标志物识别工具

CBCP：高维基因表达谱的闭合模式多类分类算法

T检验与SVM在蛋白质质谱数据分析中的应用：高识别率的癌症诊断方法

基于DNA微阵列的多类癌症识别方法

【数据挖掘在生物信息学中的应用】：Proteome Discoverer 2.2模式识别与生物标志物发现

【NSGA-II算法在生物信息学中的应用】：基因数据集的多目标分析，专家深入研究

生物信息学数据挖掘：揭开大数据中生命密码的10大算法

最新资源