没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于Pareto特征排序技术的基因芯片数据特征选择和分类的两阶段分级方法拉斯米塔·达什计算机科学系信息技术,Siksha阿提奇莱因福奥文章历史记录:2017年5月19日收到2017年8月1日修订2017年8月27日接受2017年8月30日在线提供保留字:特征排序技术Pareto前沿多目标优化分类技术微阵列数据库A B S T R A C T基因芯片数据库中的高维搜索空间具有大量的基因和几十个样本,增加了此类数据库分析的复杂性。所有的基因都不是显著的,因此需要提取信息基因因此,降维是必要的这一过程。在文献中经常发现,排序方法用于特征选择。不同的排序技术可能会对同一基因分配不同的排序,并且基于这些排序进行的选择可能不适合于不同的问题。因此,使用一种排序技术可能会导致一些重要的基因被拒绝,并可能选择一些不重要的基因。这种选择可能会降低分类器的性能。为了克服这个问题,这里提出了一种基于双目标排序的Pareto前沿技术。在该技术中,使用基于两个排序的技术,用一组特征生成帕累托最优解。对于实验工作,考虑了基于7个特征排序策略的21个模型八个不同的微阵列数据,以找到合适的排名组合的工作。采用评分方法对模型进行排序,并进行统计检验。©2017作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍功能基因组学涉及分析来自各种生物实验的大量数据集信息。一种这样的大规模实验涉及在特定条件下同时监测数千个基因的表达水平。这种类型的分析被称为基因表达分析。微阵列技术使之成为可能,产生的数据量是巨大的。微阵列技术是生物学家用来监测基因组表达的重要工具之一。在最近的研究中,已经表明微阵列数据分类技术用于癌症疾病识别。该数据以基因表达差异的形式从组织样品中制定和收集。大规模的科学数据带来了很多沙特国王大学负责同行审查制作和主办:Elsevier电子邮件地址:rasmitadash@soauniversity.ac.in当使用传统的数据挖掘技术时,研究人员面临着恢复有用信息的挑战这些数据在本质上往往是不对称的基因(或特征)的数量是数千甚至数万,但样本的数量通常少于或略多于数百。因此,用这个维度进行分析会降低分类器的性能并增加计算成本。 因此,在这种不对称数据上使用传统分类器是极其困难的(Ressom等人,2008; Liu等人,2009; Dash and Liu,1997). 因此,降维对于微阵列数据分析是必不可少的(Kohavi和John,1997)。在高维数据分析中,主要的特征选择方法之一根据这种方法,特征被授予基于某个分数的等级。然后过滤掉一些排名靠前的特征,以代 表 数 据 的 重 要 特 征 ( Kira 和 Rendell , 1992;BoyanBonev ,2012)。所有排名算法都因排名标准而异但是,关于一个被认为适合于数据集的排名标准的选择不是坚持单一标准(即单目标优化),而是考虑多个排名标准(即多目标优化),最佳特征子集选择也是可能的。在这项工作中,降维方法的多cri-基于特征选择是用于有效的分类,http://dx.doi.org/10.1016/j.jksuci.2017.08.0051319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comR. Dash/ Journal of King Saud University233高维微阵列数据。对于多目标优化,研究了7种特征排序方法。结合任意两种排序技术,共建立了21个排序模型每个模型生成一组具有Pareto 最 优 解 的 特 征 值 。 使 用 三 种 分 类 器 , 如 人 工 神 经 网 络(ANN),朴素贝叶斯网络(NB)和k-最近邻(KNN)的模型的性能进行评估此外,使用这些分类器的所有数据集的所有模型当模型性能随数据集和分类器而变化时,使用两阶段分级方法来识别稳定模型在第一阶段中,对21个模型的分级是相对于数据集进行的,然后在第二阶段中相对于最后用非参数假设检验对结果进行了验证。论文组织如下。第一部分介绍了微阵列数据的概念、特征选择的必要性、不同的特征选择技术及其优点和局限性以及为什么提出这种技术。第2节介绍了基于排序的特征选择和基于多目标优化的特征选择的文献综述微阵列特征选择的拟议工作在第3节中介绍。第4节详细描述了每种排名技术。第5节详细描述了完整的实验设置和结果评价过程。最后,在第6节中,建议工作的结果包括在结论中。2. 背景研究由于微阵列数据库是高维数据,降维是进行分类的关键。在第一节中,讨论了不同排序方法的特征选择技术,然后强调了基于多目标的特征部分的需要,并提供了一些参考。2.1. 基于排序技术的微阵列数据特征选择在当今的情况下,特征排序方法用于许多应用中,如质谱、概要提取、序列数据分析、高维、时间数据等等(Saeys等人,2007 a,b;Bolón-Canedo等人,2014; Lazar等人,2012; Guyon,2003)。过滤器方法首先使用一些单变量度量对特征进行排名,然后选择排名最高的特征并丢弃排名较低的特征。该方法的结果从这一部分,它是简单的使用,并具有较短的运行时间。然而,实现一个排序方案的基因选择有时会变得多余,因为很难预测哪个排序标准适合特定的数据集。由于采用一个标准排序可能会选择一些不太重要的基因,并可能会放弃一些重要的基因。因此,对于基因表达数据库,多标准或多目标特征选择技术而不是坚持单一标准是非常受欢迎的(George和Raj,2011; Rashashekar和Sahin,2014)。应用于微阵列数据的不同排序技术见表1。2.2. 多目标特征选择从上述调查中可以看出,特征选择的目标是多种多样的,例如(i) 对于特定的应用(如微阵列数据),确定降维子集是重要的。这是由于具有太少数量的特征的子集可能不意味着表1在各种文献中使用的基因排序方法。排名方法参考InformationGainHall et al. (一九九八年)t检验,方差分析Jafari和Azuaje(2006)基于相关性的特征选择(CBF)Zhao等人(二零零八年)t检验Thomas等人(2001)和Tsai等人(2003年)Wilcoxon评分检验(2003年)WilksLambda评分Hwang etal. (2002年)信噪比Wang(2005),Golub等人(1999)欧几里德距离Cho and Won(2003),Hu etal. (2006年)信息增益Xing et al. (2001年)FisherScorePeng et al. (二零零七年)T-statisticsMundra and Rajapakse(2010)Lee和Leu(2011年)Abeelet al. (2000年)MrmRYang and Mao(2011)一个特定的阶级。此外,具有太多特征的子集在设计鲁棒分类器时也会产生噪声。(ii) 特征数量和样本比例的不平衡降低了分类器模型的可理解性,从而降低了性能。因此,从这些冲突的目标,基于多目标的优化可能优于单个目标,以生成更合适的特征子集表2中讨论了关于微阵列特征选择的多目标优化的文献调查。3. 拟议工作一般来说,过滤器技术使用特征排序方法来将重要特征与不太重要的特征分离。每种排序技术都有一个独特的评估策略来对基因进行排序,并根据这些排序从原始数据集中提取基因。然而,不同的排序技术对单个基因的排序通常是不同的,这导致不同的排序技术选择不同的基因子集。当这些基因子集被呈现给任何分类器时,分类器产生显著不同的结果。为克服这一问题,进行了多目标优化(MOO)概念基因选择。MOO概念的详细阐述如下。多目标优化处理的是这样一类问题的研究,在这些问题中,人们必须最小化或最大化多个目标,这些目标是一些实变量或整数变量的函数这是通过在允许的集合内选择实数或整数变量的适当值来系统地执行的给定一个定义域,优化问题的主要目的是研究如何获得某些目标函数的最佳值。几乎所有现实世界的问题都是多目标的,每个目标都需要得到满足。对于这类问题,不存在一个针对所有目标的最佳解决方案。事实上,当考虑所有目标时,我们可能在整个搜索空间中有一组最优解。这些解决方案被称为帕累托最优解决方案(Coello Coello等人,2005;Weise等人,2009年; Marler和Arora,2004年; Pappalardo,2008年;Jaimes和Coello,2008)。这一组中没有一个解绝对优于其他解。因此,任何一种解决方案都可以是可接受的解决方案。234R. Dash/ Journal of King Saud University1/4F J 2 g92ð Þ < ðÞ2019 - 09- 29Þ< 埃克塞特--表2基于多目标的特征选择方法列表作者详细信息(出版年份)目标函数Rosenberg(1967)遗传算法(GA)约束函数优化Schaffer(1985)遗传算法●使用遗传算法进行特征选择● 一种多目标优化的集结字典法--矢量评价遗传算法(VEGA)Mohamad等人(2008年)多目标遗传算法支持向量机(MOGASVM)●训练精度和● 选择的要素数量Fei和Juan(2008)NSGA-II用估计分布算法(EDA)代替NSGA-II的交叉和变异过程,以选择更重要的特征加西亚-涅托等人(二零零九年)02 The Dog(2013)GA两个性能指标作为优化的标准被称为● 灵敏度和● 特异性GA● 子集的基数● 分类错误Tan等人(2014)改进的微遗传算法(MmGA)●分类效率● 灵活性05The Dog(2015)萤火虫算法通过优化萤火虫在多类特定统计Sharbaf等人(2016)细胞学习自动机和蚁群优化● 分类精度● 最终子集Shahbeig等人(2017)教学基于学习的优化(TLBO)算法和变异模糊自适应粒子群算法● 分类精度● 灵敏度● 特异性现在多目标优化问题可以定义如下:多目标优化(MOO):设Z 1(X),Z 2(X),. . ,Zn(X)是n个待优化的目标,其中gi(X)≤ 0,i = 1,2,. . ,k1,不等式约束和hi(X)= 0,i= 1,2,. . ,k2,m维向量X =(x1,x2,.. . ,xm),则MOO可以被定义为最小化Z X Z1X;Z 2 X;. ;Z n X1受giX6 0的限制;第一节第二节. ; k12h i= 0;第一节第二节. ; k2c3其中X 1/4×1;×2.. . ; x m2 XX X1× X2×···× Xn和x i2Xi; 8 i ¼ 1; 2;.. . ; m帕累托优势:如果U≠u1;u2;.. . ;um= 1;v 2;.. . 是两个特征函数则U优 于 V<$u
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功