没有合适的资源?快使用搜索试试~ 我知道了~
高维医学数据的自适应和声搜索基因选择与分类方法
×沙特国王大学学报高维医学数据的自适应和声搜索基因选择与分类方法拉斯米塔·达什计算机科学工程系,Siksha阿提奇莱因福奥文章历史记录:2017年12月12日收到2018年2月5日修订2018年2月27日接受在线发售2018年关键词:特征选择微阵列数据滤波方法包装方法和声搜索Pareto最优解A B S T R A C T在生物信息学中,微阵列数据分析在疾病诊断中得到了极大的关注。微阵列数据以巨大的搜索空间表示,这在基因方面的最相关事实的选择中施加了最大的困难在这方面,我们推荐了一个混合和声搜索和Pareto优化方法的特征选择在高维数据分类问题。在第一阶段,实现了一个自适应和声搜索算法的基因选择与概率分布因子的最佳基因排序。应用基于双目标帕累托的特征选择技术来选择最佳最小数量的排名靠前的基因,进一步细化该选择。所选基因的重要性和相关性通过一些分类器进行了验证。实验分析进行了四个众所周知的微阵列数据集。最后通过统计分析证明了本文工作与其他两种自然启发算法相比的优越性。仿真结果表明,所提出的混合算法在高维数据库的样本分类和特征子集预测方面具有很大的©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍微阵列数据分析只不过是在单个杂交实验中,在特定条件下同时监测数千个基因的表达水平。这被称为基因表达分析,其对于诊断和治疗疾病是有用的。这也被称为机器学习社区下的分类问题。微阵列数据集或基因表达谱是在多个样品上实验的高维数据集(Golubet al.,1999年)。它以2D矩阵m的形式组织n,其中m代表受影响和未受影响的疾病患者的样品数量,n代表基因数量。因此分类的目的是区分健康和受疾病影响的患者的样本(Larranaga等人,2006年)。存在用于不同领域中的分类问题的广泛的算法,诸如决策树、最近邻(Larranaga等人,支持向量机,朴素贝叶斯分类器沙特国王大学负责同行审查制作和主办:Elsevier电子邮件地址:rasmitadash@soa.ac.in(Campbell和Cristianini,1998; Cooper和Herskovita,1992)等。微阵列数据分析的算法面临两个主要挑战:与显著较少数量的样品相比,过多数量的基因。虽然有各种各样的算法和技术可用于这样的高维数据,但如此巨大的搜索空间(与更多的无关基因)降低分类器的性能。这些不相关的基因不仅会混淆学习算法,而且输入不相关基因的学习算法容易出现过拟合。 使用高维小样本数据来增强分类器的性能的一种解决方案是基因选择(或特征选择)(Boulesteix等人, 2008年)。特征选择是从数据集中识别最相关的特征并以较小的搜索空间表示高维数据的过程但对于微阵列数据,最合适的特征选择确定是非常困难的,因为样本大小与基因的数量相比太小在对这些数据进行降维时需要考虑几个因素。特征选择技术的评价标准和搜索策略是两个重要因素。根据这些因素,特征选择技术分为两大类:过滤器方法和包装器方法。过滤方法独立于分类器,并基于数据的内在属性生成特征子集。根据这些方法,基因或者被排名(取决于一些评分),https://doi.org/10.1016/j.jksuci.2018.02.0131319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com196R. Dash/ Journal of King Saud University值)(Lazar等人,2012)或相对于成本函数评估信息量最大的基因(Saeys等人,2007年)。与包装器相比,过滤器方法的速度更快,因为过滤器方法中恢复的特征子集与所使用的分类模型无关。但在包装器方法中,启发式搜索技术被淡化为特征选择技术,以从数据集中去除无意义的特征。在包装方法中,通过最小化分类器的预测误差来识别最具区分力的特征集。在这里,特征选择方法被包裹在分类算法周围,并且分类器被训练和测试以生成特征子集。在这些技术中,使用不同类型的搜索算法来生成最佳特征集(Waserashekar和Sahin,2014)。因此,使用包装器方法生成的特征比过滤器方法更准确。基于特征集的最优性和计算代价,提出了几种启发式搜索算法它包 括 进 化 论 ( Khushaba 等 人 , 2011 ) 、 蚁 群 优 化 ( ACO )(Dorigo和Stutzle,2004)、模拟退火(SA)(Laarhoven和Aarts,1988)、遗传算法(GA)(Haupt和Haupt,2004)、禁忌搜索(TS)(Glover和Laguna,1997)和粒子群优化(PSO)(Kennedy等人, 2001年)。在这项工作中,提出了一种混合和声搜索的特征选择和帕累托优化方法。这里的特征选择分两步完成。首先将特征选择作为优化问题,使用基于自适应和声搜索的基因选择(AHSGS)技术进行基因选择然后在第二步中,找出最佳的特征数与相关的特征指数多准则Pareto最优解的评价。基于两个基于排序的过滤器方法,应用帕累托优化技术,并且选择很少的最相关特征。考虑到包装器和过滤器方法的优点,该分析构成了一个包装器过滤器方法的特征选择高维数据库。最后,进行了统计显著性分析,证明AHSGS优于其他两个进化方法。论文结构如下。第一部分介绍了微阵列数据的概念、特征选择的必要性、不同的特征选择技术及其优点和局限性以及为什么要提出这种技术。第二部分重点介绍了文献综述和提出工作的动机在第3节中描述了所提出的模型,并给出了模型与其他现有方法相比,完整的实验设置和统计的总体结果讨论的详细描述在第4款. 最后,在第5节中提出了结论性意见。2. 背景在高维数据库的特征选择的文献中,已经提出了许多基于进化的贡献。该领域已经丰富了许多用于特征选择模型开发的基于进化的方法的建议,例如(GA)(Boulesteix et al.,2008)、差分进化(DE)(Dash和Misra,2017)、粒子群优化(PSO)(Escalante等人,2012)、和声搜索(HS)(Shreem等人,2014)、人工蜂群算法( ABC ) ( Shunmugapaplanet 和 Kanmani , 2017 ) 、 蚁 群 优 化(ACO)(Tabakhi等人, 2015)等。总之,表1中突出显示了一些进化方法及其变体。这些技术被应用于设计有效的模型,在不同的应用领域的特征选择。在少数情况下,这些技术遭受过早收敛,陷入局部最优。这些技术的重点必须是这些进化算法的标准和变体的开发和探索能力。为了进一步提高绩效,必须在渐进程序中对人口多样性进行激励,并在分配中的每个参与者之间采用先进的信息共享方法为了克服这些问题,提出了一种基于进化的自适应和声搜索技术实现和声搜索的动机是,和声搜索在许多其他应用领域都在此,我们着重介绍了其中的几个。Y.-- F. Huang et al.(2014)提出了一种用于音乐流派分类的自适应和声搜索方法。实现这种方法的不同组合的特征提取。然后将所有的特征集送入不同核的支持向量机的集成。利用和声搜索的种子,在功率分布系统中实现了使用和声搜索的特征选择方法和使用最优路径森林分类器的分类技术(Ramos等人,2011年)。这种混合方法在配电系统中的非技术损耗的自动识别的背景下被验证。Z. Zainuddin等人(2016)提出了一种基于包装器的进化和声搜索技术用于特征选择,小波神经网络被认为是一种分类器。这种优化方法以最少的迭代次数搜索近似最优解。为了提高基因芯片数据中少数类的误分率,A。Moayedikia等人(2017)提出了一种名为SYMON的技术,该技术将对称不确定性和和声搜索应用于特征选择。对称不确定性表1用于特征选择的进化框架的标准/变体SL. 没有技术标准/变体应用领域/参考1GA动态遗传算法振动转子系统/(Lu等人,( 2016年)2GA混合遗传算法少数癌症数据的医学图像/(Nagarajan等人,( 2016年)3GA改进遗传算法阿拉伯语文本数据集/(Ghareb等人,(2016年)4PSO标准微阵列数据集/(Kar等人,(2015年)PSO多群粒子群优化算法基准数据库/(Liu等人,(2011年)5PSO速度有界布尔粒子群算法肝脏和肾脏疾病诊断/(Gunasundari等人,(2016年)6PSO改进粒子群优化文本特征选择/(Lu等人,(2015年)7PSO二进制粒子群优化基准数据库/(Chuang等人,(2011年)8DE混沌差分进化MIMO雷达应用/(Yi等人,(2017年)9DE多目标差分进化算法基准数据库/(Bhadra和Bandyopadhyay,2015年)10ABC杂交人工蜂群来自UCI存储库的15个数据集/(Zorarpacetone和Özel,2016)11ABC带基因重组算子的微阵列数据/(Li等人,(2017年)12ACO标准基准数据库/(Dadaneh等人,(2016年)13ACO混合蚁群算法微阵列数据库/(Sharbaf等人,( 2016年)R. Dash/ Journal of King Saud University197J1-maxFDj¼aω将权重分配给特征值以标识最低有效类级别。进一步和声搜索作为一种优化技术,以选择最佳的可能的特征子集。在论文中(Huang等人,2014)提出了一种基于自适应和声搜索的音乐流派特征选择和分类算法。从音乐的强度、音高、音色、音调和节奏等特征中提取的原始特征集对音乐分类具有实用价值通过将SAHS算法应用于原始特征集,特征选择模型有效地为相应的音乐流派定位最佳特征子集。这里SVM分类器使用不同的核函数。为了处理高维复杂多峰问题,Tuo等人提出了一种新的求解方法.(2015)提出了一种新的基于和声搜索的优化降维调整策略。在考虑各种现实世界特征的情况下,使用基于Pareto的和声搜索方法处理按订单制造中的多目标多站点订单规划问题(Guo等人, 2015年)。3. 特征选择方法本节重点介绍两阶段特征选择方法。在第一阶段,自适应和声搜索方法用于特征选择。然后在第二阶段使用Pareto优化技术从数据集中选择高度支配的特征3.1. 和声搜索方法(Harmony SearchApproach这是一个关于优化问题的元启发式搜索,通过即兴搜索过程产生完美的和谐状态 它具有广泛的应用范围,因为它简单、参数少且易于实现(Kulluk等人,2012; Dash等人, 2014年)。自然的音乐过程是即兴的(在音高调整方面),以产生更好的和谐状态。这是一种类似于局部和全局搜索过程的优化技术,以找到更好的解决方案。HS用称为和谐记忆(HM)的一组解向量表示,其中每个个体(向量或和谐)类似于PSO中的粒子和GA或DE的染色体(Naik等人, 2016年)。HM是用一个随机解向量初始化的,并通过几个参数随每次即兴而更新代表着和声的每一个细节对于和声向量表示,每个比特被分配有从具有特征总数(TNF)的下限为1和上限的搜索中提取的面积数,并四舍五入到描绘特征索引的整数值。假设如果和声长度为10(图1),则每个比特用1到TNF之间的随机实数如果和谐内存大小为HMS,要选择的特征数量为NOF,则初始种群表示为HMSNOF:和谐范围从1到HMS,特征范围从1到NOF。对于和谐评价,取决于尽可能多的相关如果一个特定的和声包含的基因,使用这些基因的分类错误将是低的。因此,我们认为分类误差作为适应度函数。每个和声的适应度值被评估,考虑分类误差作为适应度函数,表示为适应度向量:1/4拟合HMS1/2;拟合HMS2/2;L;拟合HMS1现有的和声是以下列方式即兴创作的:= 1到NOF如果随机数为0; 1,则HMCR为0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功