组合式SNP特征选择:Relief与SVM-RFE的应用
需积分: 50 60 浏览量
更新于2024-09-10
2
收藏 1.21MB PDF 举报
"这篇论文提出了一种基于Relief和SVM-RFE的组合式SNP特征选择方法,用于解决SNP全基因组关联分析中的高维小样本问题和遗传疾病复杂性的挑战。在Filter阶段,利用Relief算法去除不相关的SNPs;在Wrapper阶段,通过SVM-RFE来递归消除特征,最终选出与遗传疾病关联的关键SNPs。实验结果显示,该方法在分类准确率上优于仅使用SVM-RFE或Relief-SVM的策略,为SNP全基因组关联分析提供了有效工具。"
本文是关于生物信息学领域的一种特征选择方法,特别是针对单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的全基因组关联研究(Genome-Wide Association Studies,GWAS)。SNP特征选择是GWAS中的关键步骤,因为它可以帮助研究人员从海量的SNP数据中找出与特定遗传疾病相关的少数关键SNPs,从而减少数据分析的复杂性和提高模型的准确性。
论文指出,传统的GWAS面临着两个主要难题:一是SNP数据的维度极高,而可用的样本数量相对较小,这可能导致过拟合和计算效率低下;二是遗传疾病的发病机制复杂,可能涉及到多个SNP的交互作用。为了解决这些问题,作者提出了一个两阶段的特征选择方法,结合了过滤式(Filter)和缠绕式(Wrapper)策略。
在Filter阶段,论文采用了Relief算法。Relief是一种基于实例的特征评估方法,它通过衡量每个特征在近邻实例间的差异来估计其重要性。该算法可以有效地去除那些对分类贡献较小或无关的SNPs,降低数据的维度。
进入Wrapper阶段,研究者运用支持向量机的特征递归消减法(SVM-RFE)。SVM-RFE是基于SVM的特征选择方法,它通过反复训练SVM模型并消除对分类影响最小的特征,直到达到预设的特征数或者满足某个停止条件。SVM-RFE能更深入地探索特征之间的相互作用,寻找最优特征子集。
实验结果证明了所提出的组合式方法的有效性,它在分类准确率上优于单独使用SVM-RFE或Relief-SVM的情况。这表明,结合两种策略可以更好地处理SNP数据的高维性和复杂性,为GWAS提供了一个有力的工具,有助于加快遗传疾病研究的进程。
这篇论文的贡献在于提出了一种新的特征选择策略,它整合了Relief的过滤能力和SVM-RFE的包裹式搜索,对于高维SNP数据的分析有着显著的提升。这种方法不仅能够提高全基因组关联分析的效率,还可能为揭示复杂的遗传疾病机制提供新的线索。
2021-05-31 上传
2021-01-07 上传
weixin_39840914
- 粉丝: 436
- 资源: 1万+
最新资源
- 制作VC++启动界面——可显示图片的关于窗口
- Comprice:trade_mark: - 价格比较-crx插件
- webchallenge-vanillaJS
- 基于pytorch的图像修复校准
- software:软件
- GDataDB:Net的Google Spreadsheets的类似于数据库的界面
- hall_admin:我在GitHub上的第一个存储库
- Programmazione_di_Rete:网络编程项目 - Java RMI(罚款)
- vfs dropbox plugin:适用于Apache Commons VFS的Dropbox插件-开源
- YUV2RGB.dll YUV转换RGB算法的API封装
- Alitools Shopping Assistant-crx插件
- JinShop:Minecraft有趣而高效的PythonFlask商店
- googleImageSearch:使用谷歌图像搜索api并在网格交错视图中显示结果
- 免费倒酒:调酒师工具-图灵学校FEE计划MOD 3的Solofinal项目
- Windows日志外发配置
- 速卖通图片搜索-crx插件