基于LSA和层次聚类的蛋白质远程同源检测提升策略
需积分: 1 131 浏览量
更新于2024-09-06
收藏 456KB PDF 举报
该篇论文《基于潜在语义分析和层次聚类的蛋白质远程同源检测》由中国科技论文在线发布,由胡杨和王亚东两位作者共同完成,他们的研究背景是在高等学校博士学科点专项科研基金的支持下进行的,这表明该工作具有一定的学术性和实践价值。两位作者分别担任讲师和教授,专注于生物信息学领域。
在计算生物学中,蛋白质远程同源检测是一个核心问题,对于理解生物进化、功能预测以及药物设计等方面具有重要意义。传统的支持向量机(SVM)作为一种强大的分类器方法,被广泛应用并显示出卓越的性能。然而,这种方法面临两个主要挑战:一是高维数据中的维度灾难和噪音问题,二是远程同源检测任务的数据不平衡性,即负例样本数量远超过正例样本。
针对这些问题,论文提出了一种新颖的解决方案,即采用潜在语义分析(Latent Semantic Analysis, LSA)和层次聚类相结合的特征空间重构技术。LSA有助于减少高维度带来的复杂性,通过捕捉序列间的隐含语义关系,提取出更有代表性的特征。层次聚类则有助于进一步优化特征空间,通过分层组织相似性,减少噪音影响。
此外,作者意识到在远程同源检测的评估中,精确度-召回率曲线(Precision-Recall Curve, PRC)相比于传统的接收操作特性曲线(Receiver Operating Characteristic Curve, ROC)更能反映出不平衡数据集下的算法性能。PRC更侧重于精确匹配,这对于正例稀少的场景更为关键。
论文的关键点包括生物信息学、潜在语义分析、层次聚类以及蛋白质远程同源检测的具体方法。这项研究不仅提供了一个有效的蛋白质序列表示和分析框架,也为处理高维和不平衡数据集的问题提供了新的思路。其研究成果对于生物信息学领域的理论发展和实际应用具有重要的推动作用。
2019-09-19 上传
2019-09-20 上传
2019-09-20 上传
2023-07-22 上传
2023-04-20 上传
2023-04-23 上传
2023-12-15 上传
2023-05-18 上传
2023-06-08 上传
weixin_39841848
- 粉丝: 512
- 资源: 1万+
最新资源
- JHU荣誉单变量微积分课程教案介绍
- Naruto爱好者必备CLI测试应用
- Android应用显示Ignaz-Taschner-Gymnasium取消课程概览
- ASP学生信息档案管理系统毕业设计及完整源码
- Java商城源码解析:酒店管理系统快速开发指南
- 构建可解析文本框:.NET 3.5中实现文本解析与验证
- Java语言打造任天堂红白机模拟器—nes4j解析
- 基于Hadoop和Hive的网络流量分析工具介绍
- Unity实现帝国象棋:从游戏到复刻
- WordPress文档嵌入插件:无需浏览器插件即可上传和显示文档
- Android开源项目精选:优秀项目篇
- 黑色设计商务酷站模板 - 网站构建新选择
- Rollup插件去除JS文件横幅:横扫许可证头
- AngularDart中Hammock服务的使用与REST API集成
- 开源AVR编程器:高效、低成本的微控制器编程解决方案
- Anya Keller 图片组合的开发部署记录