蛋白质结构域边界检测:基于距离最大熵的支持向量机方法
需积分: 5 61 浏览量
更新于2024-08-13
收藏 779KB PDF 举报
"基于距离最大熵值的蛋白质结构域边界检测系统 (2009年) - 邹淑雪,刘桂霞,时小虎,周春光 - 吉林大学计算机科学与技术学院"
这篇论文发表于2009年,主要研究的是蛋白质结构域边界检测的问题。蛋白质结构域是蛋白质分子中的功能或结构独立的部分,了解其边界对于理解蛋白质的功能至关重要。传统的蛋白质结构域边界检测方法往往面临数据不平衡的挑战,即正类(结构域边界)和负类(非边界)样本数量相差悬殊。
作者首次将蛋白质结构域边界检测问题转化为非平衡数据学习问题,并提出了一种创新的欠采样方法。这种方法利用支持向量机(Support Vector Machine, SVM)的特征空间,针对与正类样本具有最大距离的负类样本进行采样。这种策略旨在通过选择那些最具代表性的负类样本来平衡数据集,从而提高学习算法的性能。
在实验部分,研究人员使用了经过筛选的蛋白质结构域数据库作为实验数据,该数据库可能包含了大量的蛋白质序列和相应的结构信息。通过应用所提出的欠采样方法和SVM学习系统,他们在蛋白质结构域边界预测上取得了显著的效果。平均预测准确率达到了80%,同时表现出较高的敏感性和特异性。这意味着模型不仅能准确识别出大部分的结构域边界,而且在假阳性与假阴性方面的表现也较好。
敏感性(召回率)指的是模型正确识别正类样本的能力,而特异性(又称真阴性率)则反映了模型避免错误标记负类样本的能力。高敏感性和特异性表明该方法在实际应用中能够有效地识别蛋白质结构域的边界,对于生物信息学分析和蛋白质功能研究具有重要意义。
该论文提出的距离最大熵值的欠采样方法为解决蛋白质结构域边界检测的非平衡数据问题提供了一种新思路,对后续的蛋白质结构研究和功能预测有重要参考价值。通过优化数据集平衡,该方法提高了预测模型的性能,为蛋白质结构域的研究提供了更为精确的工具。
2021-09-26 上传
点击了解资源详情
2021-01-13 上传
2021-02-11 上传
2019-09-07 上传
2021-06-01 上传
2021-06-14 上传
2021-06-15 上传
2021-05-19 上传
weixin_38597300
- 粉丝: 6
- 资源: 982
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜