本文档介绍了五个常用的蛋白质序列数据库,包括UniProt、InterPro、ProteinNet、PSP数据集和NCBI蛋白质数据库,为生物信息学研究和蛋白质结构预测提供了丰富的资源。 ### 1. UniProt UniProt是全球领先的蛋白质信息数据库,由两部分组成:已审核的Swiss-Prot数据库包含570,157条经过精心注释的蛋白质序列,确保了数据的准确性和完整性;而未审核的TrEMBL数据库则拥有251,600,768条序列,提供大量未经深入验证的数据。UniProt提供了一个全面的平台来查询、搜索和下载蛋白质序列及相关信息,是科研人员进行蛋白质功能研究的重要工具。访问网址:[https://www.uniprot.org/uniprotkb](https://www.uniprot.org/uniprotkb) ### 2. InterPro InterPro数据库专注于蛋白质分类和功能分析,它整合了多种蛋白质家族和结构域数据库,帮助识别蛋白质的结构特征和预测可能的功能位点。InterPro通过40,338条蛋白质数据为研究者提供了深入了解蛋白质功能的基础。虽然这个数据库可能需要一定的专业知识来理解和利用,但它对于蛋白质功能预测和家族划分非常有用。下载网址:[http://www.ebi.ac.uk/interpro/download/](http://www.ebi.ac.uk/interpro/download/) ### 3. ProteinNet ProteinNet是一个专为蛋白质结构机器学习设计的标准化数据集,它包含蛋白质序列、二级和三级结构、多序列比对(MSA)、特定位置评分矩阵(PSSM)以及预定义的训练/验证/测试拆分。这个数据集对于开发和评估蛋白质结构预测算法十分宝贵,尤其是对深度学习方法的应用。数据集可从GitHub仓库获取:[https://github.com/aqlaboratory/proteinnet](https://github.com/aqlaboratory/proteinnet) ### 4. PSP数据集 PSP(Protein Structure Prediction)是第一个百万级别的蛋白质结构预测数据集,包括570,000个真实结构序列和745,000个补充蒸馏序列,总容量高达25TB,具有极高的覆盖范围和多样性。PSP数据集旨在解决蛋白质结构预测的挑战,但目前提供的下载链接可能尚未发布完整数据,压缩包大小较小。文献链接:[http://export.arxiv.org/abs/2206.12240](http://export.arxiv.org/abs/2206.12240),下载地址:[http://ftp.cbi.pku.edu.cn/pub/psp/](http://ftp.cbi.pku.edu.cn/pub/psp/) ### 5. NCBI蛋白质数据库 NCBI(National Center for Biotechnology Information)的蛋白质数据库包含了来自多个源头的蛋白质序列,如GenBank、RefSeq、TPA、SwissProt、PIR、PRF和PDB。尽管该数据库的更新可能相对较旧,截至日期为2016年,且与UniProt的部分数据有所重叠,但它仍然是一个广泛使用的资源,提供大量的蛋白质序列信息。访问地址:[ncbi.nlm.nih.gov/protein](ncbi.nlm.nih.gov/protein) 除了以上这些,还有其他一些针对特定应用的蛋白质数据库,虽然可能在一般研究中用得较少,但在特定领域仍然具有价值。研究者应根据具体需求选择合适的数据库,以获取最相关和最精确的蛋白质信息。
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作