解读Genbank数据:特性表关键词与限定词解析

需积分: 48 7 下载量 151 浏览量 更新于2024-08-16 收藏 5.94MB PPT 举报
"这篇文章主要介绍了Genbank数据中常见的特性表关键词及其限定词,这些信息用于描述核酸序列的各种特征。Genbank是NCBI维护的一个重要生物信息学数据库,包含全球已知的核酸序列和蛋白质序列,以及相关的文献和生物学注释。数据库结构包括序列文件、索引文件和其他相关文件,便于数据查询和分析。此外,文章还提到了其他两个重要的核酸序列数据库——EMBL和DDBJ。" Genbank是全球性的核酸序列数据库,由美国国家生物技术信息中心(NCBI)维护,它是生物学家研究基因和遗传信息的重要资源。数据库中的每个条目都包含了序列信息、相关文献引用以及生物学注释,注释部分通过一系列的特性表关键词和限定词来详细描述序列的特性。 特性表关键词是描述序列信息的关键元素,例如: 1. `/allele=`:用于标识给定基因的不同等位基因版本。 2. `/anticodon=`:指tRNA分子上识别mRNA上特定密码子的三核苷酸序列,以及它编码的氨基酸。 3. `/cell_line=`和`/cell_type=`:分别表示获取序列所用的细胞系和细胞类型。 4. `/chromosome=`:指示序列所在的染色体位置。 5. `/citation=`:记录条目被引用的文献数量。 6. `/clone=`和`/clone_lib=`:分别表示用于获取序列的克隆和克隆文库。 7. `/codon_start=`:指出编码蛋白质的起始密码子相对于序列起点的偏移量。 8. `/cons_splice=`:区分标准的剪接位点和非标准剪接模式。 9. `/country=`:DNA样本的来源国家。 10. `/db_xref=`:提供其他数据库的交叉引用信息。 11. `/dev_stage=`:表明序列来源于生物体的特定发育阶段。 12. `/direction=`:描述DNA的复制方向。 13. `/EC_number=`:序列产物对应的酶学编号。 14. `/environmental_sample=`:用于标记直接从环境样本中获得但未指定来源物种的序列。 15. `/evidence=`:说明特性信息来源于实验还是推断。 16. `/exception=`:指出非典型生物学过程,如RNA编辑。 17. `/focus`:强调该特性在其他物种中可能有不同的来源。 18. `/frequency=`:表明变异在种群中的发生率。 19. `/function=`:定义序列的功能或作用。 20. `/germline`:对于免疫球蛋白家族的DNA序列,表示来自未重排的DNA。 21. `/haplotype=`:表示源自物种单倍体的序列。 22. `/insertion_seq=`:序列来源于特定的插入元件。 23. `/isolation_source=`:提供关于序列来源生物体的生理、环境和地理信息。 24. `/isolate=`:标识序列的生物个体来源。 25. `/label=`:特性在通俗语言中的名称。 了解这些关键词和限定词对于有效地检索和理解Genbank中的序列信息至关重要。Genbank与EMBL(欧洲分子生物学实验室)和DDBJ(日本国立遗传研究所)共享数据,共同构建了全球核酸序列数据库的三大支柱,提供了全球科学家进行生物研究的基础数据支持。NCBI还提供了丰富的查询和分析工具,使得用户能够方便地访问、比较和分析这些序列数据。