构建非冗余人类基因组Exon/Intron数据库

需积分: 9 0 下载量 188 浏览量 更新于2024-08-13 收藏 186KB PDF 举报
"人类基因组非冗余Exon /Intron数据库的构建 (2010年)" 在2010年的这篇论文中,研究人员针对人类基因组构建了一个非冗余的Exon/Intron数据库(EID),旨在解决GenBank数据库中存在的冗余问题。他们选择了Hom o. sapiens(智人)的RefSeq数据库作为基础,RefSeq是一个高质量的、非冗余的基因序列集合,提供基因、转录本和蛋白质的精确参照。 在构建EID的过程中,研究者们深入分析了RefSeq基因组数据库中的每个CDS(Coding Sequence,编码序列)。CDS是基因中编码蛋白质的部分,从中可以获取关于基因定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列等关键信息。此外,他们还记录了外显子和内含子的数量、大小、总数,以及非翻译区(UTR,Untranslated Region)内的内含子信息。UTR是基因序列的一部分,不参与蛋白质编码,但对基因表达有重要影响。内含子相位是指内含子在CDS中的位置,而内含子剪切位点模式则涉及RNA剪接过程中内含子被去除的方式。 通过对24条人类染色体(包括22条常染色体和2条性染色体,总计2870827355碱基对,bps)的分析,研究者发现共有32157个基因标识符(gene blocks)。在这之中,7398个基因被标记为假基因,这些基因虽然具有基因结构但不编码功能性蛋白质。4014个基因经历了可变剪切(Alternative Splicing,AS),这是一种常见的基因表达调控机制,使得一个基因能产生多种蛋白质变体。15533个基因包含CDS内含子,765个基因含有UTR内含子,2585个基因不含有内含子,其余的则被视为异常基因。 该工作对于理解基因结构、基因表达调控和遗传变异有着重要意义。非冗余的Exon/Intron数据库为后续的基因功能研究、疾病关联分析以及基因组进化研究提供了更为准确的基础数据。此外,它还可能有助于识别新的基因变异,促进个性化医疗和精准医学的发展。通过这样的数据库,科学家们可以更有效地探索基因与复杂疾病之间的关系,以及基因表达调控的复杂网络。