TCGA癌症基因组学数据库详解

需积分: 16 3 下载量 43 浏览量 更新于2024-06-30 收藏 1.97MB PPT 举报
"TCGA癌症数据库是一个专注于癌症基因组学的大型综合数据库,由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)共同发起,旨在通过大规模的基因组、转录组、表观基因组和蛋白质组学分析,深入理解癌症的发生机制。该数据库包含了34种不同类型的癌症,平均每个癌症类型有325个样本,提供了丰富的癌症研究资源。 TCGA数据的产生是一个复杂的过程,涉及多个步骤。首先,从患者那里收集的组织样本和临床数据通过肿瘤样本源(TSS)发送到生物样本核心资源(BCRs)。接着,BCRs将临床数据和元数据上传到数据协调中心(DCC)和测序中心(GSCs),GSCs负责获取组织变异数据并提交给DCC。同时,GSCs会将序列比对后的文件提交到癌症基因组学中心(CG Hub)。所有这些数据在经过处理和分析后,由基因组数据分析中心(GDACs)进行深度分析,并通过DCC和CG Hub提供给研究者使用。 在TCGA中,每个样本都有一个独特的barcode,这个barcode包含了关于样本的重要信息,如病例ID、样本类型、平台等,方便研究人员追踪和解析数据。详细的信息可以参考NCI的TCGA barcode Wiki页面。 TCGA数据库包含多种类型的数据,包括原始(Raw)低级数据,如单个样本的测序读取;Level 1数据通常是原始数据的预处理版本,例如比对后的序列;Level 2数据通常是经过初步分析的数据,比如基因表达定量;而Level 3数据是更高层次的分析结果,如突变、拷贝数变异、甲基化状态等。这些不同层次的数据为研究者提供了从不同角度探索癌症基因组的可能。 TCGA数据库是一个宝贵的资源,它为癌症研究提供了大量的多维度数据,有助于科学家们揭示癌症的遗传和分子基础,推动新疗法的开发和个性化医疗的进步。研究者可以通过访问官方网址或合作伙伴网站获取和下载这些数据,并利用它们进行深入的癌症研究。"