TCGA-DLBC数据集整理发布:mRNA表达与临床信息汇总

版权申诉
5星 · 超过95%的资源 8 下载量 138 浏览量 更新于2024-10-30 收藏 11.06MB ZIP 举报
该项目基于著名的癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库,旨在为研究者提供标准化和易于分析的mRNA表达数据以及相应的临床信息。 TCGA是美国国家癌症研究所(National Cancer Institute, NCI)和国家人类基因组研究所(National Human Genome Research Institute, NHGRI)共同发起的一个大规模癌症研究项目。该项目的目标是利用基因组学技术对多种类型肿瘤进行全面分析,以改善对癌症的理解和治疗。TCGA数据库存储了成千上万个肿瘤样本的分子数据和临床信息,是癌症研究领域宝贵的数据资源。 弥漫大B细胞淋巴瘤是成人中最常见的非霍奇金淋巴瘤类型,具有高度异质性,并且表现出显著的分子和临床特性差异。对DLBC的研究对于改进诊断方法、疾病预后评估和新疗法开发具有重要意义。 在本项目中,研究者整理了DLBC相关的mRNA表达数据,并将它们转换成了LCPM(log2(CPM+1))格式。CPM(Counts Per Million)是一种用于描述转录本丰度的单位,其值通过计算每个样本的每个基因的原始计数除以该样本的总计数然后乘以一百万得到。LCPM是CPM的对数转换形式,这种转换能够减少数据中的离群值影响,使得数据分布更加稳定,便于后续的统计分析和比较。值得一提的是,LCPM格式相比之前常用的TPM(Transcripts Per Million)和FPKM(Fragments Per Kilobase of transcript per Million mapped reads)格式,被认为在某些生信分析中更为适用。 此外,研究者还汇总了DLBC的临床数据,并将其整理成临床矩阵(clinicalMatrix)的形式。临床矩阵是一个包含了各种临床特征的表格,如患者的年龄、性别、肿瘤分期、治疗结果等信息。通过这种整合的方式,研究者能够将基因表达数据与临床数据关联起来,进行更全面的生物统计分析。 本数据集的文件名列表包括两个主要文件:DLBC_lcpm.csv和DLBC_clinicalMatrix。DLBC_lcpm.csv文件包含了DLBC样本的mRNA表达数据的LCPM格式,而DLBC_clinicalMatrix文件包含了对应的临床特征信息。这些文件为研究人员提供了直接可用的数据资源,以支持他们在弥漫大B细胞淋巴瘤领域的研究工作。 总体而言,TCGA-DLBC-mRNA表达数据集的整理为生物医学研究者提供了一套标准化、易于处理的数据,有助于推动DLBC的生物标志物发现、疾病机制研究以及未来个性化治疗策略的开发。"