TCGA-DLBC数据集整理发布:mRNA表达与临床信息汇总
版权申诉
![](https://csdnimg.cn/release/wenkucmsfe/public/img/starY.0159711c.png)
该项目基于著名的癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库,旨在为研究者提供标准化和易于分析的mRNA表达数据以及相应的临床信息。
TCGA是美国国家癌症研究所(National Cancer Institute, NCI)和国家人类基因组研究所(National Human Genome Research Institute, NHGRI)共同发起的一个大规模癌症研究项目。该项目的目标是利用基因组学技术对多种类型肿瘤进行全面分析,以改善对癌症的理解和治疗。TCGA数据库存储了成千上万个肿瘤样本的分子数据和临床信息,是癌症研究领域宝贵的数据资源。
弥漫大B细胞淋巴瘤是成人中最常见的非霍奇金淋巴瘤类型,具有高度异质性,并且表现出显著的分子和临床特性差异。对DLBC的研究对于改进诊断方法、疾病预后评估和新疗法开发具有重要意义。
在本项目中,研究者整理了DLBC相关的mRNA表达数据,并将它们转换成了LCPM(log2(CPM+1))格式。CPM(Counts Per Million)是一种用于描述转录本丰度的单位,其值通过计算每个样本的每个基因的原始计数除以该样本的总计数然后乘以一百万得到。LCPM是CPM的对数转换形式,这种转换能够减少数据中的离群值影响,使得数据分布更加稳定,便于后续的统计分析和比较。值得一提的是,LCPM格式相比之前常用的TPM(Transcripts Per Million)和FPKM(Fragments Per Kilobase of transcript per Million mapped reads)格式,被认为在某些生信分析中更为适用。
此外,研究者还汇总了DLBC的临床数据,并将其整理成临床矩阵(clinicalMatrix)的形式。临床矩阵是一个包含了各种临床特征的表格,如患者的年龄、性别、肿瘤分期、治疗结果等信息。通过这种整合的方式,研究者能够将基因表达数据与临床数据关联起来,进行更全面的生物统计分析。
本数据集的文件名列表包括两个主要文件:DLBC_lcpm.csv和DLBC_clinicalMatrix。DLBC_lcpm.csv文件包含了DLBC样本的mRNA表达数据的LCPM格式,而DLBC_clinicalMatrix文件包含了对应的临床特征信息。这些文件为研究人员提供了直接可用的数据资源,以支持他们在弥漫大B细胞淋巴瘤领域的研究工作。
总体而言,TCGA-DLBC-mRNA表达数据集的整理为生物医学研究者提供了一套标准化、易于处理的数据,有助于推动DLBC的生物标志物发现、疾病机制研究以及未来个性化治疗策略的开发。"
2023-01-18 上传
194 浏览量
794 浏览量
328 浏览量
127 浏览量
980 浏览量
635 浏览量
515 浏览量
197 浏览量
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
楷然教你学生信
- 粉丝: 3w+
最新资源
- 技术顾问的TFIPreWork项目介绍与实践
- 深入理解JAVA数据结构与算法
- 深入分析BPM测试工具:MixMeister BPM Analyzer
- 项目31:PROC41-模板的JavaScript应用实例
- 中国交通标志CTSDB数据集12: 800个图像与文本训练样本
- 学习心得记录与思路分享
- 利用ASP.NET SignalR打造实时聊天室教程
- Oracle数据库用户管理技巧与工具解析
- EasyUI界面组件模板代码大全
- 网页及C#表单设计通用小图标资源分享
- Prefab.js:掌握JavaScript中的原型继承技术
- Spring MVC与Redis、MyBatis及JDBC集成教程
- 基于STM32的互补滤波姿态解算技术
- Java平台的ModcraftWin模组开发工具介绍
- ISR算法在GWAS和上位性检测中的应用与优势分析
- 掌握编码面试技巧:LeetCode交互式挑战分析