首页在R中对TCGA基因表达谱根据barcode命名规则，提取样本匹配的正常样本和乳腺癌样本

在R中对TCGA基因表达谱根据barcode命名规则，提取样本匹配的正常样本和乳腺癌样本

时间: 2024-06-12 07:05:37 浏览: 152

乳腺癌（Breast Cancer）数据集

基于TCGA基因组数据的乳腺癌（Breast Cancer）数据集。笔者不是读医的，是位研究DNN算法的老码农。笔者的高中同学是医学博士。我俩合作研究癌的前期预判。从国外网站找到这个数据集。在同类型数据集中，是样本量最大的，日期最近的，样本数据也最新的。纯学术研究，请勿商用！！！

在TCGA中，正常样本的barcode一般以"NT"开头，乳腺癌样本的barcode一般以"TCGA"开头。可以使用以下代码来提取正常样本和乳腺癌样本： ```r # 导入TCGA数据 library(TCGAbiolinks) query <- GDCquery(project = "TCGA-BRCA", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification") TCGA_data <- GDCprepare(query) # 提取正常样本和乳腺癌样本 normal_samples <- TCGA_data$meta$sample_id[grep("^NT", TCGA_data$meta$sample_id)] cancer_samples <- TCGA_data$meta$sample_id[grep("^TCGA", TCGA_data$meta$sample_id)] # 查看结果 head(normal_samples) head(cancer_samples) ``` 其中，"TCGA-BRCA"是乳腺癌项目的名称，"Transcriptome Profiling"是数据类型，"Gene Expression Quantification"是数据格式。可以根据需要修改这些参数。

阅读全文