在R中对TCGA基因表达谱根据barcode命名规则,提取样本匹配的正常样本和乳腺癌样本
时间: 2024-06-12 07:05:37 浏览: 152
乳腺癌(Breast Cancer)数据集
在TCGA中,正常样本的barcode一般以"NT"开头,乳腺癌样本的barcode一般以"TCGA"开头。
可以使用以下代码来提取正常样本和乳腺癌样本:
```r
# 导入TCGA数据
library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-BRCA", data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification")
TCGA_data <- GDCprepare(query)
# 提取正常样本和乳腺癌样本
normal_samples <- TCGA_data$meta$sample_id[grep("^NT", TCGA_data$meta$sample_id)]
cancer_samples <- TCGA_data$meta$sample_id[grep("^TCGA", TCGA_data$meta$sample_id)]
# 查看结果
head(normal_samples)
head(cancer_samples)
```
其中,"TCGA-BRCA"是乳腺癌项目的名称,"Transcriptome Profiling"是数据类型,"Gene Expression Quantification"是数据格式。可以根据需要修改这些参数。
阅读全文