首页tcga count数据预处理

tcga count数据预处理

时间: 2023-12-31 07:24:32 浏览: 106

以下是对TCGA count数据进行预处理的步骤： 1. 读取tsv文件并选择需要的列数 ```R example <- data.table::fread('E:/R/PRAD Data Mining/PRAD_data_mining/TCGA/GDCdata_star_count.tsv/all/005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv', data.table = FALSE) raw <- do.call(cbind, lapply(sampledir, function(x) { rt <- data.table::fread(x, data.table = FALSE) rownames(rt) <- rt[, 1] rt <- rt[, 4] # 第4列为“unstranded” })) ``` 2. 根据文件名设置列名 ```R colnames(raw) <- sapply(strsplit(sampledir, '/'), '[', 8) # 数字可选，'8'为文件名005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv ``` 3. 设置行名并进行数据匹配和合并 ```R rownames(raw) <- example$gene_id raw_t <- t(raw) t_same <- intersect(rownames(metadata), rownames(raw_t)) dataPrep2 <- cbind(metadata[t_same, ], raw_t[t_same, ]) rownames(dataPrep2) <- dataPrep2[, 1] dataPrep2 <- t(dataPrep2) dataPrep2 <- dataPrep2[-c(1:6),] # dataPrep2为未注释count矩阵 ```