tcga count数据预处理
时间: 2023-12-31 07:24:32 浏览: 106
以下是对TCGA count数据进行预处理的步骤:
1. 读取tsv文件并选择需要的列数
```R
example <- data.table::fread('E:/R/PRAD Data Mining/PRAD_data_mining/TCGA/GDCdata_star_count.tsv/all/005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv', data.table = FALSE)
raw <- do.call(cbind, lapply(sampledir, function(x) {
rt <- data.table::fread(x, data.table = FALSE)
rownames(rt) <- rt[, 1]
rt <- rt[, 4] # 第4列为“unstranded”
}))
```
2. 根据文件名设置列名
```R
colnames(raw) <- sapply(strsplit(sampledir, '/'), '[', 8) # 数字可选,'8'为文件名005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv
```
3. 设置行名并进行数据匹配和合并
```R
rownames(raw) <- example$gene_id
raw_t <- t(raw)
t_same <- intersect(rownames(metadata), rownames(raw_t))
dataPrep2 <- cbind(metadata[t_same, ], raw_t[t_same, ])
rownames(dataPrep2) <- dataPrep2[, 1]
dataPrep2 <- t(dataPrep2)
dataPrep2 <- dataPrep2[-c(1:6),] # dataPrep2为未注释count矩阵
```
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)