以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系,分别测定了1到12周处理组和对照组的表达谱。为简单起见,本实验仅要求比较处理一周后MCF-7表达谱的变化情况。求使用Hisat2进行序列比对,使用subread包进行基因转录水平定量,差异表达分析使用edgeR软件包
时间: 2024-03-13 14:45:11 浏览: 14
以下是处理该数据集的基本流程:
1. 下载数据集
从SRA数据库中下载DRP003950数据集对应的sra文件,使用fastq-dump工具将sra文件转换成fastq文件。
2. 下载参考基因组
从UCSC下载人类基因组fasta文件和基因注释gtf文件,构建基因组索引。
```
hisat2-build -p 4 hg38.fa hg38
```
3. 进行序列比对
使用Hisat2对样本进行序列比对,生成bam文件。
```
hisat2 -p 4 --dta -x hg38 -1 sample_1.fastq -2 sample_2.fastq -S sample.sam
samtools view -Sb -@ 4 sample.sam > sample.bam
```
4. 进行基因转录水平定量
使用featureCounts对bam文件进行基因转录水平定量。
```
featureCounts -p -t exon -g gene_id -a hg38.gtf -o counts.txt sample.bam
```
5. 差异表达分析
使用edgeR对基因表达谱进行差异分析,得到差异基因列表。
```
library(edgeR)
counts <- read.delim("counts.txt", row.names=1, check.names=FALSE)
group <- factor(c("control", "treatment"), levels=c("control", "treatment"))
design <- model.matrix(~group)
y <- DGEList(counts=counts, group=group)
y <- calcNormFactors(y)
y <- estimateDisp(y, design)
fit <- glmQLFit(y, design)
qlf <- glmQLFTest(fit, coef=2)
topTags(qlf)
```
这样就可以得到差异表达基因列表,根据需要进行进一步的生物学分析。