以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系,分别测定了1到12周处理组和对照组的表达谱。为简单起见,本实验仅要求比较处理一周后MCF-7表达谱的变化情况,并进行下机数据清理和序列比对
时间: 2024-03-13 15:45:19 浏览: 135
以下是处理该数据集的基本流程:
1. 下载数据集
从SRA数据库中下载DRP003950数据集对应的sra文件,使用fastq-dump工具将sra文件转换成fastq文件。
```
fastq-dump --split-files SRR1130174
```
2. 数据预处理
使用fastp对fastq文件进行质量控制和接头序列去除。
```
fastp -i SRR1130174_1.fastq -I SRR1130174_2.fastq -o clean_1.fastq -O clean_2.fastq --cut_tail --cut_tail_mean_quality 20 --cut_tail_window_size 20
```
3. 下载参考基因组
从UCSC下载人类基因组fasta文件和基因注释gtf文件,构建基因组索引。
```
hisat2-build -p 4 hg38.fa hg38
```
4. 进行序列比对
使用Hisat2对样本进行序列比对,生成bam文件。
```
hisat2 -p 4 --dta -x hg38 -1 clean_1.fastq -2 clean_2.fastq -S sample.sam
samtools view -Sb -@ 4 sample.sam > sample.bam
```
5. 进行基因转录水平定量
使用featureCounts对bam文件进行基因转录水平定量。
```
featureCounts -p -t exon -g gene_id -a hg38.gtf -o counts.txt sample.bam
```
这样就可以得到基因的转录本计数信息,根据需要进行进一步的生物学分析。
阅读全文