以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系，分别测定了1到12周处理组和对照组的表达谱。为简单起见，本实验仅要求比较处理一周后MCF-7表达谱的变化情况。求使用Hisat2进行序列比对，使用subread包进行基因转录水平定量，差异表达分析使用edgeR软件包

以下是处理该数据集的基本流程： 1. 下载数据集从SRA数据库中下载DRP003950数据集对应的sra文件，使用fastq-dump工具将sra文件转换成fastq文件。 2. 下载参考基因组从UCSC下载人类基因组fasta文件和基因注释gtf文件，构建基因组索引。 ``` hisat2-build -p 4 hg38.fa hg38 ``` 3. 进行序列比对使用Hisat2对样本进行序列比对，生成bam文件。 ``` hisat2 -p 4 --dta -x hg38 -1 sample_1.fastq -2 sample_2.fastq -S sample.sam samtools view -Sb -@ 4 sample.sam > sample.bam ``` 4. 进行基因转录水平定量使用featureCounts对bam文件进行基因转录水平定量。 ``` featureCounts -p -t exon -g gene_id -a hg38.gtf -o counts.txt sample.bam ``` 5. 差异表达分析使用edgeR对基因表达谱进行差异分析，得到差异基因列表。 ``` library(edgeR) counts <- read.delim("counts.txt", row.names=1, check.names=FALSE) group <- factor(c("control", "treatment"), levels=c("control", "treatment")) design <- model.matrix(~group) y <- DGEList(counts=counts, group=group) y <- calcNormFactors(y) y <- estimateDisp(y, design) fit <- glmQLFit(y, design) qlf <- glmQLFTest(fit, coef=2) topTags(qlf) ``` 这样就可以得到差异表达基因列表，根据需要进行进一步的生物学分析。

相关推荐

SRAmplicons:探索 Sequence Read Archive (SRA) 中的 16S 扩增子焦磷酸测序数据集

单细胞RNA测序（scRNA-seq）SRA数据下载及fastq-dumq数据拆分.md

SRA2021-G14-管理员测试用例文档 1

以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系，分别测定了1到12周处理组和对照组的表达谱。为简单起见，本实验仅要求比较处理一周后MCF-7表达谱的变化情况，并进行下机数据清理和序列比对

细菌16s rrna基因测序数据应上传至ncbi sra数据库。

SRA-Toolkit使用方法

SRA元数据是什么意思

NCBI的SRA数据库是什么

如何下载ncbi中的基因组数据到linux

GEO数据下载分析（SRA、SRR、GEM、SRX、SAMN、SRS、SRP、PRJNA全面解析）

ubuntu安装sra-toolkit

sra-tools安装

sra toolkit安装和使用

rna-seq数据库

细菌基因组重测序,从原始数据到cleandata,需要质控和去除冗余序列

PvT中的SRA如何理解

sratoolkit.3.0.5-ubuntu64安装详细步骤

怎么查找某一物种的RNA-seq数据库

ServletRequestAttributes sra = (ServletRequestAttributes) RequestContextHolder.getRequestAttributes(); RequestContextHolder.setRequestAttributes(sra, true);是什么意思，如何使用呢

要求按照字节地址对两个数据(一个正数一个负数)存储到t1和t2寄存器，按照字节地址对其进行读取，计算该数据的左移、逻辑右移、算术右移，并将结果存放到t3、t4、t5寄存器。用MIPS32汇编语言设计实现，使用字节加载指令

最新推荐

AT32F413数据手册

Java swing + socket + mysql 五子棋网络对战游戏FiveChess.zip

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用matlab绘制高斯色噪声情况下的频率估计CRLB，其中w(n)是零均值高斯色噪声，w(n)=0.8*w(n-1)+e(n)，e(n)服从零均值方差为se的高斯分布

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

python中从Excel中取的列没有了0