以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系，分别测定了1到12周处理组和对照组的表达谱。为简单起见，本实验仅要求比较处理一周后MCF-7表达谱的变化情况。该实验包括多个步骤：下机数据清理和序列比对；表达谱定量至基因水平；合并多个表达谱为表达矩阵；差异表达分析；下游通路富集分析

以下是处理该数据集的基本流程： 1. 下载数据集从SRA数据库中下载DRP003950数据集对应的sra文件，使用fastq-dump工具将sra文件转换成fastq文件。 ``` fastq-dump --split-files SRR1130174 ``` 2. 数据预处理使用fastp对fastq文件进行质量控制和接头序列去除。 ``` fastp -i SRR1130174_1.fastq -I SRR1130174_2.fastq -o clean_1.fastq -O clean_2.fastq --cut_tail --cut_tail_mean_quality 20 --cut_tail_window_size 20 ``` 3. 下载参考基因组从UCSC下载人类基因组fasta文件和基因注释gtf文件，构建基因组索引。 ``` hisat2-build -p 4 hg38.fa hg38 ``` 4. 进行序列比对使用Hisat2对样本进行序列比对，生成bam文件。 ``` hisat2 -p 4 --dta -x hg38 -1 clean_1.fastq -2 clean_2.fastq -S sample.sam samtools view -Sb -@ 4 sample.sam > sample.bam ``` 5. 进行基因转录水平定量使用featureCounts对bam文件进行基因转录水平定量。 ``` featureCounts -p -t exon -g gene_id -a hg38.gtf -o counts.txt sample.bam ``` 6. 合并多个表达谱为表达矩阵将多个样本的基因表达谱合并为表达矩阵。 ``` library(edgeR) files <- c("counts_control_1.txt", "counts_treatment_1.txt") y <- readDGE(files, columns=c(2, 2)) y <- estimateDisp(y) et <- exactTest(y) topTags(et) ``` 7. 差异表达分析使用edgeR对基因表达谱进行差异分析，得到差异基因列表。 ``` library(edgeR) counts <- read.delim("counts.txt", row.names=1, check.names=FALSE) group <- factor(c("control", "treatment"), levels=c("control", "treatment")) design <- model.matrix(~group) y <- DGEList(counts=counts, group=group) y <- calcNormFactors(y) y <- estimateDisp(y, design) fit <- glmQLFit(y, design) qlf <- glmQLFTest(fit, coef=2) topTags(qlf) ``` 8. 下游通路富集分析使用生物信息学工具进行差异基因的下游通路富集分析，以进一步了解基因的生物学功能和作用机制。综上所述，对于该数据集的分析流程包括下机数据清理和序列比对、表达谱定量至基因水平、合并多个表达谱为表达矩阵、差异表达分析和下游通路富集分析等多个步骤。这些步骤可以帮助研究人员深入了解基因在不同条件下的表达变化，从而更好地理解基因的功能和生物学过程。

阅读全文

相关推荐

NCBI SRA数据库操作指南：从查询到下载测序数据

PARTIE：自动分离宏基因组学数据集的工具

RISC-V指令集解析：移位、分支与无条件跳转

以SRA数据库中DRP003950数据集为练习对象。该数据集使用Tamoxifen处理MCF-7细胞系，分别测定了1到12周处理组和对照组的表达谱。为简单起见，本实验仅要求比较处理一周后MCF-7表达谱的变化情况，并进行下机数据清理和序列比对

NCBI SRA数据库使用详解

SRA2021-G14-管理员测试用例文档 1

SRA2021-G14-游客测试用例文档1

SRA2021-G14-团购参与者测试用例文档 1

SRA2021-G14-团购发起者测试用例文档 1

partie：PARTIE是一个程序，用于将序列读取档案（SRA）宏基因组学数据划分为扩增子和shot弹枪数据集。 用户提供的数据集注释不可信，因此PARTIE允许自动分离数据

sra-polyglot:CREBP-SRA 工具在不同的医学数据库搜索格式之间进行转换

SRA2021-G03-测试用例0.21

SRA2021-G03-测试用例1.11

SRA2021-G03-测试用例0.11

如何使用SRAToolkit下载NCBI SRA数据库中的特定二代测序数据集，并进行序列读取和比对信息分析？

在进行二代测序数据分析时，如何利用SRAToolkit从NCBI SRA数据库下载特定的测序数据集，并完成序列读取和比对信息分析？

NCBI的SRA数据库是什么

细菌16s rrna基因测序数据应上传至ncbi sra数据库。

二代测序技术：从数据下载到RNA-seq分析

SRA板ESP-IDF组件入门与使用指南

大家在看

计算机组成与体系结构(性能设计)答案完整版-第八版

蓝牙室内定位服务源码！

如何降低开关电源纹波噪声

S7-200处理定时中断.zip西门子PLC编程实例程序源码下载

国自然标书医学下载国家自然科学基金面上课题申报中范文模板2023

最新推荐

内墙装修涂料行业发展趋势：预计2030年年复合增长率（CAGR）为5.6%（2024-2030）

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

opencv的demo程序

NeuronTransportIGA: 使用IGA进行神经元材料传输模拟

【Linux多系统管理大揭秘】：专家级技巧助你轻松驾驭

fofa和fofa viewer的区别

partie：PARTIE是一个程序，用于将序列读取档案（SRA）宏基因组学数据划分为扩增子和shot弹枪数据集。用户提供的数据集注释不可信，因此PARTIE允许自动分离数据