宏基因组组装：Megahit教程

需积分: 0 49 浏览量更新于2024-07-01 2 收藏 1.68MB PDF 举报

"这篇文档是易生信公司在2019年6月23日发布的一份关于宏基因组分析的教程，主要内容包括了数据质控、物种分类、基因拼接、基因注释、非冗余基因集构建、基因定量以及功能注释等步骤。其中，针对宏基因组拼接部分，提到了使用Megahit工具进行无参组装，并对拼接的基本原理和相关术语进行了阐述。此外，还提到了组装软件的评估，推荐在处理高复杂度宏基因组数据时使用MetaSPAdes。" 本文档详细介绍了宏基因组分析的一个工作流程，涵盖了从数据预处理到功能注释的多个关键步骤。首先，【KneadData】是用于质控的工具，它可以去除低质量读段、宿主污染等，确保后续分析的准确性。接着，【Kraken2】是一款物种分类软件，它通过比对 reads 到预先构建的数据库来快速识别样本中的微生物物种组成。然后，【Megahit】是用于宏基因组无参组装（Denovo Assembly）的软件，它特别适合处理海量短读序列数据。组装过程中的基本原理是通过寻找 reads 之间的重叠区域，拼接成更长的 contigs 或 scaffolds。【Contig】是基于 reads 重叠组装得到的连续序列，而【Scaffold】则是在双端测序数据下，通过 reads 的对端信息确定 contigs 相对位置后，用 N 连接形成的序列。【N50】是一个衡量组装质量的重要指标，代表将所有 contigs 按长度排序后，累积长度达到总体积50%的那个 contig 的长度，N50 越大，组装质量通常越好。同时，文档还提到了【测序深度】（Depth）和【覆盖度】（Coverage），这两个概念在评估宏基因组测序是否足够深入时非常关键。在组装结果的评估中，由于组装过程中可能存在错误，因此选择合适的组装工具至关重要。文档建议在处理高复杂度宏基因组时使用【MetaSPAdes】，这是一款多策略的组装工具，能有效处理不同类型的基因组数据。此外，文档还提到了【Prokka】用于基因注释，【Cd-hit】用于构建非冗余基因集，减少重复序列的影响，以及【Salmon】进行基因表达定量。最后，基因功能注释是通过比较组装出的基因序列与已知功能数据库进行匹配，以揭示样本中微生物的功能特性。整体来看，这份教程提供了宏基因组学研究的基本框架和关键工具的使用，对于初学者或者需要进行宏基因组数据分析的研究人员来说是一份宝贵的参考资料。

易

生

信

组装软件评估

 组装结果中存在大量错误

 高复杂度的宏基因组推荐使用MetaSPAdes

Nurk, S., Meleshko, D., Korobeynikov, A. & Pevzner, P. A. metaSPAdes: a new

versatile metagenomic assembler. Genome Research 27, 824-834,

doi:10.1101/gr.213959.116 (2017).

 低复杂度的宏基因组推荐使用MaSuRCA

Zimin, A. V. et al. The MaSuRCA genome assembler. Bioinformatics 29, 2669-2677,

doi:10.1093/bioinformatics/btt476 (2013).

 Megahit是最保守的组装软件，拥有最小的N50和错误率

Li, D., Liu, C.-M., Luo, R., Sadakane, K. & Lam, T.-W. MEGAHIT: an ultra-fast single-

node solution for large and complex metagenomics assembly via succinct de Bruijn

graph. Bioinformatics 31, 1674-1676, doi:10.1093/bioinformatics/btv033 (2015).

Forouzan, E., Shariati, P., Mousavi Maleki, M. S., Karkhane, A. A. & Yakhchali, B. Practical evaluation of 11 de novo assemblers in

metagenome assembly. Journal of Microbiological Methods 151, 99-105, doi:https://doi.org/10.1016/j.mimet.2018.06.007 (2018).

剩余31页未读，继续阅读

高工-老罗

粉丝: 25
资源: 314

宏基因组组装：Megahit教程

一个基因组拼接算法

boilerplate-assemble:组装样板

assemble-utils:组装实用程序

assemble.rar_assemble_刚度矩阵_刚度矩阵组装_总体刚度矩阵_矩阵组装

assemble-scaffold:组装用于生成项目支架的插件

assemble-slides:组装用于构建滑行甲板的套件

assemble-deck:组装强大的reveal.js创作框架

assemble-workshop-files:组装车间文件

assemble-ask:组装用于询问问题和存储答案的插件

assemble-middleware-rss:组装中间件，用于使用“组装”创建RSS提要

最新资源