Velet算法：短读基因组组装的de Bruijn图方法

需积分: 50 6 浏览量更新于2024-09-09 收藏 588KB PDF 举报

"velvet算法是一种用于de novo短读序列组装的基因组拼接算法，主要应用于新一代测序技术产生的短序列数据。该算法通过De Bruijn图的概念，有效地处理了序列组装的问题，包括K-mer构建、De Bruijn图的构造、纠错和去除重复序列四个步骤。velvet算法的提出，极大地推进了基因组组装的效率和准确性，尤其在处理复杂和大型基因组时。" velvet算法的核心在于利用De Bruijn图这一图形结构来解决基因组组装问题。De Bruijn图是一种特殊的图理论模型，其中每个节点代表K-mer（长度为K的连续子串），边则连接两个共享K-1个碱基的K-mer。在这个过程中，首先选取合适的K值，通过对测序数据中的所有K-mer进行统计，构建出De Bruijn图。第一步，K-mer构造：velvet算法首先从短读序列中提取K-mer。这个步骤涉及到对测序数据的预处理，通常需要考虑K值的选择，K值影响组装的精度和内存需求。较小的K值可以捕获更多的序列信息，但可能导致过多的交叠，增加组装复杂性；较大的K值可以减少重复序列的影响，但可能会丢失部分信息。第二步，De Bruijn图构造：基于第一步得到的K-mer，velvet构建De Bruijn图。在这个图中，相邻的K-mer通过共享的(K-1)-mer相连，形成一个网络，反映了原始序列的潜在结构。第三步，纠错：velvet算法利用De Bruijn图的特性进行错误校正。由于测序错误，De Bruijn图可能存在不应有的边，算法通过识别并消除这些异常路径来提高组装的准确性。第四步，去掉重复序列：在组装过程中，velvet会遇到同源重复区域，这些区域可能导致图的复杂分支。算法通过特定的策略来识别和处理这些重复，以避免组装出错误的基因组片段。 velvet算法的出现，使得研究人员能够在桌面计算机上处理大量短读序列，组装出高质量的基因组草图。尽管后来出现了更多优化的组装工具和算法，如GAGE、ABySS等，velvet仍然是基因组学研究中不可或缺的一部分，特别是在处理大型或复杂基因组时，其优势尤为明显。然而，随着测序技术的快速发展，基因组组装领域的挑战也在不断更新，如长读序列的处理、基因组结构变异的检测等，这都驱使着velvet和其他组装算法持续进化和完善。

10.1101/gr.074492.107Access the most recent version at doi:

2008 18: 821-829 originally published online March 18, 2008Genome Res.

Daniel R. Zerbino and Ewan Birney

graphs

Velvet: Algorithms for de novo short read assembly using de Bruijn

Material

Supplemental

http://genome.cshlp.org/content/suppl/2008/04/08/gr.074492.107.DC1.html

References

http://genome.cshlp.org/content/18/5/821.full.html#related-urls

Article cited in:

http://genome.cshlp.org/content/18/5/821.full.html#ref-list-1

This article cites 25 articles, 14 of which can be accessed free at:

Related Content

Genome Res. March , 2012 22: 557-567

Steven L. Salzberg, Adam M. Phillippy, Aleksey Zimin, et al.

GAGE: A critical evaluation of genome assemblies and assembly algorithms

Genome Res. March , 2012 22: 549-556

Jared T. Simpson and Richard Durbin

structures

Efficient de novo assembly of large genomes using compressed data

Genome Res. May , 2008 18: 802-809

David Hernandez, Patrice François, Laurent Farinelli, et al.

on a desktop computer

De novo bacterial genome sequencing: Millions of very short reads assembled

Genome Res. May , 2008 18: 810-820

Jonathan Butler, Iain MacCallum, Michael Kleber, et al.

ALLPATHS: De novo assembly of whole-genome shotgun microreads

Genome Res. November , 2007 17: 1697-1706

Juliane C. Dohm, Claudio Lottaz, Tatiana Borodina, et al.

novo genomic sequencing

SHARCGS, a fast and highly accurate short-read assembly algorithm for de

service

Email alerting

click heretop right corner of the article or

Receive free email alerts when new articles cite this article - sign up in the box at the

http://genome.cshlp.org/subscriptions

go to: Genome ResearchTo subscribe to

Cold Spring Harbor Laboratory Press on March 22, 2012 - Published by genome.cshlp.orgDownloaded from

下载后可阅读完整内容，剩余9页未读，立即下载

燚燚_yiyi

粉丝: 27
资源: 6

Velet算法：短读基因组组装的de Bruijn图方法

megahit：超快速且内存高效的（元）基因组组装程序

生物信息学序列拼接软件mira

DNA序列拼接的研究

算法实习基因拼接

解决双面SF-MNSA问题的新算法：特殊情况与基因组拼接

基因拼接算法：寻找最大外显子链

重复和非重复的从头基因组装配算法

GAVGA:病毒基因组组装的遗传算法-开源

基于人工智能（遗传算法 + 贪心 max-rect 算法） 的矩形拼接算法.zip

NeuralLayout:一个GNN模型，该模型执行从头基因组组装过程的布局阶段所用的简化算法

最新资源

基于人工智能（遗传算法 + 贪心 max-rect 算法）的矩形拼接算法.zip