没有合适的资源?快使用搜索试试~ 我知道了~
软件X 14(2021)100692原始软件出版物耳语2:插入缺失敏感的短读段映射Sebastian Deorowicz,Adam Gudybald西里西亚理工大学自动控制、电子和计算机科学系,波兰,ar t i cl e i nf o文章历史记录:收到2020年收到修订版2021年3月5日接受2021年保留字:短读段映射高通量测序变体调用a b st ra ct识别遗传变异在即将到来的精准医学时代至关重要。由于大多数变异识别器需要将读数映射到参考基因组,因此,后者是决定下游分析准确性的关键因素。我们提出Whisper 2,一种短读段映射软件,提供了 高 质 量 的 indel 变 体 调 用 。 它 的 运 行 时 间 使 它 成 为 现 有 最 快 的 工 具 之 一 。 该 软 件 可 在 GitHub(https://github.com/refresh-bio/whisper)上获得,并遵循GNU GPL 3许可证。版权所有©2021作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。代码元数据当前代码版本2.0.1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_130法律代码许可证GNU GPL 3使用git的代码版本控制系统使用C++的软件代码语言、工具和服务编译要求、操作环境依赖性G++ 7.2或Visual Studio 2017如果可用链接到开发人员文档/手册问题支持电子邮件sebastian. polsl.pl软件元数据当前软件版本2.0.1此版本可执行文件的永久链接https://github.com/refresh-bio/Whisper/releases/tag/v2.0.1法律软件许可证GNU GPL 3计算平台/操作系统Linux,Microsoft Windows安装要求依赖关系如果可用,请链接到用户手册-如果正式出版,请在参考列表https://github.com/refresh-bio/Whisper问题支持电子邮件sebastian. polsl.pl1. 动机和意义尽管发展了第三代测序,但短读段平台的高通量和低错误率的组合使其在许多生物分析中不可或缺这些都是,首先,小[1]和结构[2]变异调用,但也*通讯作者。电子邮件地址:sebastian. polsl.pl(Sebastian Deorowicz).https://doi.org/10.1016/j.softx.2021.100692[3]或基因组组装[4]。由于大多数变异识别器需要将读段映射到参考基因组,因此后者的可靠性对于变异识别准确性至关重要。我们提出了Whisper 2,一种短读映射算法。它配备了一个新的indel处理程序,在具有竞争力的运行时间内,它在变体调用管道中提供了卓越的准确性。改进的indel敏感性是一个重要特征,因为与SNV类似,已知indel会引起多种疾病[5]。然而,由于它们更难识别,它们对表型的影响仍然比核苷酸多态性的影响更少[6]。2352-7110/©2021作者。由爱思唯尔公司出版。这是一篇开放获取的文章,使用CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxSebastian Deorowicz和Adam Gudywald软件X 14(2021)1006922≤≤≤2. 软件描述Whisper 2遵循其前身的主要思想[7] -它在访问参考基因组索引时对提供局部性的读取进行排序,从而对缓存友好2.1. 软件构架Whisper包包括两个应用程序。第一个,whisper-index,建立参考基因组的索引并将其存储在硬盘上。索引由两个后缀数组组成:基因组和它的反向互补。第二个名为whisper的应用程序执行读取到引用的映射。该过程分为三个阶段:预处理,主处理和后处理。在预处理中,根据其前缀对读段进行分箱。在主处理中,通过查询索引找到各个读段的映射。由于读取是在基于前缀的bin中处理的,在后缀数组中连续访问,提供高速缓存局部性。在后处理中,聚合各个读段的映射以获得双端映射。上述阶段的中间结果存储在硬盘驱动器上,不会过度增加内存需求。在耳语2中,与其前身相比,插入缺失不是在没有发现对的紧密定位时进行的拯救程序,而是在主要加工的敏感主要阶段期间对单个读段进行在此阶段,使用读取的非重叠片段查询参考以建立锚。扫描锚点位置之前(之后)的参考区域,以确定是否存在读数的7个符号前缀(后缀),允许一个不匹配。在所有候选者中,选择使仿射分数最大化的候选者。要扫描的参考跨度,因此检测到的插入缺失的最大长度,默认为50。更多详情见补充部分1。2.2. 软件功能Whisper 2提供了当代映射包所需的所有功能:支持双端和单端读取,以SAM或BAM格式存储映射,处理gzip输入和输出,输出文件中的可选标记(NM:i、MD:Z、AS:i、RG:Z),多线程辅以位级并行以实现最高计算性能,高度优化的C++实现,平台无关性--源代码带有用于Linux和Windows系统的预编译二进制文件多个算法参数允许使分析适合于特定需要。3. 说明性实例3.1. 运行分析对于给定的参考基因组仅执行一次的第一步是建立索引。让我们假设人类基因组的20号染色体被用作参考。要建立一个索引,需要运行:whisper-index hg38-chr20 chr20.fa idx-dir tmp-dir其中hg 38-chr 20是索引名称,chr20.fa-参考FASTA文件,idx-dir-索引目录,tmp-dir-临时目录。 如果引用由多个FASTA文件组成(例如,整个人类基因组),应使用以下命令:whisper-index hg38@hg38.list idx-dir tmp-dir其中hg38.list包含FASTA文件的名称索引准备好后,配对端从reads1.fastq和reads2.fastq文件可以映射:whisper-rp-out result idx-dir/hg38 reads1.fastq reads2.fastq输出映射将存储在result.sam文件中。3.2. 实验结果在变体调用流水线上对映射算法进行了性能评估调查的包裹,即,BWA-MEM [8]、Minimap 2 [9]、Whisper 1 [7]和Whisper 2与Strelka 2变体调用器组合,其提供了卓越的准确性和提取时间[1] 。 此 外 , 我 们 还检 查 了 Graph Genome Pipeline ( GGP ,[10]),据报道,它通过将读数映射到基因组图来提供出色的变异识别灵敏度。Strelka 2被配置为检测长度高达100而不是默认49的插入缺失-该设置为所有研究的作图器呈现更好的结果(补充图25-27)。使用来自Genome in a Bottle Consortium(GiaB; [11])和SynDip [12]的样本HG 001和HG 005以及GRCh 37和GRCh 38参比品进行基准测试图1显示了变体识别的结果。当分析SNP时,可以看到,对于给定的参考,所有算法都具有相似的精确度,并且主要在召回率方面有所不同。GGP报告的结果最好,然后是BWA和Whisper 2(ex-equo),然后是Whisper 1和Minimap 2。在indels中,Whisper 2,BWA和Minimap 2呈现了几乎相同的在回忆中,他们落在GGP(最好)和Whipser 1(最差)之间。在GiaB样品上,而在SynDip上,他们把两个竞争对手都甩在了后面。一个重要的观察结果是,GiaB样本的召回值明显大于SynDip。这部分是由于这样的事实,即在前者中,插入缺失不超过50 bp,而后者包含具有甚至数百个核苷酸的变体,这更难以调用。图2-left,可以看到调用给定长度L的SynDip插入缺失的性能。对于短缺失(L50)Whis-per 2、BWA和Minimap 2的表现非常相似,并且始终优于GGP。相比之下,对于短插入,GGP是领 导 者 , Whisper 2 紧 随 其 后 。 对 于 较 长 的 插 入 缺 失 ( 51L100),F1得分的变化变得更大。但是,可以看到Whisper 2是删除的领导者,在插入中仅次于GGP。执行时间的比较如图所示。2-右。Minimap 2是处理所有基准测试的最快算法。不过,耳语2号也只是略逊一筹而已。这两种方法都允许在10小时内(在现代工作站上)从读数中调用变体,而基于BWA的管道需要两倍的时间。Graph Genome Pipeline是最慢的,每个基准的分析时间超过40小时4. 影响随着人类基因组测序成本降至1000美元以下,待分析的序列数据量变得巨大。对大群患者进行测序以鉴定导致疾病的遗传变异已经定期进行,而将这些知识用于群体规模的诊断将很快成为标准[13]。indel检测的准确性提高,使Whisper 2成为测序数据分析管道的有用元素。它可能有助于检测插入/缺失,并有助于更好地了解其致病作用。········Sebastian Deorowicz和Adam Gudywald软件X 14(2021)1006923≤≤Fig. 1. 变异识别的结果呈现为召回率与精确度图。Graph Genome Pipeline仅支持GRCh 37参考; Whisper 1未能执行使用GRCh37进行SynDip。图二.左图:SynDyp插入(阳性)和缺失(阴性)与GRCh37参比品的F1评分的5个样本移动平均值。 右图:分别针对HG001、HG005和SynDip(带GRCh37)的12核CPU执行时间。实心条表示映射,透明条包括SAM到BAM的转换(如有必要),BAM排序和变体调用。5. 结论在Whisper 2中处理indel的新方法导致了改进的变体调用性能。所展示的软件在精确度和召回率方面与竞争对手不相上下,显示出其更长时间的潜力(51 L100)插入和删除。在 前者,它是第二个最好的后几倍慢基因组图管道,在后者是领导者。Whisper 2的执行时间与Minimap 2相当-是分析算法中最快的。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢这 项 工 作 得 到 了 波 兰 国 家 科 学 中 心 项 目 DEC-2015/17/B/ST6/01890的支持。 的基础设施由POIG.02.03.01-24-099/13资助:“GeCONiI-上西里西亚计算科学与工程中心,波兰”。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2021.100692上找到。引用[1]Kim S,Scheffler K,Halpern AL,et al. Strelka 2:fast and accurate callingofgermline and somatic variants. Nature Methods2018;15:591-4.[2]Cameron DL,Di Stefano L,Papenfuss AT.短读通用结构变异识别软件的综合评价与表征。Nature Commun2019;10(3240).[3]Stark R , Grzelak M , Hadfield J. RNA 测 序 : 青 少 年 时 期 。 NatRevGenet2019;20:631-56.[4]Bertrand D , Shaw J , Kalathiyappan M , et al. Hybrid metagenomicassemblyenables high-resolution analysis of resistance determinants andmobileelements in human microbiomes. Nat Biotechnol2019;37:937-44.[5]ChuzhanovaNA,AnzeleJ,Ball EV,Krawczak M,Cooper DN.导致人类遗传疾病的indels的荟萃分析:诱变机制和局部DNA序列复杂性的作用。《突变》2003;21(1):28[6]Turajlic S,Litchfield K,Xu H,et al. Insertion-and-deletion-derived tumor-specific neoantigens and the immunogenic phenotype:a pan-canceranalysis.柳叶刀肿瘤学2017;18(8):1009-21。[7]Deorowicz S , Debudaj-Grabysz A , Gudyandi A , et al. Whisper :readsorting allows robust mapping of DNA sequencing data. 生 物 信 息 学2019;35(12):2043-50。[8]李洪志Aligning sequence reads,clone sequences and assembly contigs withBWA-BRI. 2013,arXiv:1303.3997v2.[9]李洪志Minimap2:核苷酸序列的成对比对。Bioinformat-ics2018;34(18):3094-100.[10]Rakocevic G , Semenyuk V , Lee W , et al. Fast and accurate genomicanalysesusing genome graphs. Nat Genet2019;51:354-62.[11]Zook JM, McDaniel J, Olson ND, et al. An open resource foraccuratelybenchmarking small variant and reference calls. Nat Biotechnol2019;37:561-6.[12]Li H , Bloom JM , Farjoun Y , et al. A synthetic-diploid benchmark foraccuratevariant-calling evaluation. Nature Methods2018;15:595-7.[13]Hou Y-CC , Yu H-C , Martin R , et al. Precision medicine integratingwhole-genome sequencing , comprehensive metabolomics , and advancedimaging. ProcNatl Acad Sci USA 2020;117(6):3053-62.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功