没有合适的资源?快使用搜索试试~ 我知道了~
全外显子组测序数据处理的自动化工具
软件X 11(2020)100478原始软件出版物HPexome:一种用于处理全外显子组测序数据的自动化工具卢卡斯湖Cendesa,d,1,2,Welliton de Souzab,d,1,Iscia Lopes-Cendesb,d,班尼尔顿Carvalhoc,d,西班牙a巴西圣保罗坎皮纳斯美国学校b巴西圣保罗坎皮纳斯大学医学院医学遗传学和基因组医学系c坎皮纳斯大学数学、统计和科学计算研究所统计系,坎皮纳斯,圣巴西圣保罗d巴西圣保罗坎皮纳斯大学巴西神经科学和神经技术研究所ar t i cl e i nf o文章历史记录:收到2019年收到修订版2020年3月31日接受2020年关键词:生物信息学科学工作流程高性能计算a b st ra ct全外显子组测序已广泛用于临床应用,用于鉴定几种疾病的遗传原因。HPexome是一个命令行工具,可以自动执行大规模队列外显子组测序数据分析的许多数据处理任务。给定现成的分析比对文件,HPexome将输入数据分解为由基因组区域定义的较小片段,并使用集群计算环境并行有效地处理它们。它依赖于队列工作流执行引擎、GATK变体调用工具及其最佳实践来输出高置信度的多样本基因组学变体文件。©2020作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v1.2.1此代码版本所用代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2019_323法律代码许可证GNU General Public License v3.0使用Git的代码版本控制系统使用的软件代码语言、工具和服务Scala; Python编译要求、操作环境依赖性Java Runtime Environment 1.8(If可用)链接到开发人员文档/手册https://bcblab.org/hpexome问题支持电子邮件well309@gmail.com软件元数据当前软件版本v1.2.1此版本可执行文件的永久链接https://pypi.org/project/HPexome/1.2.1/法律软件许可证GNU通用公共许可证v3.0计算平台/操作系统Linux安装要求依赖关系Python 3; Java Runtime Environment 1.8如果可用,请链接到用户手册-如果正式出版,请在参考列表中包括对出版物https://github.com/labbcb/hpexome问题支持电子邮件well309@gmail.com通讯地址:Rua Sérgio Buarque de Holanda,651 - 13083-859-Campinas,SP,巴西电子邮件地址:benilton@unicamp.br(B.S. Carvalho)。1 这些作者对这项工作作出了同样的贡献。2 当前地址:Paul G.美国西雅图华盛顿大学艾伦计算机科学工程学院https://doi.org/10.1016/j.softx.2020.1004782352-7110/©2020作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2L.L. 森德斯湾德索萨岛Lopes-Cendes等人粤公网安备44010802000018号1. 动机和意义全外显子组测序(WES)涉及捕获和测序人类基因组中蛋白质编码基因的所有外显子[1]使用下一代测序(NGS)。它已被用于临床应用,以了解与疾病相关的潜在遗传因素[2]。用于分析NGS数据的基因组分析工具包(GATK)编程框架[3]以及其他能力提供了用于测序深度和变异识别的计算方法。这些方法被称为步行者,被用于大规模测序项目,如1000个基因组计划[4] 和 癌 症 基 因 组 图 谱 [5] 。 GATK-Queue 是 一 个 基 于 GATKwalkers的命令行脚本框架,它定义了多阶段基因组分析管道,并具有端到端运行这些管道的执行管理器。基因组变体鉴定由几个耗时的处理任务组成[6],使整体分析更加复杂。目前的DNA测序仪产生的大量数据允许对个体进行独特的因此,有必要开发易于使用的生物信息学工具,用于基因组变异,要求高性能计算环境(HPC),以减少数据生成和分析报告之间的延迟。我们开发了HPexome,一个依赖于队列工作流管理系统的自动化工具,以及用于数据预处理和变体调用的GATK walkers我们的软件已被用于处理大规模基因组学WES数据集,例如巴西精准医学倡议(BIPMed)[7]。我们还评估其性能的HPC集群和验证其结果。HPexome减少了处理WES数据集所需的时间,并简化了用户与这些技术的交互。2. 软件描述2.1. 软件构架HPexome是一个用Python编写的命令行工具,可以自动处理WES数据。它捆绑了GATK-Queue工作流管理系统和Scala编写的脚本,该脚本定义了数据处理任务。HPexome是基于GATK软件作者描述的良好实践开发的[8]。它需要比对文件,参考基因组,已知单核苷酸多态性(SNP)的数据库该工具处理这些输入文件并输出一个或多个变体调用格式(VCF)文件。工 作 流 程 由 五 个 GATK 子 命 令 组 成 : ( a )RealignerTargetCreator,其发射具有用于重新比对的靶标的基因组间隔;(b)IndelRealigner,其负责执行读段的局部重新比对以校正由于indel的存在而导致的未对准;(c)BaseRecalibration,其基于各种用户指定的协变量(例如读段组、报告的质量分数、机器循环和核苷酸上下文)生成重新校准表;(d)PrintReads,其获取输入BAM文件并根据重新校准表更新这些文件;以及(e)HaplotypeCaller,其通过活性区域中单倍型的局部重组同时搜索SNP和插入缺失。最后一个遍历器将根据用户定义为每个输入样本生成一个统一的多样本VCF文件或多个VCF文件(图10)。①的人。2.2. 软件功能HPexome能够处理大规模WES数据集。它提供了一个易于使用的命令行界面,该界面运行下面的GATK-Queue工作流引擎,将作业提交给批处理系统或直接运行流程。所有五个处理步骤都自动执行。中断的execution- tions可以恢复,跳过已经完成的任务。3. 说明性实例以下命令行说明如何使用HPexome处理WES数据。大多数参数指定参考文件来预测基因组变异。HPexome支持批处理系统,如PBS/Torque和Sun Grid Engine(SGE)。原始测序数据应首先进行比对和排序,因为GATK没有用于这些任务的步行者。推荐使用BWA [9]和Picard软件对测序读数进行定位和排序。以下命令行在包含对齐文件(BAM)的目录上执行HPexome输出是包含所有样本的基因组学变体信息的统一VCF文件。所有生成的文件都存储在一个目录中。hpexome--砰alignment_files/\--genome references/human_g1k_v37_decoy.fasta\--dbsnp引用/dbsnp_138.b37.vcf\--indelsreferences/Mills_and_1000G_gold_standard.indels.b37.vcf\--indels references/1000G_phase1.indels.b37.vcf\--sitesreferences/1000G_phase1.snps.high_confidence.b37.vcf\--sitesreferences/1000G_omni2.5.b37.vcf\--unified_vcf\--scatter_count十六岁--job_runner GridEngine\--output_file_name variants.b37.vcf\result_files4. 影响我们开发了HPexome ,这是一种命令行工具,它捆绑了GATK-Queue软件和脚本,以从WES数据集识别基因组变异。我们的工具利用队列管理系统和GATK步行器,提交给批处理系统,以更好地管理资源。我们通过处理来自NA12877样品的公开WES数据来验证脚本[10]。我们的结果与金标准结果相似,一致率为97.63%。我们使用不同数量的处理单元(CPU)来处理NA12878样本数据(1000 Genomes第3阶段发布),评估了该工具用于此任务的计算机节点具有48个CPU和78 GB RAM。观察到的运行HP外显子组工作流程的时间(以小时计)显示在图1B中。 二、我们观察到,时间的减少不是线性的处理单元的数量使用。因此,我们将两个变量(并行处理单元的数量和时间)转换为对数尺度(以2为底),如图所示。三场演出。这种策略使两个变量之间的关系更接近线性,允许使用先进的统计方法进行性能增益评估。使用分位数回归,我们估计了中位经过时间(对数标度)作为par-tumor处理单元数(也是对数标度)的函数结果在表1中列出。估计模型为log 2(时间)= 4。53比0。53×log 2(N)并提出了有利于通过并行处理减少时间的证据。我们估计斜率为-0.53(95%CI:[-0.59;−L.L. 森德斯湾德索萨岛Lopes-Cendes等人 粤公 网安 备44010802000011号Fig. 1. 处理WES数据的工作流。所需的输入文件是包含路线数据的BAM文件。每个文件代表一个样本。参考文件包含已知的插入缺失、已知的位点、基因组序列和dbSNP数据库(未显示)。间隔文件具有用于将输入数据分散成小部分(未示出)的基因组间隔。对于每个样本,流水线从RealignerTargetCreatorwalker到PrintReads非常线性地进行。如果用户定义了统一的VCF标志,则HaplotypeCaller将对所有样本执行一次,生成一个统一的VCF文件,其中包含所有样本的变体数据。否则,HaplotypeCallerwalker将为每个样本执行多次,生成多个VCF文件。图二、按 处 理 单 元 数 分配的运行时间(以小时为单位)。0.43]),这些证据表明,当我们将并行处理单元的数量(N)加倍时,(log2)时间显著减少。这个模型表明,每当我们将处理器的数量增加一倍时,执行所需的时间平均减少到以前所需时间的69.05%。图三. 以对数刻度(以2为底)表示的经过时间(小时)是以对数刻度(以2为底)表示的处理单元数的函数。将大型基因组数据分解为较小且独立的数据块的分散-收集策略使我们能够以减少处理时间。随着精准医学的普及,基因组数据不断产生,我们的4L.L. 森德斯湾德索萨岛Lopes-Cendes等人粤公网安备44010802000018号表1性能测试的运行时间。N是处理单元的数量,log2(时间)是对数刻度(以2为底)中的估计中位时间,时间(h)表示估计中位时间(小时)。Nlog2(时间)时间(小时)14.5423.2624.0116.0643.4711.0982.947.66162.405.29321.873.65系统可用于更快地提供结果,因此临床医生可以及时对结果采取行动。5. 结论我们开发了HPexome,一个由GATK-Queue提供支持的工具,用于在HPC集群上处理WES数据。它显著减少了变量调用过程的执行时间。在我们的计算环境中,这个任务需要26小时(串行),而HPexome将其减少到5小时。并行化增加了所使用的计算资源的足迹,但性能的显著提高弥补了这些损失。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢这项工作得到了圣保罗州研究保护基金会(FAPESP)的支持,赠款号为2013/07559-3。W.S.由巴西FAPESP(授权号2016/04204-8)支持I.L-C.由巴西国家渔业委员会(CNPq)支持,资助号为403299/2016-0 和 309494/2014-1 。 BSC 由 Fundação de Amparo à Pesquisa( FAPESP ) ( 授 权 号 12/21548-1 ) 、 Conselho Nacional dePesquisa(CNPq)(授权号405497/2016-4)和Biotechnologyand Biological Sciences Research Council(BBSRC)(授权号BB/P027849/1)支持。我 们 要 感 谢 EMBRAPA 多 用 户 生 物 信 息 格 式 实 验 室(http://www.lmb.cnptia.embrapa.br)提供访问他们的高性能计算环境。引用[1][10]杨文,杨文,李文.外显子组测序:当前和未来的前景。G3:基因组基因2015;5(8):1543-50。[2]BamshadMJ , Ng SB , Bigham AW , Tabor HK , Emond MJ , NickersonDA , et al. 外 显 子 组 测 序 作 为 孟 德 尔 疾 病 基 因 发 现 的 工 具 。 NatureRevGenet2011;12(11):745-55.[3]McKenna A,Hanna M,Banks E,Sivachenko A,Cibulskis K,KernytskyA,基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架。Genome Res2010;20(9):1297-303.[4]千人基因组计划联盟。人类基因变异的全球参考。Nature2015;526(7571):68-74.[5]Weinstein JN , Collisson EA , Mills GB , Shaw KR , Ozenberger BA ,Ellrott K,et al. Cancer genome atlas research network.癌症基因组图谱泛癌症分析计划。Nature Genet2013;45(10):1113.[6]Van der Auwera GA,Mr.M. MO,Hartl C,Poplin R,Del Angel G,Levy-Moonshine A,等. From FastQ data到 高置信 变化的呼叫。基因组分析工具 包 最 佳 实 践 管 道 。Curr Protoc Bioinform 2013;43 ( 1110 ) 。http://dx.doi.org/10.1002/0471250953的网站。bi1110s43,11.10.1[7]Secolin R , Mas-Sandoval A , Arauna LR , Torres FR , de Araujo TK ,Santos ML,et al. Distribution of local ancestry and evidence of adaptationin admixedpopulations. Sci Rep 2019;9(1):1-2.[8]DePristo MA,Banks E,Poplin R,Garimella KV,Maguire JR,Hartl C,et al. Aframework for variation discovery and genotyping using next-generationDNAsequencing data. Nature Genet 2011;43(5):491.[9]作 者 : Li H , Durbin R. Burrows-Wheeler 变 换 快 速 准 确 的 长 读 段 比 对 。Bioinformatics2010;26(5):589-95.[10]Eberle MA , Fritzilas E, Krusche P, Källberg M , Moore BL ,BekritskyMA , etal. A reference data set of 5.4 million phased human variantsvalidatedby genetic inheritance from sequencing a three generation 17-memberpedigree. Genome Res2017;27(1):157-64.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功