生命科学中的基于深度学习的快速纳米孔测序碱基识别器

139 浏览量更新于2023-12-06 收藏 612KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能1（2021）100011方法Fast-bonito：一种基于深度学习的更快的纳米孔测序碱基识别器徐智梦a，#，麦玉婷a，#，刘登辉a，#，何文俊a，林新元a，徐驰a，张磊a，Xin Menga，Joseph Mafofob，Walid Abbas Zaherb，Ashish Koshyb，Yi Lia，Nan Qiaoa，Yi Li华为健康智能实验室版权所有© 2018深圳市华盛电子有限公司bGroup42 HealthCare，阿布扎比，阿拉伯联合酋长国aRT i cL e i nf o保留字：鲣鱼Fast-BonitoBase调用NanoporeAscend芯片深度神经网络神经架构搜索a b sTR a cTOXFORDNanopore Technologies（ONT）的Nanopore测序是一种很有前途的第三代测序（TGS）技术，与下一代测序（NGS）技术相比，它可以生成相对较长的测序读段。碱基识别器是一种软件，它将原始的电流信号翻译成核苷酸序列。碱基计数器的准确性对下游分析至关重要。Bonito是ONT最近开发的基于深度学习的basecaller它的神经网络架构由单个卷积层和三个堆叠的双向门控递归单元（GRU）层组成虽然Bonito已经达到了最先进的碱基识别精度，但它的速度太慢，无法用于生产。因此，我们开发了Fast-Bonito，通过使用神经架构搜索（NAS）技术来搜索全新的神经网络骨干，并使用几种先进的深度学习模型训练技术从头开始训练它。新的Fast-Bonito模型在速度和准确性方面平衡了性能。Fast-Bonito在NVIDIA V100 GPU上比原始Bonito快153.8%。在华为Ascend 910 NPU上运行时，Fast-Bonito比原始Bonito快565%。Fast-Bonito的准确性也略高于Bonito。我们已经将Fast-Bonito开源，希望它能促进学术界和工业界对TGS的采用介绍在过去的几十年中，基因组测序技术已经从桑格测序[1]发展到大规模并行下一代测序（NGS）[2]，以及现在的长读第三代测序（TGS）[3]。与NGS相比，TGS可以产生更长的读数，这使得它成为研究基因组复杂变异的更好选择。已经开发了几种不同的TGS技术，例如PacBio和OXFORDNanopore Technologies（ONT）平台[3]。由ONT驱动的纳米孔测序可以通过记录通过蛋白质纳米孔的单链DNA的电阻信号[4]。它在测序长读段和检测复杂的基因组结构变异方面显示出巨大的优势[4，5]，但高测序错误率减缓了许多领域的工业应用。导致高错误率的一个非常关键的步骤是碱基识别，其将原始电子信号翻译成碱基，即，ATCG。电信号应该由驻留在纳米孔中的核苷酸决定，因此它们可以被解码成核苷酸碱基。不幸的是，它们也容易受到测序的影响*通讯作者。电子邮件地址：qiaonan3@huawei.com（N. 乔）。# 这些作者都做出了同样的贡献。https://doi.org/10.1016/j.ailsci.2021.100011噪声和DNA变化的出现，使得信号过于复杂而无法有效解码。用于碱基调用的机器学习方法包括ONT发布的Albacore，Guppy，Scappie和Flappie（https：//github.com/nanoporetech/Flappie）;研究社区也贡献了各种工具，如Nanocall[7]，DeepNano[8]，Chrion[9]和cabinetcall[10]。尽管已经有几种不同的方法用于碱基识别[6基本的呼叫者。近年来，深度神经网络也被广泛用于碱基调用，具有流行的架构，如卷积神经网络（CNN），递归神经网络（RNN）和连接主义时间分类（CTC）解码器[10]。Guppy（https://nanoporetech.com/about-us/news/new-research-algorithms- yield-accuracy-gains-nanopore-sequencing）优于其他工具的速度，并提供相对较高的精度[6]。Bonito（https://github.com/nanoporetech/bonito）实现最先进的碱基识别准确性，与Guppy相比，显著提高了1%以上。然而，Bonito速度较慢，这限制了它在实际中的应用。因此，我们开发了Fast-Bonito，通过使用神经结构搜索（NAS）技术从头开始搜索新的骨干，并使用几种高级训练对其进行训练接收日期：2021年10月2日;接收日期：2021年11月4日;接受日期：2021年11月5日2021年11月8日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciZ. Xu，Y. Mai，D. Liu等人生命科学中的人工智能1（2021）1000112技术.现在我们有了一个新的模型，速度和准确性。寻找新的优化神经网络骨干Bonito的神经网络主干受到QuartzNet的启发[13]，QuartzNet最初是为语音识别而开发的，因此我们认为它可能不是将原始电子信号转换为基础的最佳神经网络架构。我们还研究了Bonito神经网络架构，以找到限制其性能的潜在瓶颈。Bonito的神经网络骨干由多个TCSCv-BN-ReLU模块组成。每个TCSConv-BN-ReLU模块由几个时间通道可分离卷积（TCSConv）、一个批归一化（BN）层和一个ReLU激活函数组成虽然这种架构大大减少了模型的参数数量，但硬件的推理机库编写得不好，这在一定程度上降低了速度。为了加速Bonito，我们使用了神经架构搜索（NAS）-一种技术-nique用于自动化人工神经网络的设计，为相同的任务寻找新的神经网络。早期的NAS框架只专注于搜索更高性能的模块，这可能会导致主干满足准确性要求，但需要更长的推理时间（更高的延迟）。为了平衡准确性和推理延迟，在我们的工作中使用了多目标和自适应NAS框架（所谓的MnasNet[14]）。自动神经架构搜索方法将延迟信息明确纳入主要目标，以便搜索可以识别实现以下目标的模型：准确性和延迟之间的良好权衡搜索空间NAS搜索的重点是五个中间块的架构。首先，Bonito原始网络架构中的所有可分离卷积模块都被ResNet50[15]中的瓶颈卷积模块取代，这得到了推理的引擎库然后，每个块的搜索空间定义如下。1. 从1到9搜索每个块的模块的数量2. 从列表[32，64，128，256，378，512]中搜索每个块的通道数。3. 瓶颈卷积算子的核大小从列表[3，5，7，9，11，17，29，31，47，53，69，73，83，91，107，115，123，129]中搜索。新的主干搜索过程搜索空间定义了NAS方法中的控制器模块。采样-评估-更新循环[16]用于训练控制器。在每一步中，从控制器中采样一批模型。每个模型在训练器模块中训练几个时期，然后测量其推理延迟和准确性。通过准确率和延迟计算多目标奖励后，将奖励集作为输入通过最大化期望回报来更新控制器的参数。NAS搜索的最佳骨干网名为Fast-Bonito，其整体架构如图1A所示。与Bonito（图1B）相比，主要区别在于Fast-Bonito包括一系列的底颈卷积模块层，用于计算核的概率。CTC解码器将该概率翻译成核苷酸序列。考虑到电子信号的长度不同，我们也进行了分段分裂，这与Bonito相似。输入信号在被馈送到卷积架构之前被切割成6000个段，其中重叠300，对应的输出段的长度为6000。除了第一个和最后一个片段外，片段的两端都移动了150的长度。第一段和最后一段的后端和前端都被删除。将片段的其余部分连接在一起并送入CTC解码器以产生最终的核苷酸序列。Fig. 1. Fast-Bonito（A）和Bonito（B）架构的示意图比较。与Bonito相比，Fast-Bonito将Bonito中的可分离卷积模块替换为瓶颈卷积模块以加速。Fast-Bonito的架构包括卷积架构，最后一层的卷积模块层，用于计算核苷酸的概率，以及CTC解码器，用于将网络的输出转换为核苷酸序列。Z. Xu，Y. Mai，D. Liu等人生命科学中的人工智能1（2021）1000113图二. 快速Bonito的性能。在NVIDIA V100上，Fast-Bonito比原始版本快153.8%。而在华为Ascend 910 NPU上，Fast-Bonito的速度快了565%。B）Fast-Bonito的碱基识别准确率略高于原始Bonito（0.2%）。与“Guppy Fast”和“Guppy HAC”相比，当组装重叠群与参考基因组比对时，Fast-Bonito具有最少数量的未比对重叠群C）和错配D）从无到有培养新骨干在获得Fast-Bonito的最佳骨干之后，我们开始从头开始训练它，如下所述。1) 数据增强是一种用于提高模型性能的流行方法[17常用的增强方法如剪切（cutout）[20]、旋转（rotate）、剪切（shearX）[21]、剪切（shearX）[22]等都不太适用于一维DNA序列。因此，我们使用SpecAugment[19]，一种用于语音识别的数据增强方法，这与DNA序列解码器类似2) 标签平滑[23，24]是一种防止网络变得过度自信的方法，并已在许多最先进的模型中使用。这里我们使用这种方法来防止过度拟合。3) 知识蒸馏[25，26]是一种将知识从训练有素的“教师”模型迁移到“学生”模型的方法，从而提高“学生”模型的性能。在这里，我们将原始Bonito的预训练模型作为“老师”，将我们自己的模型作为“学生”。新骨干我们的主要基准数据集来自Bonito提供的数据集。该数据集包含100，000个用于评估的读数。在NVIDIA V100 GPU上，原始Bonito模型的速度为1400，000 bp/s（图2A），Fast-Bonito为1840，000 bp/s比Bonito快153.8%由于神经处理单元（NPU）对深度学习任务更有效，我们还对华为Ascend 910 NPU进行了进一步的测试，该NPU由名为DaVinci的可扩展神经网络计算架构提供支持[27]，其中Fast-Bonito的速度可以达到7910，000 bp/s-比NVIDIA V100 GPU上的Bonito快565%（图27）。 2 A）。使用“Bonito evaluate DNA_r9.4.1 -chunks 100，000”来评估碱基识别的读取准确性。与Bonito相比，Fast-Bonito在准确率上也取得了略高的中位数，为97.18%在NVIDIA V100和HUAWEI Ascend 910上，Bonito为96.98%（图2B）。为了估计改进的碱基识别准确度对下游分析的影响，我们进行了为了比较组装精度， Shasta 首先预组装了称为FASTQ/FASTA文件的基座[28]。然后将组装的重叠群进料至Racon[29]以进行进一步抛光。Quast[30]用于相对于参考基因组“GRCh 38”估计“Guppy HAC”、“Guppy Fast”和Fast-Bonito之间组装的重叠群准确度。与Guppy（“Guppy HAC”和“Guppy Fast”模式）相比，Fast-Bonito也具有较少的未对齐重叠群（图2C）和错配（图2D）。 2 D）。结论碱基识别是纳米孔测序工作流程中的关键步骤之一。快速准确的碱基识别仍然是一个具有挑战性的问题。虽然Bonito能够达到最先进的精度，但Bonito的速度限制了其在生产系统中的应用。碱基调用工具需要巨大的计算资源，尤其是GPU资源。我们的研究表明，NPU也可以用于加速碱基调用，速度比NVIDIA V100 GPU快4.3倍。这显示了在基因组研究中使用NPU的有希望的潜力本研究中使用的Bonito版本为0.2.3。 Fast-Bonito也是使用相同的训练和验证数据集开发的。鲣鱼仍然是一个活跃的项目，不断发布新功能。我们还将在未来不断更新Fast-Bonito的新功能。Z. Xu，Y. Mai，D. Liu等人生命科学中的人工智能1（2021）1000114数据和软件声明我们用于Fast-Bonito的训练和验证数据集从GitHub上的Bonito项目下载（ https://github.com/nanoporetech/bonito ）。 Fast-Bonito 可在https：//www.example.com上公开获取。github.com/EIHealth-Lab/fast-bonito 数据集使用到估计，匹配装配精度从https：//s3-us-west-2下载。 amazonaws.com/human-pangenomics/index.html? PREFIX= HG002/ 纳米孔 / 。由于数据量巨大，仅 “12_16_19_R941_GM24385_13.fast5.tar”子集用于下游碱基调用和组装。测试环境NVIDIA Tesla V100的测试环境使用了16 GB GPU加8个CPU，而华为Ascend 910的测试环境使用了16 GB128 NPU和192个CPU，但仅指定了1个NPU和24个CPU。目前的任务。作者贡献N.Q.和Y.L.设计和构思了这个项目。Y.M.进行了Bonito的优化和模型训练。Z.X.公司D. L。在W.H.，X.L.，C. X.，左中和N.Q. D. L.我写了手稿。X.M.，J. M.，WAZ和A.K.提供了有见地的建议并修改了手稿。我们也感谢Min Sung Park博士讨论使用NPU在早期阶段加速基因组研究。所有作者阅读并批准了最终手稿。竞争利益作者声明没有竞争利益。引用[1] SangerF，Coulson AR. DNA聚合酶引物合成快速测定DNA序列的方法分子生物学杂志1975;94：441[2] Behjati S，Tarpey PS.什么是下一代测序？Arch Dis Child - Educ PractEd2013;98：236-8.[3] Lee H等，第三代测序和基因组学的未来2016。doi：10.1101/048603。[4] Mikheyev AS，Tin MMY.首先看看OX ford Nanopore MinION测序仪。Mol EcolResour 2014;14：1097[5] 何SS，城市AE，米尔斯RE.测序时代的结构变异。Nat Rev Genet 2020;21：171-89.[6] Wick RR，Judd LM，Holt KE.用于Oxford纳米孔测序的神经网络碱基判定工具的性能。Genome Biol 2019;20：129.[7] DavidM，Dursi LJ，Yao D，Boutros PC，Simpson JT.Nanocall：一个开源的碱基调用者，用于Oxford Nanopore测序数据.生物信息学2017;33：49[8] Boža V，Brejová B，Vinasiness TDepNano.用于MinION纳米孔读取中的碱基调用的深度递归神经网络。PLoS One 2017;12：e0178751.[9] Teng H 等人， Chiron ： translating nanopore raw signal directly into nucleotidesequence using deep learning。GigaScience2018;7：giy037.[10] ZengJ ， etal.Causalcall ： NanoporeBasecallingUsingaTemporalConvolutional Network.Front Genet 2020;10：1332.[11] Huang N ， Nie F ， Ni P ， Luo F ， WangJ. An attention-based neural networkbasecaller for OX ford Nanopore sequencing data. 2019年IEEE生物信息学和生物医学国际会议（ BIBM ）。 IEEE;2019. 第 390-394 页。 doi ：10.1109/BIBM47256.2019.8983231。[12] 作者：Silvestre-RyanJ.对共识解码提高了纳米孔测序2020的神经网络basecallers的准确性doi：10.1101/2020.02.25.956771。[13] KrimanS，et al.QuartzNet：使用1D时间通道可分离卷积的深度自动语音识别ArXiv191010261 Eess 2019.[14] MnasNet ： Platform-Aware Neural Architecture Search for Mobile 。 2019 年IEEE/CVF计算机视觉和模式识别会议（CVPR）。IEEE; 2019.第2815-23页。doi：10.1109/CVPR.2019.00293。[15] 何克，张 X，任S，孙J.Deep Residual Learning for Image Recognition. ArXiv151203385 Cs 2015.[16] Zoph B，Le QV.使用强化学习的神经结构搜索。ArXiv161101578 Cs2017.[17] Cubuk ED，Zoph B，鬃毛D、Vasudevan五，乐QVAutoAugment。从数据中学习增强策略。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。IEEE; 2019.第113- 123页。doi：10.1109/CVPR.2019.00020。[18] Zoph B等人，《Learning Data Augmentation Strategies for Object Detection》。ArXiv190611172 Cs2019.[19] SpecAugment ： A Simple Data Augmentation Method for Automatic SpeechRecognition. Interspeech 2019：2613-17（ISCA，2019）。doi：10.21437/Inter-speech. 2019 -2680.[20] 作者： John W.一种改进的截断卷积神经网络正则化方法。 ArXiv170804552Cs2017.[21] ShortenC，Khoshgoftaar TM. 深度学习的图像数据增强综述JBig Data 2019;6：60.[22] 胡波，雷春，王东，张松，陈忠。图像分类深度学习数据增强的初步研究ArXiv190611887 Cs Eess 2019.[23] 李杰，赵瑞，李文，李文 . 改进在线端到端语音识别系统的训练。ArXiv171102212 Cs 2018.[24] Szegedy C，Vanhoucke V，Io Zee S，ShlensJ， Wojna Z.重新思考计算机视觉的2016年IEEE计算机视觉与模式识别会议（CVPR）IEEE; 2016.p. 2818-26 doi：10.1109/CVPR.2016.308。[25] Hinton G ， Vinyals O ， DeanJ.Distilling the Knowledge in a Neural Network.ArXiv150302531 Cs Stat 2015.[26] Wei L等人，《用知识蒸馏规避 AutoAugment的离群值》。 ArXiv 200311342Cs2020。[27] Liao H，et al. Ascend：泛在深度神经网络计算的可扩展和统一架构2021年IEEE高性能计算机架构国际研讨会;2021年。[28] Nanopore sequencing and the Shasta toolkit enables efficient de novo assemblyofeleven human genomes.Nat Biotechnol 2020;38：1044[29] Vaser R，Sović I，Nagarajan N，Šikić M.从长的未校正读段快速准确地从头组装基因组。Genome Res 2017;27：737[30] 张晓刚，王晓刚，王晓刚 . QUAST ：基因组组装的质量评估工具。Bioinformatics2013;29：1072-5.

下载后可阅读完整内容，剩余1页未读，立即下载