难绘制地区中的变体识别

157 浏览量更新于2023-12-06 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源PrecisionFDA Truth Challenge V2：在难以映射的区域中从短读段和长读段中图形摘要亮点d64份提交材料采用了三种技术d使用新的GIAB基准集和新的基因组分层评估d提交物在总体表现和具有挑战性的基因组区域方面d挑战数据见https://doi.org/10.18434/mds 2 -2336作者内森·D奥尔森，贾斯汀瓦格纳，詹妮弗麦克丹尼尔，...，陈洛琪，FritzJ.作者：Justin M.Zook通信nolson@nist.gov（N.D.O.），Justin. nist.gov（J.M.Z.）简言之Olson等人报告了precisionFDA TruthChallenge V2变体调用管道的结果。挑战的重点是创新深度学习和基于图形的方法的小变量准确性，利用新的基准和新的分层来展示不同方法的优势和劣势。奥尔森等人，2022，细胞基因组学2，1001292022年5月11日，作者。https://doi.org/10.1016/j.xgen.2022.100129会会开放获取资源PrecisionFDATruthChallengeV2：从短读段和长读段中识别变体在难以绘制地图的地区内森·D奥尔森，1，28，*贾斯汀瓦格纳，1詹妮弗麦克丹尼尔，1莎拉H。Stephens，2Samuel T. Westreich，3Anish G.普拉萨纳，2伊莱恩约翰森，4艾米丽博亚，4以西结J迈尔，2奥马尔塞朗，3大卫Ja 'spez，5乔斯e'M。 Lorenzo-Salazar，5Adria'nMunMooz-Barrera，5LuisA. Rubio-RodrL'guez，5卡洛斯·弗洛雷斯，5，6，7，8Konstantinos Kyriakalos，9，10Andigoni Malousi，10，11Kishwar Shafin，12Trevor Pesout，12Miten Jain，12BenedictPaten，12Pi-Chuan Chang，13Alexey Kolesnikov，13Maria Nattestad，13Gunjan Baid，13Sidharth Goel，13HowardYang，13Andrew Carroll，13Robert Eveleigh，14Mathieu Bourgey，14Guillaume Bourque，14Gen Li，15Chouxian Ma，15LinQiTang，15YuanPingDu，15ShaoWeiZhang，15JordiMorata，16，17Rau'lTonda，16，17GenD's Parra，16，17Jean-Re'miTrotta，16，17（作者名单见下页）1美国国家标准与技术研究院材料测量实验室，地址：100 Bureau Dr，MS8312，Gaithersburg，MD 20899，USA2Booz Allen Hamilton，8283 Greensboro Drive，Mclean，VA 22102，USA3DNAnexus，Inc.，1975 W El Camino Real #204，Mountain View，CA 94040，美国4美国食品药品监督管理局局长办公室首席科学家办公室卫生信息学办公室，美国马里兰州5GenomicsDivision，InstitutoTecnolo'gicoydeEnerg'enasRenovables（ITER），SantaCruzdeTenerife，Spain6CIBER de Enfermedades Respiratorias，Instituto de Salud Carlos III，马德里，西班牙7研究单位，医院Universitario N.S.天气-圣克鲁斯-德特内里费，西班牙8Instituto de Tecnolog 'as Biome' dicas（ITB），Universidad de La Laguna，38200 San Cristo 'bal de La Laguna，Spain9School of Pharmacy，Aristotle University of Thessaloniki（AUTH），541 24 Thessaloniki，Greece10基因组学和表观基因组学转化研究（GeNetres），跨学科研究和创新中心，570 01塞萨洛尼基，希腊11Laboratory of Biological Chemistry，School of Medicine，Aristotle University of Thessaloniki（AUTH），541 24希腊12加州大学圣克鲁斯分校基因组学研究所，美国加州圣克鲁斯市高街1156号13Google Inc，1600 Amphitheater Pkwy，Mountain View，CA 94040，USA14加拿大计算基因组学中心（C3G），加拿大魁北克省蒙特利尔15HuXinDao，QingZhuHu TaiyangShan Road，KaiFu，ChangSha，Hunan，中国16CNAG-CRG，Centre for Genomic Regulation（CRG），Barcelona Institute of Science and Technology（BIST），Baldiri i Reixac4，08028 Barcelona，Spain总结（联系方式见下页）precisionFDA Truth Challenge V2旨在评估挑战性基因组区域中变异识别的最新技术水平。从FASTQ开始，20名挑战参与者应用了他们的变体调用管道，并为一种或多种测序技术（Illumina，PacBio HiFi和Oxford Nanopore Technologies）提交了64个变体调用集按照最佳实践评估提交物，以使用更新的瓶中基因组基准集和基因组分层对小变体进行基准测试提交的挑战包括许多创新方法，其中基于图形的方法和机器学习方法分别在短读和长读数据集上得分最高。使用机器学习方法，结合多种测序技术表现得特别好。测序和变异识别的最新发展使得在具有挑战性的基因组区域中对变异进行基准测试成为可能，为识别以前未知的临床相关变异铺平了道路介绍PrecisionFDA始于2015年，作为一项研究工作，旨在支持美国食品药品监督管理局（FDA）在基因组学方面的监管标准制定，并已扩展到支持组学的该平台提供按需访问高性能计算实例、专家社区、公开可用工具库、对自定义工具开发的支持、挑战框架以及FDA科学家和评审员与外部合作伙伴协作的虚拟共享空间precisionFDA挑战框架是该平台最面向外部的功能之一该框架使本Cell Genomics2，100129，May 11，2022<$2022作者。1这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。会开放获取资源2Cell Genomics2，100129，2022克里斯蒂安·布鲁费尔，18岁的西尼姆·德米尔卡亚-布达克，19岁的杜伊古·卡巴奇-佐卢，19岁的德尼兹·图尔古特，19岁的奥泽姆·卡雷，19岁的贡戈尔·布达克，19岁的库布拉·纳尔奇，19岁的埃利夫·阿尔斯兰，19岁的理查德·布朗，19岁的伊万·J。约翰逊，19岁阿列克谢·多尔戈博罗多夫，19岁弗拉基米尔·塞梅纽克，19岁阿米特·杰恩，19H。Serhat Tetikol，19Varun Jain，20Mike Ruehle，20Bryan Lajoie，20Cooper Roddey，20SeverineCatreux，20Rami Mehio，20Mian Umair Ahsan，21Qian Liu，21Kai Wang，21，22Sayed Mohammad EbrahimSahraeian，23Li Tai Fang，23Marghoob Mohiyuddin，23Calvin Hung，24Chirag Jain，25Hanying Feng，26Zhipan Li，26Luoqi Chen，26Fritz J. 27岁的Sedlazeck和Justin M. Zook1，*17Universitat Pompeu Fabra（UPF），巴塞罗那，西班牙18瑞典隆德隆德大学临床科学系肿瘤学分部19Seven Bridges Genomics，Inc，Charlestown，MA，USA20Illumina，Inc.，关闭CA，USA21Raymond G. Perelman Center for Cellular and Molecular Therapeutics，Children24WASAI Technology，台北，台湾25美国国立卫生研究院国家人类基因组研究所，马里兰州贝塞斯达，美国26Sentieon Inc.，关闭CA，USA27人类基因组测序中心，贝勒医学院，一贝勒广场，休斯敦，TX 77030，美国28引线触点* 通信：nolson@nist.gov（N.D.O.），Justin. nist.gov（J.M.Z.）https://doi.org/10.1016/j.xgen.2022.100129在面向公众的环境中托管生物数据挑战，并提供提交测试和验证的可用资源 PrecisionFDA 的挑战，以及由 DREAM（http://dreamchallenges.org）等其他团体领导的挑战。1第一次瓶内基因组（GIAB）-precisionFDA真理挑战赛于2016年举行，要求参与者从两个GIAB样本的短读段中识别小HG001（也称为NA12878）的6个基准之前已经发布，但当时没有公开的HG002基准。这使其成为第一个盲态的种系变异识别挑战，并且公开结果已被用作新变异识别方法的比较点。7没有明确的证据表明方法过度拟合HG001，但性能仅在用于形成v3.2 GIAB基准集的短读段可接近的相对容易的基因组区域6自第一次挑战以来，GIAB将基准扩展到基因组的简单区域之外，并改进了基准方法。随着使用机器学习（ML）从长读段中准确识别小变异的出现，8，9GIAB开发了新的基准，涵盖了基因组中更具挑战性的区域，10，11包括具有临床重要性的挑战性基因12 这种新的小变异基准（ v4.2 ）包括 SNV 和插入或缺失（INDEL）49 bp，将预测序使用的短读段变异识别与来自10X基因组学连锁读段和PacBio HiFi长读段的新变异识别整合，将基准集扩展到包括GRCh38中92%的常染色体。这个新的基准包括难以映射的基因，如PMS2，并使用局部分阶段组装，以包括主要组织相容性复合体（MHC）中的高度可变基因。GIAB团队与全球基因组学与健康联盟（GA4GH）合作，定义了小变异基准的最佳实践13这些最佳实践为执行复杂的变量比较提供了标准，这些变量比较说明了变量表示差异以及一组标准化的性能指标。提高对优势的洞察力，方法的弱点，对于这项工作，我们开发了通过基因组背景的新分层（例如，低复杂性或分段重复）。分层的基准测试结果允许用户识别特定变体调用方法表现良好的基因组区域以及优化工作的重点。鉴于基因组测序、变异识别和GIAB基准集的最新进展TruthChallenge V2 （ https://precision.fda.gov/challenges/10 ）发生时，HG002的v4.1基准可用，但HG003和HG004只有v3.3.2基准可用除了提供短读数据集（覆盖率低于第一个Truth Challenge）之外，该挑战还包括来自两种技术的长读数据集，以评估各种数据类型的性能。这项挑战利用了由GA 4GH Bench- markingTeam和GIAB开发的强大的基准工具和分层（具有不同基因组背景的基因组坐标的文件），以评估特别困难的区域（如节段性重复和MHC）的性能。13-结果参与者的任务是使用来自GIAB德系犹太人三人组的一种或多种测序技术的数据，以变体调用格式（VCF）文件的形式生成变体调用，这些数据可通过precisionFDA平台获得（图1）。对于三种人样品，测序数据作为来自三种技术（Illumina 、PacificBiosciences [PacBio] HiFi 和 Oxford Nanopore Technologies[ONT]）的测序数据集的读段长度和覆盖率是根据实践中使用的数据集的特征和制造商的建议选择的（表1）。Participants使用这些FASTQ文件来生成针对GRCh38版本的人参考基因组的变体调用。Cell Genomics2，100129，2022年5月11日3会开放获取资源图1. Truth Challenge V2结构向参与者提供来自Illumina、PacBio HiFi和ONT的GIAB Ashkenazi三人组（HG002、HG003和HG004）的测序读数（FASTQ文件）参与者在挑战结束前上传了每个人的VCF文件，然后公布了HG003和HG004的新基准。20支队伍参加了挑战赛，共提交了64份参赛作品，其中多支队伍提交了多份参赛作品。20个团队中的15个（64个提交中的53个）自愿为这份手稿做出贡献，提供了他们用于挑战的管道的详细方法。这里展示的结果仅包括选择参与本手稿的团队，包括所有挑战赛获胜者（图2A，表S1）。13个提交的变异调用集（来自对本手稿做出贡献的团队）使用两种或更多种测序技术，Illumina，PacBio HiFi和ONT Ultralong生成（参见数据集描述的方法）。对于单一技术的提交，Illumina是最常见的（40个中的21个），其次是PacBio（16个）和ONT（3个）。PacBio在所有13项多技术提交中使用，Illumina在除一项外的所有提交中使用，五项提交使用了所有三种技术的数据提交任务使用了各种变体调用方法，大多数变体调用者使用深度学习方法。表现最好的短阅读提交使用具有图形参考而不是标准线性参考的统计变量调用算法（例如，参见补充材料中的DRAGEN和Seven Bridges方法）。值得注意的是，大多数提交使用基于深度学习的变体调用方法（图2A）。对于长只读提交来说尤其如此，20个中有18个使用基于深度学习的方法。根据父母在所有在基准区域中，表现最好的提交组合了所有技术，其次是PacBio HiFi，Illumina和ONT，PacBio HiFi提交在每个类别中具有最佳的单一技术性能（图2B和2C，表2）。与所有基准区域相比，尽管ONT的插入缺失错误率较高，但基于ONT的提交在难以映射的区域中的表现优于Illumina事实上，基于ONT的变体调用在难以映射的区域中的F1得分略高于所有基准区域，因为难以映射区域的基准排除了在易于映射的区域中由无PCR短读段调用的长于10 bp的均聚物。表现最好的短读调用集（DRAGEN和Seven Bridges）是利用基于图形的方法的统计方法，表现最好的长读调用集是基于深度学习的方法（ DeepVariant +PEPPER，NanoCaller，Sentieon和Roche）。性能在分层中变化很虽然对于最佳表现的Illumina提交，SNV与INDEL的F1得分相似，但长阅读和多技术提交的 SNV 的 F1 得分通常高于INDEL。相对于SNV，基于ONT的提交对INDEL的性能下降最大。所有类别（基因组区域）的提交性能见表S1，以及总结的4Cell Genomics2，100129，2022会开放获取资源表1.测序数据集特征技术GIAB ID阅读长度（bp）的读段数目覆盖Illumina公司简介23 151415,086,20935公司简介23 151419,192,65035公司简介23 151420,312,08535PacBio HiFi公司简介12,8858,449,28736公司简介14,7637,288,35735公司简介15,1027,089,31635ONT公司简介50,38019,328,99347公司简介44,61723,954,63285公司简介48,06029,319,33485对于读段长度，使用N50总结PacBio和ONT读段长度;覆盖率是常染色体上的中值覆盖率。精确度（图S3）、召回率（图S4）和INDEL大小（图S5）的提交性能;所有度量都计算为父母分数的调和平均值挑战突出了表征临床重要MHC基因座的创新例如，最近的研究表明，MHC基因中编码的人类白细胞抗原（HLA）类型在2019冠状病毒病（COVID-19）严重程度中发挥作用。16MHC是基因组的高度多态性的~5 Mb区域，其对于短读方法特别具有挑战性（图3）。尽管在该区域中与变体识别相关的困难，但由Seven Bridges17开发的基于Illumina图的管道在MHC中表现尤其良好（F1：0.992）。Truth Challenge V2中使用的Seven Bridges GRAF管道利用泛基因组图，该图捕获了世界各地许多人群的遗传多样性，从而产生了准确代表MHC区域高度多态性的图形参考，从而提高了读段比对和变体识别性能。MHC区域更容易用基于长读段的方法解析，因为这些方法更有可能在该高变异性区域中作图。 ONT-NanoCaller Medaka（F1：0.941）系综提交对MHC表现良好，特别是对于SNV（F1：0.992），并且是在MHC中表现良好的唯一方法，如同在SNV的所有基因组基准区域中一样。一般而言，利用长读段测序数据的提交比仅使用短读段数据的提交表现更好。对于SNV，MHC和所有基准区域之间的百分比差异大于INDEL，并且PEPPER-DV似乎在MHC中具有改进的INDEL准确性，这可能是因为MHC基准排除了所有基准区域中包括的一些困难的均聚物。比较揭盲和半盲样本的性能，揭示了某些方法可能存在过度拟合。挑战使用半盲样本主要是为了最大限度地减少变异识别方法与揭盲样本的总体过度拟合。为了评估方法过度拟合的潜在证据，我们探索了非盲态儿子（HG002）和半盲态父母（HG003和HG004）基因组之间的性能差异HG004）。作为过度拟合的度量，我们使用错误率比，定义为亲本与儿子的1-F1比（公式1），因此错误率比大于1意味着半盲亲本的错误率高于非盲儿子的错误率。这些错误率比率可能是由于多种因素的组合，包括三个基因组之间序列数据集特征的差异、基准集的差异以及参与者使用HG002进行模型训练和参数优化的差异与短读技术相比，使用PacBio或具有深度学习和其他ML方法的多种技术的调用集的错误率通常更大（图4A）。特别是，表现最好的调用者具有更高的错误率，并且所有调用者都使用PacBio或具有深度学习或随机森林ML方法的多种技术（图4B）。大多数Illumina调用集的较小错误率比率（中值1.06，范围0.98-对于仅ONT变体调用集，错误率比小于1，因为与未设盲的儿子（HG002）相比，父母具有更高的F1分数。这种违反直觉的结果可能是由父母的ONT数据集具有比儿子的（47 3）更高的覆盖率（85 3）引起的，ML模型与训练基因组（HG002）和数据集过度拟合的程度，以及任何过度拟合对变异识别准确性的影响，值得进一步研究，但也强调了透明描述训练和测试过程的重要性，包括使用哪些样本和染色体。考虑到在最佳表现的长读段调用集中更高程度的潜在过度拟合，这一点尤其正确。请注意，亲本不代表完全设盲的正交样品，因为HG 002与至少一个亲本共有变体，并且先前的基准可用于亲本基因组的较容易区域。这些结果强调了对多个基准集、测序数据集的需求，以及已建立的数据类型和变量调用管道的价值。改进的基准集和分层揭示了自2016年挑战以来测序技术和变异识别的自2016年第一届Truth Challenge以来，变异识别、测序和GIAB基准集都有了大幅改善。与用于评估第一个真理挑战的V3.2基准测试集相比，以新的V4.2基准测试集为基准测试时，真理挑战V1获胜者的SNV错误率增加了10倍（图4C）。V4.2基准集覆盖的基因组比 V3.2 多 7% （ 92% ，而 GRCh38 上的 HG002 为85%），最重要的是能够在难以映射的区域和MHC中进行稳健的性能评估。10与INDEL相比，SNV的性能差异更显著，因为整体INDEL错误率更高。尽管第一次挑战中使用的Illumina数据覆盖率更高（503），但V2挑战的几个仅Illumina提交的数据表现优于V1挑战获胜者（图4C）。这一结果凸显了Cell Genomics2，100129，2022年5月11日5会开放获取资源难以映射的区域所有基准区域MHC一病C99.9PBILL PBILL、PB、ONTONTPB ONT051015 2099提交数量B121086420901210864201210 086难以映射区域420所有基准区域基因组区域IlluminaONTMHC090F1%九十九九十九点九技术多PacBio图2.质询提交明细和性能概述(A) 按所使用的变体调用程序的技术和类型划分的挑战提交细分。深度学习方法使用卷积神经网络或递归神经网络架构来学习变量调用任务，而非深度学习方法使用广泛来自统计技术的技术（例如，贝叶斯和高斯混合模型）或其他ML技术（例如，随机森林）以基于测序数据的专家设计的特征区分变异和非变异基因座。（图例接下页）变体调用方类别非深度学习深度学习森蒂翁W罗氏测序解决方案Google Health W的基因组学团队W森蒂翁牵引力WW森蒂翁罗氏测序解决方案SentieonW旺斯蒂永七桥基因组学UCSC CGL和Google HealthWDRAGENWang GenomicsLabWWUCSC CGL和Google Health计数测序技术F1%6Cell Genomics2，100129，2022会开放获取资源表2. 挑战赛最佳选手摘要性能指标F1排名技术基因组区域参与者F1召回精度所有DiffMHC多都森蒂翁0.9990.9990.999141多都罗氏测序解决方案0.9990.9990.999117多都Google Health0.9990.9990.999124多diff罗氏测序解决方案0.9940.9920.996117多MHC森蒂翁0.9980.9980.998141Illumina所有德拉根0.9970.9960.998115Illuminadiff德拉根0.9690.9610.978115IlluminaMHC七桥基因组0.9920.9890.996691PacBio所有Google Health0.9980.9980.998124PacBiodiff森蒂翁0.9930.9910.994411PacBioMHC森蒂翁0.9950.9930.997411ONT所有UCSC CGL和Google Health0.9650.9470.984112ONTdiffUCSC CGL和Google Health0.9830.9760.988112ONTMHCWang Genomics Lab0.9720.9640.980331每个技术/基因组区域组合选出一名获奖者，在平局的情况下颁发多名获奖者。根据提交的半盲样本HG003和HG004的F1评分（组合SNV和INDEL的父母F1评分的调和平均值）选择获胜者所有三个基因组类别的总体提交排名表明提交的总体表现：所有，所有基准区域;差异，难以定位区域。平局。短读段的变体识别器性能的改进。此外，测序技术的进步已经导致甚至更高的精度，特别是在难以映射的区域。对基准测试集的改进允许更准确的变体基准测试，并且反过来促进了变体调用方法的进步，特别是基于深度学习的方法，其依赖于用于模型训练的基准测试集。更新的分层能够比较方法强度作为通过具有更新的分层的基因组背景以更详细的方式对性能进行分层的效用的示例，我们将 ONT PEPPER-DeepVariant（ONT-PDV）提交与Illumina DeepVariant（III-DV）提交进行了比较（图5）。对于SNV，ONT-PDV提交物具有与III-DV提交物相当的总体性能，分别提供99.64%和99.57%的F1，但在一些基因组背景下性能相差>100倍。III-DV SNV调用在长度短于200bp的均聚物和串联重复序列中相比之下，ONT-PDV对于片段性重复、大的tandem重复、L1 H和难以用短读段作图的其他区域始终具有更高的性能。由于ONT R9.4读数的当前较高INDEL错误率，III-DV INDEL变体调用更准确对于几乎每种基因组背景，在所有基准区域中INDEL的F1对于III-DV为99.59%，而对于ONT-PDV为72.54%。这种类型的分析可以帮助确定所需应用程序的适当方法，并了解在组合技术时如何利用技术的优势和局限性高性能的多技术提交通过利用不同技术的额外覆盖和互补优势，成功地合并了来自多种技术的讨论公共基因组学社区挑战，如此处描述的 precisionFDA TruthChallenges，为独立性能评价提供了一个公共基线，可与未来方法进行比较。重要的是要认识到在这些挑战中使用的基准的进步和局限性。例如，用于评估第一次FDA真理挑战提交的精确度的GIABV3.2 基准集仅包括基因组的较容易区域（https://precision.fda）。gov/challenges/truth/results），排除大多数片段重复和难以作图的区域，以及高度多态性的MHC。事实表明，当第一个真理挑战赛获胜者与新的V4.2基准集进行基准测试时，其中包括（B和C）总体性能（B）和提交等级（C）因技术和分层（对数标尺）而异。通常，使用多种技术（MULTI）的提交在所有三种基因组背景类别中的表现优于单一技术提交（B）评估的三个基因组分层的Fl百分比的直方图（越高越好）跨技术的提交计数由浅灰色条表示，单个技术由彩色条表示。（三）个人提交业绩。数据点代表三个分层（难以绘制区域、所有基准区域、MHC）的提交性能，线连接提交。类别最佳表现者由带有W的菱形表示，并标有团队名称。F1以phred刻度绘制，轴标签和刻度指示F1百分比值。Cell Genomics2，100129，2022年5月11日7会开放获取资源难以映射的区域SevenBridges所有基准区域PEPPER−DVINDEL图3. MHC、所有基准区域和难以标测区域F1之间F1指标的提交性能比较绘制在具有轴标签和指示F1百分比值的刻度的phred标度上。对角线黑线以上的点在MHC相关性中表现更好99对所有基准区域或难以标测的地区标记在MHC和难以映射的区域或每个子图的所有基准区域之间具有最大性能差异的提交90Seven Bridges是一个基于图形的短读变体听众 ONT 系综是 ONT 变体调用者的系综;NanoCaller 、 Clair 和Medaka 。 PEPPER-DV 是ONT PEPPER-DeepVariant单倍型感知0ML变量调用管道。999009990090 99九十九点九F1%九十九九十九点九很难用短的读数来绘制。DRAGEN这减少了作图的模糊性，因为含有群体变异的读段被吸引到观察到这些变异的特定区域Seven Bridges GRAF流水线使用基因组图参考来映射测序读段，并使用这些来考虑读段映射和图参考中的变体信息对样品进行本挑战中存在的变体调用是使用公开可用的Seven Bridges Pan-Genome GRAFReference生成的，其通过用选自公共数据库18-技术ILLUMINA MULTI ONTPACBIO图中的正则位置作为边。该图表参考包括短变量以及结构变量代表，在基因组中，性能指标降低多达10倍（图4A）。重要的是要注意，这些挑战不仅仅是比较和启发新方法，而是让研究和临床测序界了解目前在准确性方面可能的情况以及哪些方法可能适用于所考虑的实验公共社区的挑战进一步推动了方法的发展。作为这项挑战的一部分，开发、优化并提供了许多突破性的映射+变体调用管道。例如，新的实验性DRAGEN方法使用基于图形的映射和改进的统计变异调用方法来调用片段重复和其他区域中的变异，人类基因组序列多样性（图中包含多达9，500个碱基对的插入，跨越580，000个碱基对的缺失，以及跨越4，000个碱基对的核苷酸多态性）。序列变异导致更好的读段映射和变体调用结果，特别是在高度多态性区域，如4，970，558-碱基对MHC，其中图包含71，740个核苷酸多态性和10，771个INDEL。对于长读方法，针对这一挑战开发了基于ML的创新方法。PEPPER-DeepVariant使用新的方法来选择候选变体，并准确地为小变体调用基因型，尽管原始ONT读数中的错误率相对较高几种新的ML方法SevenBridgesSevenBridgesONT包围ONT包围SNVMHC F1%SNVandINDEL8Cell Genomics2，100129，2022会开放获取资源SNVINDEL难以映射的区域A B4 4变体调用方类别深度学习非深度学习2 2技术ILLUMINAMULTIONT1 1PacBioC99.99划界案D99.99九十九九十九点九F1%九十九点九九十九点九99 9990 900 0提交基准版V3.2和V4.2提交挑战版本V1 V2图4.按示例、基准测试版本和挑战进行的性能比较使用半盲父母基准与公共儿子（HG002）基准的错误率比率(A) 按错误率排名的提交。(B) 错误率比率与父代总体性能的比较（所有基准区域中的F1，如公式1中所定义）。错误率定义为1- F1。F1以phred刻度绘制，轴标签和刻度指示F1百分比值。（C和D）针对（C）不同基准集和（D）挑战的基准性能比较（C）2016年（V1）Truth Challenge针对SNV和INDEL的F1性能指标表现最佳，以V3.2基准集（用于评估第一个挑战）和V4.2基准集（用于评估第二个挑战）为基准。与V4.2基准集相比，相同变体调用的性能指标大幅下降，因为它包括更具挑战性的区域。(D)与V2提交（仅使用35X Illumina测序）相比，V1挑战顶级表现者（使用50X Illumina测序）对于组合SNV和INDEL的亲本F1评分的调和平均值以及用于评估第二次真实挑战的V4.2基准集的表现。黑色水平线表示每个分层的整体最佳执行者的性能，无论使用何种技术。对于第一次挑战，使用针对GRCh37的盲态HG 002的变体识别集来评价性能，并且对于第二次挑战，使用针对GRCh38的半盲态HG 003和HG 004的变体识别来评价性能。F1以phred刻度绘制，轴标签和刻度指示F1百分比年龄值。通过新的PacBio HiFi技术实现了高度准确的变异识别虽然不同的测序技术具有不同的优势，但来自不同技术的数据的稳健整合几份提交材料使用了新的方法来集成多种技术并利用依赖于特定技术的信息以及来自组合数据的附加覆盖，以比任何单独的技术更好地执行随着新的基准集和测序数据类型，我们使用新的基因组分层来评估所有基准区域MHC错误率比（父母/HG 002）F1%Cell Genomics2，100129，2022年5月11日9会开放获取资源99.99990099.99990099.999900909999.9909999.9ILL DeepVariant %分层类别功能区低复杂度可映射性？？困难分段重复（图例见下页）INDELL1hTR 201bp − 10kbTR 51bpMHCCDSTRandHomopHoolmopol4H−6ombpopol7−10bpchainSelfImp Homopol>10Homopol>11bpTR 201bp − 10kbL1hTR>100bpTR 51bpMHCHomopol 4−6 bp链自身Homopol 7−10bpTR和Homopol杂质均聚物>10Homopol>11bpSNVL1hlowmap其他差异TR 201bp − 10kbHomopol 4−6 bpCDschainSelf TR 51 − 200bpTR>100bpTR 51bpSegDupsMHCTR和HomopolF1SegDups > 10kbHomopol 7−10bpchainSelf>10kbImp Homopol>10Homopol>11bpL1hTR 201bp − 10kbTR 51bpchainSelfCDsHomopol 4−6 bpHomopol 7−10bpTR和HomopIomlpHomopo l>10Homopol>11bpL1hTR 201bp − 10kbCDs其他差异MHCHomopol 4−6 bpTR >100bp TR 51 − 200bp低图chainSelfSegDups > 10kbSegDuTpRs andHomopolTR 51bpchainSelf>10kb精度Homopol 7−10bp杂质均聚物>10Homopol>11bpTR 201bp − 10kbHomopol 4−6 bpL1hCDslowmapchainSelfSegDups > 10kbSegDupsTR 51 − 200bpTR>100bpTR 51bp其他差异TR和Homopol召回chainSelf >10kbMHCHomopol 7−10bp杂质均聚物>10Homopol>11bpONT PEPPER−DeepVariant %10Cell Genomics2，100129，2022会开放获取资源在不同情况下的提交绩效，突出了在特别具有挑战性的地区表现最好的方法。例如， Seven Bridges GRAF Illumina 和NanoCaller ONT提交在MHC中表现特别好，Sentieon PacBioHiFi提交在MHC和难以映射的区域中表现特别好。如果绩效没有按上下文分层，这些子任务可能会被忽略。这里提出的新的分层代表了一个宝贵的资源，社区用于评估和优化变异调用方法。通过基因组背景对性能进行分层可以在至少三个方面是有价值的：（1）评估用于不同基因组背景和变体类型的方法的优点和缺点，这例如在生物信息学方法的临床验证中是关键的;（ 2）帮助理解哪些变体不被基准评估;以及（3）帮助选择最适合于感兴趣的基因组区域的技术和生物信息学方法，例如，MHC。深度学习和机器学习具有先进的变异识别，特别是通过更快地采用新的测序技术。在这种情况下，应该小心评估过度训练，并对用于训练、调优和测试的数据保持透明基于此挑战的结果，可能至少存在一些对训练样本的过度拟合过度训练可能发生在个体（HG002）和用于训练的测序运行的属性上非ML方法也可能过拟合，因为编码和参数选择将由开发集上的性能指导。例如，使用来自长读段测序数据集的信息的短读段变体识别器可以对包括在长读段数据中的样品或群体表现更好。类似地，使用图参考的方法可以对于在构建图中使用的样本或群体执行得更好拥有明确的训练样本来源，包括多个种族和地区，这对该领域很重要。这些结果也突出了开发更多基因组多样性基准集的重要性。这一挑战刺激了针对多种技术的一系列新的生物信息学方法它提供了一个公共资源，用于捕获某个时间点的方法性能，可以与未来的方法进行比较。这些方法的新版本和新方法将继续改进这里介绍的方法。例如，在挑战之后，两个不同的参与者立即将来自一个提交的长读段的新映射方法（winnowmap）的优势与来自另一个提交的新变体调用方法（PEPPER-DeepVariant）组合，以获得改进的结果（图S6）。GIAB基准有助于实现持续的改进，GIAB/GA 4GH基准工具可以识别分层基因组背景下任何方法的优点和缺点。在这项挑战中提出的新的变异识别方法可以帮助改进未来版本的

下载后可阅读完整内容，剩余1页未读，立即下载