挑战性小变异的基准测试和挑战性医学相关基因的基因组资源

159 浏览量更新于2023-12-06 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

文章具有连锁和长读段的挑战性小变异的基准测试图形摘要亮点d瓶中基因组联盟提出了7个基因组d长读段和连接读段将基准扩展到对短读段具有d扩展的区域包括具有挑战性的医学相关基因，如PMS2d这有助于开发新技术和生物信息学方法。作者贾斯汀·瓦格纳内森·D Olson，Lindsay Harris，.放大图片作者：Andrew Carroll，Marc Salit，Justin M.Zook联系人：justin. nist.gov（J.W.），Justin. nist.gov（J.M.Z.）简言之类似于放置看起来相似的拼图，将序列映射到看起来相似的基因组区域是具有挑战性的。Wagner等描述了一种新的瓶内基因组资源，用于在更具有挑战性的基因组区域中对人类基因组测序的准确性进行基准测试。Wagner等人，2022，细胞基因组学2，1001282022年5月11日https://doi.org/10.1016/j.xgen.2022.100128会会开放获取文章具有连锁和长读段的挑战性小变异的基准测试贾斯汀·瓦格纳，1，*内森·D.奥尔森，1林赛哈里斯，1齐亚德汗，2杰西法雷克，2梅德哈特马哈茂德，2安娜斯坦科维奇，3弗拉基米尔科瓦切维奇，3刘炳吉，4尼尔米勒，4杰弗里A。罗森菲尔德，5博汉尼，6萨曼塔萨拉特，6梅勒妮基舍，6谢尔盖阿加内佐夫，6迈克尔C。沙茨，6朱塞佩纳尔齐西，7玛尔塔Byrska-Bishop，7韦恩克拉克，7乌代S。10、11、 VikasBansal、12、Peter Ebert、13、Tobias Marschall、13、Peter Lansdorp、13、Vincent Hanlon、14、Carl-Adam Mattsson、14、Alvaro Martinez Barrio、15、Ian T.Fiddes，15Chunlin Xiao，16Arkarachai Fungtammasan，17Chen-Shan Chin，17Aaron M。温格，18威廉J罗威尔，18弗里茨J。Sedlazeck，2岁安德鲁卡罗尔，19马克萨利特，20，21和贾斯汀M。祖克1，21，22，*1美国国家标准与技术研究院材料测量实验室，地址：100 Bureau Dr，MS8312，Gaithersburg，MD 20899，USA2人类基因组测序中心，贝勒医学院，1贝勒广场，休斯敦，TX 77030，美国3Seven Bridges，Omladinskih brigada 90g，11070 Belgrade，Republic of Serbia4Children5Rutgers Cancer Institute of New Jersey，新不伦瑞克，NJ，美国6美国马里兰州巴尔的摩市约翰霍普金斯大学计算机科学系7纽约基因组中心，101 Avenue of the Americas，纽约，美国8加州大学圣克鲁斯分校基因组学研究所，1156 High Street，Santa Cruz，CA，USA9计算机科学系，斯坦福大学，斯坦福，CA 94305，美国10病理学系，斯坦福大学，斯坦福，CA 94305，美国11遗传学系，斯坦福大学，斯坦福，CA 94305，美国12美国加州大学圣地亚哥分校儿科系，La Jolla，CA 9209313医学生物组学和生物信息学研究所，医学系，HeinrichHeineUniversitysityDu€sseldorf，40225Du€ sseldorf，Germany14Terry FoxLaboratory，BC Cancer Research Institute and Department of Medical Genetics，University of British Columbia，Vancouver，BCCanada1510X Genomics，Pleasanton，CA 94588，USA16国家生物技术信息中心，国家医学图书馆，国立卫生研究院，8600 Rockville Pike，Bethesda，MD 20894，USA17DNanexus，Inc.，Mountain View，CA 94040，美国18Pacific Biosciences，Menlo Park，CA 94025，USA19谷歌公司，1600 Amphitheatre Pkwy.，Mountain View，CA 94040，美国20生物计量学联合倡议，SLAC国家实验室，美国21资深作者22引线触点* 通信：justin. nist.gov（J.W.），Justin. nist.gov（J.M.Z.）https://doi.org/10.1016/j.xgen.2022.100128总结Genome in a Bottle基准被广泛用于帮助验证临床测序管道和开发变异识别和测序方法。在这里，我们使用准确的连接和长读段来扩展7个样本中的基准，以包括难以映射的区域和对短读段具有挑战性的片段重复。这些基准增加了超过300，000个SNV和50，000个插入或缺失（indels），并包括16%的外显子变异，其中许多是以前未涵盖的具有挑战性的临床相关基因，如PMS2。对于HG002，我们包括了92%的常染色体GRCh38组装，同时排除了对基准小变异有问题的区域，例如拷贝数变异，这些变异不应该出现在以前的版本中，其中包括85%的GRCh38。相对于我们之前的基准，它在短读变体调用集中识别出8倍以上的假阴性我们证明，该基准可靠地识别跨技术的假阳性和假阴性，从而实现持续的方法开发。介绍基因组测序技术的进步不断改变着生物学研究和临床诊断，基准对于确保测序结果的质量至关重要。瓶内基因组联盟（GIAB）开发了广泛的数据1和广泛使用的基准集，以评估人类基因组测序产生的变异识别的准确性。25这些基准和基准工具有助于Cell Genomics2，100128，May 11，2022 1这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。会开放获取文章2Cell Genomics2，100128，2022表1. V.3.3.2和V.4.2.1 HG002基准集参考构建基准值设定列职权SNVs插入缺失seg重复中的碱基对和低可映射性GRCh37v.3.3.2百分之八十七点八3,048,869464,46357,277,670GRCh37v.4.2.1百分之九十四点一3,353,881522,388133,848,288GRCh38v.3.3.2百分之八十五点四3,030,495475,33265,714,199GRCh38v.4.2.1百分之九十二点二3,367,208525,545145,585,710示出了针对GRCh 37和GRCh 38中的染色体1-22计算的度量技术和生物信息学方法的开发和优化，包括连接读段、6个高度准确的长读段、7个基于深度学习的变异识别器、8、9个基于图形的变异识别器、10和从头组装。11，12随着这些新技术和方法进入越来越具有挑战性的基因组区域，研究强调了许多已知的医学相关基因，这些基因被排除在这些先前的基准之外。7，13从两个单倍体水螅状痣细胞系的易错长读段的组装产生单独的合成二倍体基准，但由于长读段的高错误率，这在细胞系可用性和小插入或缺失（indel）错误方面具有限制16基因组的许多困难区域存在于片段复制和其他重复元件中。已显示连接读段具有将GIAB基准扩展68.9 Mbp至这些片段重复中的一些的潜力6最近开发了一种环状共有序列测序（CCS）方法，可以实现高度准确的10至20 kb长的读取。[7]这项技术在GIAB基准中发现了几千个可能的错误，主要是在长散布核元素（LINES）中。它还在可使用长读段映射但在基准之外的区域中具有超过40万个变体，并且它覆盖了许多难以映射的医学相关基因，这些基因具有挑战性，难以使用短读段或较低准确度的长读段进行调用GIAB最近利用这些数据为高度多态性的MHC区域产生了一个基于当地二倍体在这里，我们使用连接读段和长读段来扩展GIAB17我们更仔细地排除了 GIAB 样本 18中拷贝数变异（ CNV ）或 GRCh37 或GRCh38中缺失拷贝的片段性重复19，20，因为这些片段性重复目前无法可靠地对小变异进行基准检测。我们还改进了用于产生基于二倍体组装的MHC基准21的方法，以包括三人组的每个成员中的大部分MHC区域。我们表明，我们的基准可靠地识别假阳性（FP）和假阴性（FN）在各种短，链接和长读技术。该基准已用于precisionFDA Truth Challenge V2中开发和演示新的变异调用程序22结果新的基准涵盖了更多的参考，包括许多部分重复GIAB之前开发了一种整合方法，将来自不同测序技术和分析方法的结果结合起来，使用专家驱动的分析和映射测序读数的特征来确定每种方法应该信任的基因组位置。这种整合方法排除了所有方法可能存在系统误差的区域，先前版本（v.3.3.2）主要使用各种短读段测序技术，并排除了大多数片段重复。4我们的新HG002 v.4.2.1基准增加了长的和连接的读段，以覆盖比v.3.3.2多6%的GRCh37和GRCh38的常染色体组装碱基（表1）。每个基因组的连锁和长读段数据集的中位覆盖率见表S1。我们还将基于映射的基准替换为基于组装的基准变体和MHC中的区域21v.4.2.1增加了超过300，000个单核苷酸变体（SNV）和50，000个indel，与之相比，第3.3.2节。在STAR方法中，我们详细介绍了v.4.2.1基准的创建，包括在GIAB小变异整合管道中使用新的长读段和连接读段测序数据，并识别难以基准的区域，包括HG002中相对于参考的潜在大重复以及GRCh37或GRCh38的问题区域。通过v.4.2.1扩展的许多基准区域是片段性重复和其他短读段可映射性低的区域（图1和S1;表1）。GRCh 38在1-22号染色体上的片段重复和低定位能力区域（难以用成对的100-bp读段定位的区域）中具有270，860，615个v.4.2.1涵盖了其中的145 585710 个碱基（53.7% ），而v.3.3.2涵盖了 65 714 199个碱基（24.3%）。然而，v.4.2.1仍然排除了一些困难的区域和结构变异（SV）;在GRCh 38染色体1-22中v.4.2.1未涵盖的碱基中为了鉴定v.4.2.1相对于v.3.3.2获得和丢失基准变体的基因组区域的类型，我们比较了v.4.2.1与v.3.3.2中的变体调用，并使用v.2.0 GA 4GH/GIAB分层文件。图1B突出显示了在v.4.2.1中具有最大SNV增益和损失的分层基因组区域。Cell Genomics2，100128，2022年5月11日3文章会开放获取一无间隙基准电压源B1e+05MHC100001000低-地图关于Seg-Dups10010医学困难00 101001000100001e+05相关基因0 255075 100独特的v3.3.2 SNVv4变化v4损失v4增益包含在基准中的百分比基准v3.3.2v4.2.1Union v3.3.2和v4.2.11000 1e+06图1.新的基准集包括更多的参考基因组和更多的变体(A) HG 002 v.3.3.2和v.4.2.1中包含的所有非缺口常染色体GRCh 38碱基的基因组区域百分比;MHC;低映射性区域和节段性重复;以及159个先前描述的难以映射的医学相关基因。(B) 通过基因组背景的独特SNV的数量圆圈大小表示v.3.3.2和v.4.2.1的并集中SNV的总数对角线上方的圆圈表示新基准中SNV的净增益，对角线下方的圆圈表示新基准中SNV的净损失。与v.3.3.2相比（完整信息见表S2）。如所预期的，在片段性重复、自链、MHC区域以及难以用短读段作图的其他区域中，包含连接的和长读段导致 v.4.2.1 中比 v.3.3.2中更多的相对于v.3.3.2，v.4.2.1中串联重复序列和均聚物的增益较低，因为v.4.2.1排除了基准区域未完全包括的任何串联重复序列和均聚物。当v.3.3.2缺失重复序列中但在基准区域之外的变体时，v.3.3.2中部分包含的串联重复序列和均聚物导致基准结果中的一些错误，因此在v.4.2.1中完全排除了部分包含的除了包括更困难的区域外，v.4.2.1还纠正或排除了v.3.3.2中的错误。在以前的工作中，从PacBio HiFi调用的变体以v.3.3.2为基准，手动策划了60个SNV和indel推定的假阳性，在v.3.3.2中确定了20个可能的错误。7所有20个错误都在v.4.2.1基准测试中得到了纠正，或者从v.4.2.1基准区域。v.3.3.2中的12个错误由仅来自一种单倍型的短读段引起，因为来自另一种单倍型的读段由于LINE中的变体簇而未被映射;v.4.2.1中排除了其中2个v.3.3.2错误，v.4.2.1中正确识别了10个变体（表S3）。为了验证LINE中v.3.3.2错误识别的v.4.2.1变体，我们使用长距离PCR，然后进行Sanger测序，确认了7份样本中4个LINE中的所有274个检测变体，如STAR方法和表S4所述。新的基准包括其他具有挑战性的基因为了集中分析潜在的感兴趣的基因，我们分析了先前鉴定为具有至少一个外显子的基因的排除很难用短的读段来定位，我们称13v.4.2.1覆盖了GRCh 38中初级装配染色体1-22上难以定位的医学相关基因中10，009，480 bp3，913，104 bp的难以定位的医学相关基因位于节段性重复或低可定位性区域。的v.4.2.1基准包括2，928，012 bp（74.8%）的那些片段重复和低可映射性区域，而v.3.3.2基准包括208，882 bp（5.3%）。未来的工作将需要包括染色体1-20例如，在HG002中具有潜在重复的5个基因先前被部分包括在HG002中。v.3.3.2 但在v.4.2.1中被排除，因为需要新的方法来解析和表示重复区域中的基准变体（图2B）。医学相关基因KIR2DL1部分包含在v.3.3.2中，但现在完全排除，因为从v.4.2.1基准区域中删除了拷贝数可变KIR区域。v.4.2.1也更好地排除了基准样本中相对于参考重复的区域，特别是因为它排除了具有高于正常PacBio HiFi和/或Oxford Nanopore（ONT）覆盖率的区域（图3）。我们在表S6中详细列出了每个难以定位的医学相关基因。PMS2是一个参与DNA错配修复的医学重要基因的例子，其在V.4.2.1（85.6%）中的包含率高于在V.3.3.2（25.9%）中的HG002（图4）。PMS2中的变体识别由于假基因PMS2CL的存在而复杂化，所述假基因PMS2CL在PMS2的许多外显子中含有相同的序列并且在节段性重复内。23使用长距离PCR和Sanger测序，全分段低可映射性MHC自链L1H均聚物串联重复序列CNVs/SV独特的v4.2.1 SNV区域类型4Cell Genomics2，100128，2022会开放获取文章11019一150B100751005050250 00 25 50 75100纳入基准的基因（%）0 25 50 75 100V3.3.2纳入基准的基因（%）基准集V3.3.2 V4.2.1图2.v.4.2.1包括许多更难定位的医学相关基因(A) HG002 v.4.2.1基准区域中包含的159个常染色体难以定位的医学相关基因的每个基因百分比的累积分布。虚线表示包含超过90%的基因的数量从v.3.3.2中的19个增加到v.4.2.1中的110个。(B) 难以定位的医学相关基因在基准集中的成对比较落在虚线上的基因类似地被两个基准集包括，而虚线上方（红色填充）或下方（蓝色填充）的基因分别更多地被v.4.2.1或v.3.3.2基准集包括v.4.2.1中包含的基因多倾向于片段重复，v.3.3.2中包含的基因数量较少，大多数是相对于GRCh38在HG002中重复的基因，应排除。在7个样本中确认了PMS2中的1，516个v.4.2.1基准变异和20个其他难以定位的医学相关基因，只有PKD1中的4个和FCGR2B中的1个与Sanger不一致。这5个不一致变体似乎得到了短读段和长读段的明确支持，并且不一致Sanger结果的原因每个基因和样品的详细Sanger测序结果见表S4。与铂基因组的比较识别出v.4.2.1中更少的潜在错误Platinum Genomes鉴定了孟德尔不一致的SNV，因为在具有短读段测序（“1类”错误）的谱系中的所有17个个体中被称为杂合子[24]这些杂合呼叫中的一些来自相对于GRCh37在谱系中的所有个体中重复的区域因此，与我们的基准中的SNV匹配的第 1类SNV可以识别应该从基准区域中排除的可疑区域。 326个1类SNV匹配HG002v.4.2.1 SNV，相对于与HG002 v.3.3.2 SNV匹配的719个1类SNV有所减少。这表明v.4.2.1更好地排除了HG 002中相对于参考文献的重复，它扩展到更具挑战性的片段复制区域。然而，剩余的326个匹配SNV可能是v.4.2.1中未来改进的领域。对HG 002 v.4.2.1中匹配1类变异体的10个随机SNV进行手动管理，结果显示5个可能存在重复，可能应排除，5个位于片段重复区域，可能是短读段作图错误或片段重复中更复杂的变异（表S7）。特别是，v.4.2.1中与第1类变体匹配的变体簇似乎可能是错误。我们还将v.4.2.1HG001基准与Platinum Genomes的2017年混合短读基准进行了比较，该基准使用了正交方法，该方法基于包括17个成员谱系中预期的基因型定相的变体在GRCh37和GRCh38上，v.4.2.1和Platinum Genomes 在两个基准区域交叉点的一致性为99.96%Curation将大多数差异确定为铂基因组中可能的短读段作图偏倚，因为GRCh37上654个GIAB特异性变体中的454个和2，203个铂基因组特异性变体中的1，857个此外，相对于基于短读的Platinum Genomes基准，PMS2ADAMTSL 2DUX4KIR2DL1KIR2DL3KIR3DL1包含在基准中的基因数量> x %V4.2.1纳入基准的基因（%）Cell Genomics2，100128，2022年5月11日5文章会开放获取215 kb54，700 kb 54，720 kb 54，740 kb 54，760 kb 54，780 kb 54，800 kb 54，820 kb 54，840 kb 54，860 kb 54，880 kbv.3.3.2v4.2.1父亲式的Illumina-60x 10xGenomicsPacBio HiFi-50xONT-UL-60x图3.由于HG002中的重复，在v.4.2.1中排除了KIR基因座中的基因KIR基因座中的医学相关基因（如KIR2DL1）部分包含在v.3.3.2中，有许多错误的变体，但由于可能的重复和其他结构变异，被v.4.2.1正确排除粗蓝色条表示每个基准包括的区域，橙色和浅蓝色线分别表示纯合和杂合基准变体的位置该区域的一部分的重复在群体中很常见，这得到了所有技术中高于正常的覆盖率和高变异密度以及来自基于母系三聚体的HG 002Hifiasm组装（Hifiasm-maternal）的多个重叠群的比对的由于群体中的高变异性和拷贝数多态性以及片段性重复（阴影区域），该区域的准确表征和组装非常具有挑战性相比于Platinum Genomes区域，v.4.2.1基准区域具有显著更少的小间隙，这些小间隙在基准4时可能导致问题，使得v.4.2.1中基准区域的NG50大小比Platinum Genomes大两倍以上（图S2）。三重奏中的高孟德尔一致性为了进一步评估基准的准确性，我们评估了我们的v.4.2.1基准集的孟德尔一致性，这些基准集针对来自德系犹太人血统（HG002、HG003和HG004）和汉族血统（HG005、HG006和HG007）的GIAB的两个三人组的儿子、父亲和母亲。在德系犹太人三人组的基准区域的交叉点中，该评估确定了2，502个变异体，其基因型模式与三人组中至少一个成员的4，968，730个变异体的孟德尔遗传不一致（0.05%），略低于德系犹太人三人组的比率。v.3.3.2（4，383，371人中的2，494人或0.06%）在GRCh38上。GIAB汉族三人组的门德式不一致率低于德系犹太人三人组，v.4.2.1为821/4，601，643（0.02%），v.3.3.2为790/4，138，328（0.02%）。我们分别分析了潜在细胞系或生殖系从头突变的孟德尔不一致变体（即，儿子是杂合的，父母都是纯合参考）和具有任何其他孟德尔不一致模式的孟德尔不一致变体（不太可能具有生物学来源）。在HG 002中的2，502个违规中，1，177个SNV和284个插入缺失是潜在的从头突变，比v.3.3.2中多67个SNV和71个插入缺失。4HG005仅具有162个潜在的从头SNV和插入缺失。在对HG 002中的10个随机从头SNV进行手动检查后，10个中的10个似乎是真正的从头SNV。在人工检查10个随机的从头插入/缺失后，10个中的10个似乎是均聚物或串联重复中的真正从头插入/缺失在儿子中不是杂合的而在双亲中不是纯合参照的变异分为几类：（1）片段重复中的变异簇，其中一个变异在一个个体中被遗漏或不正确地基因分型，（2）在一个个体中被不正确地调用或基因分型的均聚物和串联重复中的复杂变异，以及（3）一些重叠变异。在三人组中正确调用的MHC中的复杂变体，4，25我们从三人组每个成员的v.4.2.1基准区域中排除了所有在儿子中不是杂合的和在双亲中不是纯合参照的保守父系的|使用局部二倍体装配和MHC外的定相，对GRCh 38上的HG 002进行母体定相，所述定相在trio分析和整合的Strand-seq和PacBio HiFi定相之间是一致的（2，449，937个杂合基准变体中的1，812，845个）。基准中排除的区域形成可靠的v.4.2.1基准的一个关键部分是确定应该从基准中排除的区域。在表2和图S3中，我们详细说明了排除的每个区域类型、区域大小和排除原因。我们描述了如何在STAR方法中定义每个区域。这些排除的区域分为几类：（1）GRCh 38中的模型化着丝粒和异染色质，因为它们是高度重复的区域，并且通常在任何个体和参考之间在结构和拷贝数(2) VDJ，其编码免疫系统组分并在B细胞中经历体细胞重组;（3）在GRCh 37中，相对于GRCh 38扩增或折叠的区域;（4）具有超过5个拷贝的片段性重复，所述拷贝长于10 kb且同一性大于99%，其中在作图和变体识别中可能存在错误（例如，由于结构或拷贝数变异导致调用旁系同源序列变体）;26，27（5）相对于GRCh 37或GRCh 38在HG 002中的潜在大重复;（6）大小和侧翼序列大于49 bp的推定插入、缺失和倒位;和（7）大于10，000bp的串联重复，其中变体在给定PacBioHiFi读段长度的情况下可能难以准确检测。作为一个例子的重要性，KIR3DL3Kir2DL3Kir2DL1Kir2DL4Kir3DL1KIR2DS4Kir3DL26Cell Genomics2，100128，2022会开放获取文章42 kb5，970 kb 5，980 kb 5，990 kb 6，000 kb 6，010 kbv4.2.1v.3.3.2Hi fiasm-paternalHi fiasm-maternalIllumina-60x10xGenomicsPacBio HiFi-50xONT-UL-60x图4.难以定位的医学相关基因PMS 2最好包含在v.4.2.1医学相关基因PMS2在v.4.2.1基准区域中占85.6%，而在v.3.3.2中占25.9%，因为在以前的基准版本中基本上排除了节段性重复（阴影区域）粗蓝色条表示每个基准包括的区域，橙色和浅蓝色线分别表示纯合和杂合基准变体的位置。该区域对于基于组装的方法是具有挑战性的，并且由于未对准或错误组装，来自基于母本trio的HG 002 Hifiasm组装（Hifiasm-母本）的额外重叠群与基因的左半部分对齐。排除可疑区域，当比较超长读段的变体与v.3.3.2时，GRCh38上HG 002中74%的推定FP落在v.4.2.1基准区域之外（表S8和S9）。其中许多位于着丝粒区域，这些区域具有非常少的基准变体，但被错误地包括在v.3.3.2基于短读段的基准中;例如，20号染色体（Chr20）。我们的新基准正确地将这些区域从基准中排除，因为它们不能被用于形成基准的短、连接或长读段自信地映射。表S10描述了从最初草案发布到v.4.2.1基准。评估和手动管理证明了基准GIAB在正式发布之前为基准草案建立了一个社区评估流程，遵循基准的可靠错误识别（RIDE）原则。3RIDE原则旨在确保在将最先进的查询调用集与基准进行比较时，至少50%的假定假阳性和假阴性是查询调用集中的错误，而不是基准中的错误。GIAB重新推荐了志愿者专家，特别是变异识别方法，以遵循GA4GH基准测试团队我们对HG002的v.4.1进行了社区评估。基于该评价，我们进行了小幅改进，以生成HG 002以及其他6个样品的v.4.2.1（表S10）。v.4.2.1是本手稿其余部分中描述的所有样本的版本。对v.4.1进行的最终评价的查询调用集代表了广泛的测序技术和生物信息学方法（表S11;STAR方法）。每个调用集开发人员都会随机选择FP和FN，以确保基准可靠地识别查询调用集中的错误总的来说，我们发现基准测试是正确的，而查询调用集在大多数FP和FN SNV中是不正确的，插入缺失（图5，所有策展在表S12中）。总体而言，v.3.3.2基准区域内的 452 个策划的 FP 和 FN SNV 和 indel 中的 433 个（96%）以及v.3.3.2基准区域外的463个中的422个（91%）被确定为在v.4.1基准中是正确的。一些技术/变体调用者，特别是使用HiFi数据的基于深度学习的变体调用者，有更多的网站不清楚基准是否正确或查询调用集是否正确。这些网站往往是在具有复杂结构变异的区域附近，或者在HG 002中出现在潜在的大重复内但在我们的CNV方法中未被鉴定的一般来说，大多数在基准测试中不明确正确和在查询中错误的地点都位于当前技术答案不明确的地区（图5B）。例如，v.4.1基准正确地排除了图S4中的大部分可疑区域，但仍然包括一些小区域，其中可能存在重复，并且基准和查询中的变体调用是可疑的。未来的工作将旨在在一小部分可疑区域中开发新的基准，但这些评估表明，新的基准可靠地识别了各种变体调用集的FP和FN，包括基于短、连接和长读段的变体调用集，以及基于映射、基于图和基于组装的变体调用集。新的基准区域针对假阴性进行了丰富我们通过比较一个示例查询调用集与HG002的新旧基准集来演示v.4.2.1的基准测试实用程序。对于标准的基于短读段的调用集（图5中的III GATK-BWA），当针对v.4.2.1进行基准标记时，缺失的SNV的数目（即使差异主要是由于低可映射性区域和节段性重复中的假阴性SNV，v.4.2.1中为15，220个，v.3.3.2中为1，381当将保守过滤的SNV计数为假阴性时，v.4.2.1检测到71，165个以上会开放获取文章Cell Genomics2，100128，2022年5月11日7表2.与HG002所有输入调用集排除的不同类型困难区域重叠的碱基对困难区域描述GRCh37中排除的碱基GRCh38中排除的碱基排除的解释模型化的着丝粒和N/A58,270,517高度重复的区域，异染色参考序列很难特征和结构可变VDJ3,482,6443,348,717一个经历躯体化重组折叠的区域17,702,248N/AGRCh37中存在已确定问题的区域，因此并从GRCh 37/38基准小变体调用通常主要装配路线不那么可靠节段性重复，>51,026,7372,094,143具有许多副本的拷贝，>99%同一性，及更长时间在参考文献中，超过10 kb哪一段复制是正确的小变量和变量可能来自结构变体，序列的额外拷贝，HG002不在参考文件中潜在增加副本21,595,77928,679,205很难确定在哪个拷贝的区域编号HG002最小的变异体可能位于在GRCh 37/38中或在额外副本HG 002中的区域;无标准代表或基准，这些区域倒位843,244893,369需要有一个小的关节，可靠性结构变量基准标杆v.0.6 GIAB第1层和第239,371,46039,560,707需要有一个小的关节，SV基准扩展了150%结构变体基准可靠基准串联重复序列>10 kb1,736,6924,486,559这些重复序列类似于或长于所有输入数据集的读取长度，使变异呼叫不太可靠该表显示了其他困难区域的渐进减法，因此在计算重叠碱基对之前，每一行都减去了它上面的所有行。在染色体1-22上的非缺口区域在v.4.2.1基准区域之外）。错误（v.4.2.1中为183，568，v.3.3.2中为112，403），与基于噪声长读取的Syndip基准相对于v.3.3.2的增加相似 16同样与Syndip相似，保守过滤前v.4.2.1（25，328）的假阳性SNV数量高于v.3.3.2（13，788）。然而，保守过滤后，v.4.2.1（1，539）的假阳性SNV数量实际上低于v.3.3.2（2，370），这可能是因为删除了v.4.2.1中的潜在结构和拷贝数变体。相对于Syndip，HG002的v.4.2.1覆盖了GRCh38中少约第一次和第二次精密度FDA挑战的结果比较（分别基于v.3.2和v.4.2）表明，扩展基准时性能发生了相似的变化;当第一次挑战的5个最佳性能与v.4.2进行基准比较时，SNV的合并假阳性和假阴性率增加了2-10倍。22v.4.2.1中包含的更具挑战性的变体和区域能够进一步优化和开发片段性重复和低可映射性区域中的变体调用程序。讨论我们提出了第一个二倍体小变异基准，该基准使用短、连锁和长读段来自信地表征广泛的基因组背景，包括非重复区域以及重复区域，如许多片段性重复、难以定位的区域、均聚物和串联重复。我们证明，该基准可靠地识别了基于传统方法，深度学习，8，9基于图的参考，10和二倍体组装的许多短读，链接和长读技术和变异调用程序中更具挑战性的区域中的假阳性和假阴性。12该基准已用于2020年举行的precisionFDA Truth Challenge V2。这项挑战集中在2016年第一次Truth Challenge中使用的v.3.2基准没有很好覆盖的困难区域，与v.3.2基准相比，第一次TruthChal-lenge的获胜者的SNV错误率在v.4.2基准下进行评估时增加了10倍。22我们设计了这个基准，以覆盖尽可能多的人类基因组与现有技术，只要基准基因组序列是结构相似的，会开放获取文章8Cell Genomics2，100128，2022一ONTClair−ngmlr PBDipcall−WHDenovo 10x paftools−Aquila ONTClair−mm2IllDragenPB GATK4 −mm2IllGATK−BWA10xLongRangerIIIDragen−VGPBDV−Duplomap IIISevenBridges GRAFPB DV−mm2PBClair−mm2SNVINDEL0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00比例离散型FN FPB50403020100不确定否是部分基准策展CIll SevenBridge GRAFPBDV−DuplomapIIIGATK−BWAPBClair−mm2IllDragen−VGIllDragenPBGATK4−mm2PBDV−mm2PBDipcall−WHDenovoONT Clair−mm210x LongRanger10xpaftools−Aquila0 2 4 6 8 10变体查询管理没有部分不确定是的图5.v.4.1基准评估的手动策展总结，证明它可靠地识别来自不同技术和变体调用者的13个调用集中的FP和FN(A) 对于每个调用集，我们策划了20个FP和20个FN，这显示了策划的FP和FN变体的比例，其中基准集是正确的，而查询调用集是不正确的。黑色虚线表示所需的多数阈值50%。其中一半来自GRCh37，另一半来自GRCh38。(B) 在手动策展期间确定的按类别的变体总数的细分，其中基准策展条指示基准变体和基因型是否被确定为正确的，并且查询策展颜色指示查询变体和基因型是否被确定为正确的。（A和B）排除在（B）之外的是（A）的变体，其中基准被认为是正确的，查询不正确，并且表明大多数这些网站都难以管理。(C) 按调用集划分的基准不确定变体。ONT，Oxford Nanopore; PB，PacBio HiFi; III，Illumina无PCR; 10 X，10 X Genomics。GRCh37或GRCh38参考。作为基于线性参考的基准，它通过使用参考信息来解析高度纯合区域和一些片段重复以及其他重复序列（其中我们的样品与参考组装体相似）而具有优于基于全局从头这种基于参考的方法使用户能够利用GA4GH基准测试团队开发的一套基准测试工具，包括复杂变体的复杂比较、标准化性能指标以及根据变体类型和基因组背景进行分层。5然而，我们的方法需要仔细排除我们的参考样本与GRCh37或GRCh38结构不同的区域，在这些地区制定基准将需要制定方法，使这些地区充满信心（例如，利用二倍体变体卡尔塞卡尔塞会开放获取文章Cell Genomics2，100128，2022年5月11日9组装）、表示这些区域中的变体的标准以及基准方法和工具。例如，对于片段重复内的变异，个体比参考具有更多的拷贝，正在积极开发方法来组装这些区域，26但没有标准来表示变异落在哪个拷贝上或如何与基准进行比较。我们预计，未来的基准将越来越多地使用高度连续的二倍体组装，以获得全方位的基因组变异。我们目前的基准有助于通过识别改善与GRCh37和GRCh38结构相似的基因组区域中的组装的机会来实现这种该研究理解任何基准的局限性都是至关重要的。由于我们当前的基准排除了结构上与GRCh37或GRCh38不同的区域，因此它不会识别基于映射的方法中的缺陷，因为它们依赖于这些参考，也不会突出不依赖于这些参考的基于组装的方法的优势。尽管我们已尝试排除样本与参考样本在结构上不同的所有区域，但仍存在一些拷贝数增加的区域和其他较大的结构变异，特别是在片段性重复中，这些区域的识别更具挑战性同样，我们也不能排除所有的倒位，特别是那些由片段性重复介导的倒位。此外，该基准仍然排除了许多大小在15至50 bp之间的indel。我们也不表征镶嵌变体，因此检测体细胞或镶嵌变体的方法可以识别基准中缺失的真实变体。虽然我们已经大大增加了我们的纳入难以映射，医学相关的基因，更多的工作仍然存在。这些基因中的许多基因由于推定的SV或拷贝数增加而被排除，未来的工作将需要了解这些是否是真正的SV或拷贝数增加，如果是，如何充分表征这些区域。这项工作中表征的基因组来自欧洲、阿什克-纳粹犹太人和中国汉族血统的个体，需要未来的基准来理解其他血统的变异基准的任何潜在差异。STAR+方法本文件的在线版本提供了详细的方法，包括以下内容：d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子系统d方法样本将10x基因组学和PacBio HiFi读取数据整合到小型变体集成管道中B使用单倍型分隔的BAMBPython集成B.基准以外的区域B特定技术Bv3.3.2与v4.2.1的比较B计算难以映射的医学相

下载后可阅读完整内容，剩余1页未读，立即下载