没有合适的资源?快使用搜索试试~ 我知道了~
资源用于体细胞结构变异检测图形摘要亮点d使用多种最新技术进行全基因组分析d可再生的C 0 L0829肿瘤-正常细胞系对d生成精心策划和验证的体细胞SV真值集d测序技术和分析软件作者何塞Espejo尼科尔?瓦莱-因克朗Besselink,Ewart de Bruijn,.,Remond J.A. 费尼曼,维加山口埃德温?库彭?克劳斯特曼通信wigardkloosterman@gmail.com(W.P.K.),e.hartwigmedicalfoundation.nl(E.C.)简言之结构变异(SV)是癌症基因组突变景观驱动肿瘤特征的一部分。由于其性质,体细胞SV的检测是复杂的和未解决的。DNA测序技术和数据分析工具发展迅速。Valle-Inclan等人描述了基于COLO829细胞系的精心策划和验证的体细胞SV真值集的生成,其可用作基准现有和新型体细胞SV检测技术的参考。Espejo Valle-Inclan等人,2022,细胞基因组学2,1001392022年6月8日-作者。https://doi.org/10.1016/j.xgen.2022.100139会会开放获取资源用于体细胞结构变异检测的多平台参考Jose Espejo Valle-Inclan,1Nicolle J.M.Besselink,1Ewart de Bruijn,2Daniel L.卡梅隆,2,3贾纳埃布勒,4约阿希姆库策拉,1斯特夫范利舒特,2托拜厄斯马歇尔,4马塞尔内伦,5彼得普里斯特利,2伊沃伦肯斯,1埃萨通用汽车公司。Roemer,6Markus J.作者:van Roosmalen,1Aaron M.温格、7鲍克·伊尔斯特拉、6雷蒙德J.A.Fijneman,8WigardP.Kloosterman,1,*和埃德温·库彭1,2,9,*1分子医学中心和Oncode研究所,UMC Utrecht,Utrecht,荷兰2Hartwig医学基金会,荷兰3生物信息学部,Walter和Eliza Hall医学研究所,墨尔本,VIC,澳大利亚4德国杜塞尔多夫HeinrichHeine大学医学院医学生物统计学和生物信息学研究所5荷兰奈梅亨,Radboud UMC人类遗传学系6荷兰阿姆斯特丹自由大学阿姆斯特丹癌症中心阿姆斯特丹UMC病理学系7Pacific Biosciences,Menlo Park,CA,USA8荷兰癌症研究所病理学系,荷兰9引线触点* 通信:wigardkloosterman@gmail.com(W.P.K.),e. hartwigmedicalfoundation.nl(E.C.)https://doi.org/10.1016/j.xgen.2022.100139总结准确检测癌症基因组中的体细胞结构变异(SV)仍然是一个具有挑战性的问题。这部分是由于缺乏高质量的黄金标准数据集,这些数据集能够对实验方法和生物信息学分析管道进行基准测试在这里,我们使用四种不同的测序技术对配对的黑色素瘤和正常淋巴母细胞样COLO 829细胞系基于多种技术的证据,结合广泛的实验验证,我们编制了一套全面的精心策划和验证的体细胞SV,包括所有SV类型。我们通过确定SV检测性能作为肿瘤纯度和序列深度的函数来证明这种资源的实用性,突出了评估这些参数在癌症基因组学项目中的重要性真实体细胞SV数据集以及基础的原始多平台测序数据是免费提供的,并且是社区体细胞基准测试工作的重要资源。介绍结构基因组变异(SV)形成癌症基因组中的主要种类的体细胞遗传变异,1,2涉及数十至数千个具有不同大小分布和模式的体细胞SV[2]虽然一些SV代表简单的缺失,但其他SV往往是复杂的,涉及相对较短的基因组间隔中的多个断点。例如,染色体断裂是在癌症基因组中经常观察到的复杂SV的一种形式,3,4由异常染色体分离或端粒功能障碍引起。5,6其他类型的复杂SV涉及由断裂-融合-桥循环引起的癌基因扩增。癌症基因组中的2、7、89,10体细胞SV产生的致癌融合基因形成癌症药物的重要靶标,并且体细胞SV可以形成免疫疗法的新抗原靶标,11证明了准确的体细胞SV检测与个性化癌症治疗的相关性。十,十二虽然经典的核型分析和荧光原位杂交(FISH)分析已在系统复制这些技术提供有限的分辨率或不允许全面的全基因组分析,因此不能解析SV事件的完整谱。我们对癌症基因组中全基因组高分辨率SV的大部分了解都源于对短读全基因组测序的分析,这是目前唯一可扩展且具有成本效益的高分辨率全基因组癌症基因组分析技术。2,13尽管短读段对于检测基因组非重复区域中的简单SV断点是有效的,但复杂重排区域的询问或低复杂性基因组区域中SV断点的检测可能需要其他测序技术或靶向方法。14例如,长插入、配对测序已被证明是用于体细胞SV的全基因组定位的有价值的策略,15、16并且单细胞模板链测序能够检测拷贝数变体和拷贝中性结构变体。17此外,长读段测序方法和连接读段方法 , 如 PacificBiosciences 、 OxfordNanopore 和 103genomics,为SV的检测提供了有希望的替代方案。最初的研究表明,长读单分子测序可以大大提高检测Cell Genomics2,100139,June 8,2022<$2022作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取资源2Cell Genomics2,100139,2022生殖系SV。18-8、22-24对癌症SV的研究的主要限制是缺乏全面的真实、全基因组的体细胞SV数据集,包括所有类型和大小的体细胞结构异常。这样的真值集可以形成用于基准测序和分析方法以及用于评估与肿瘤内异质性和肿瘤纯度相关的检测问题的资源。真值集已经为种系SV21、25或体细胞单核苷酸变体(SNV)建立。26然而,仅通过使用计算机模拟数据27、28或小鼠数据进行了对体细胞SV进行基准测试的尝试。29我们通过为C0L0829黑素瘤细胞系和配对的C0L0829BL淋巴母细胞样参照细胞系生成多平台、短读段、长读段、连接读段测序和光学图谱数据集来这些细胞系来源于男性个体,并且之前已用于建立体细胞SNV和拷贝数改变(CNA)真值集。26,30,31通过跨平台比较和广泛的验证和策展,我们在COLO 829中定义了68个体细胞SV的真值集。我们评估了该验证的SV真值集的完整性,并证明了其用于研究肿瘤纯度和测序覆盖率变化对体细胞SV调用准确性的影响。我们相信,这种体细胞SV真理集对于目前在研究和临床中进行的大规模癌症基因组测序研究的基准和质量控制具有广泛的价值。结果COLO 829肿瘤-正常黑色素瘤细胞系对的多平台全基因组分析在这项研究中,我们的目的是获得一个高质量的验证集体细胞结构变异。我们根据标准条件(STAR方法)培养COLO 829和相应的淋巴母细胞样细胞系(COLO 829BL)。将从直接从ATCC细胞系储存库获得的一个原始小瓶扩增的大批量细胞用于DNA分离和随后的基因组分析,使用五种不同的技术平台:Illumina HiSeq X Ten(ILL)、Oxford Nanopore Technologies( ONT ) 、 Pacific Biosciences ( PB ) 、 103genomics( 在Illumina NovaSeq 上 测 序 ) ( 10X ) 和 Bionano GenomicsSaphyr光学作图(BNG)(STAR Methods)。相对于参考人类基因组(GRCh37),使用对每种技术特异的比对方法(STAR方法)分析测序和光学作图数据从C0L0829样品的组合的短读段和长读段测序数据,我们获得了2353的总平均碱基覆盖度。BNG数据产生了额外的物理覆盖率2183。对于C 0 L0829 BL对照细胞系,获得了155_3的组合平均碱基覆盖率和220_3的BNG物理覆盖率(图1A;表S1)。ILL配对末端插入序列的平均物理分子长度为534 bp,ONT为11 kbp,PB为19kbp,10 X为20 kbp,BNG光学图谱为98 kbp(图1B;表S1)。为了评估每种技术在代表COLO 829癌细胞系的序列内容方面的一致性,我们确定了CNA的存在。不幸的是,没有一个单一的CNA调用程序可以检测所有技术的高分辨率CNA。尽管如此,低分辨率CNA调用揭示了每种技术的高度相似的拷贝数概况(图1C),不同数据集中拷贝数调用的相关性为0.87此外,我们将我们的拷贝数调用与先前的COLO 829的批量26和单细胞32测序中产生的那些进行了比较。批量测序和来自单细胞测序的优势簇的总体CNA景观与我们获得的非常相似(图S1B),相关性为0.99(批量)和0.97(单细胞组A)(图S1C)。然而,先前描述的亚克隆单细胞簇(D组中8号染色体的额外拷贝或1号染色体短臂中缺乏增益),这与所提出的细胞系的连续基因组进化和这些事件的亚培养特异性性质一致。最后,对我们的研究中使用的培养物的六个基因组位置的经典FISH分析证实了测序衍生的染色体拷贝数状态(图S1D)。体细胞结构变异一致真值集的生成为了构建准确和全面的体细胞SV真值集,我们使用了涉及四个测序平台(ILL、ONT、PB和10X)的组合分析方法。为了避免不同数据集中SV的命名和分类产生的不一致,我们专注于检测单个断点而不是复杂事件,最小事件大小为30 bp。我们使用了适用于每个测序数据集的最先进的SV调用工具。由于体细胞SV调用领域缺乏现有的基准和最佳实践方案,本研究旨在创建经验证的真值集,而不是对体细胞SV调用工具和测序技术进行基准测试。因此,我们尽我们所知选择最佳映射和SV调用工具(STAR方法;图2A)。SV调用参数未针对最高精度进行优化,而是针对高灵敏度进行优化,以不错过任何真实事件。因此,每种技术的个体候选调用集产生预测体细胞SV的高度可变列表,范围从ILL中的92个断点调用到ONT的6,412个,总计8,831个合并的候选体细胞SV调用(图2A)。所有四种测序方法仅发现这些体细胞SV调用中的18个,并且125个SV调用由至少两个调用集支持(图S2A)。为了对准确性进行初步评估,我们选择了88个高置信度SV候选物用于PCR验证,其基于使用集成基因组查看器(IGV)对映射读数的视觉检查。此外,我们随机选择了296个额外的SV候选物进行PCR验证。基于PCR产物的短读段和长读段测序,将这些断点中的63个标记为PCR验证(图S2B)。此外,我们决定对来自四个SV调用集的联合的所有8,831个体细胞SV调用进行单独的验证,使用Cell Genomics2,100139,2022年6月8日3会开放获取资源图1.COLO829多技术基因组数据集概述(A和B)C0L0829(蓝色)和C0L0829BL(红色)的每个技术数据集的测序深度(A)和对数标度分子分析长度(B)分布。平均值由水平黑线表示。(C) 对于每个数据集独立计算的C0L0829的拷贝数概况。基于捕获的富集方法,使用多个探针侧翼和重叠每个候选断裂连接(STAR方法)。基于富集产物的短读段测序,将114个断点标记为捕获验证(图S2B)。最后,我们使用52个BNG体细胞SV调用作为额外的验证层。总共,通过至少一种上述方法验证了137个SV调用。此外,78个SV调用未经验证,但仍得到一种以上技术的支持(图2A和S2C)。接下来,我们手动策划了这215个SV调用,这些调用要么经过验证,要么得到多种技术的支持基于对来自每个测序组和来自验证实验结果的基因组比对数据的视觉检查,我们单独评估每个SV呼叫。我们发现,48个调用是真实事件,但在种系对照中也有证据,另外99个被认为是假阳性,因为支持或参考数据在给定的基因组位置(也在独立验证数据中)非常嘈杂这可能反映了参考基因组中低置信度区域的影响,其中测序读数的明确映射由于简单的序列或重复内容而复杂化。综上所述,我们得出结论,68个SV候选者是真实的躯体事件,因此被认为是我们的真值集(图2A和S2C;表S2)。为了验证我们的手动策展方法的有效性,我们手动策展了179个随机选择的额外SV调用,这些调用由单一技术支持,并且未经验证4Cell Genomics2,100139,2022会开放获取资源图2. 生成经验证的体细胞SV真值集(A) 最先进的体细胞SV调用管道独立用于每个技术数据集。鉴定的体细胞SV候选物的数目在方框中指示。将通过不同平台获得的重叠变体调用合并,并使用靶向富集与杂交捕获探针的组合,然后进行下一代测序、PCR和Bionano基因组学进行独立验证。支持经验证的体细胞SV候选和呼叫通过更比一数据集是手动精心策划,离开一总的68体细胞SVS在的真相集(B和C)显示了真值集中的68个体细胞SV与原始SV调用集(B)和验证结果(C)之间的交叉10 X,103Genomics; BN,Bionano; ILL,Illumina HiseqX; MULT,由多个测序平台支持; ONT,Oxford Nanopore;PB,PacBio.因此被排除在候选SV策展流水线之外。所有这些SV调用要么是种系事件(63; 35%),要么是由于噪声定位数据(116; 65%)导致的假阳性(图S2D)。为了证实在我们的过滤管道中使用的200 bp的断点合并阈值并不太严格,我们使用1,000 bp作为合并阈值重新运行了过滤分析步骤,导致由两种以上技术支持的额外121个断点。我们验证了这些断点与原始过滤管道相似,并将70个分类为假阳性,51个分类为种系,导致真值集没有增加值(图S2E)。在COLO 829中编译的68个经验证的体细胞SV55个(81%)存在于两个以上的原始调用集中,包括所有技术检测到的18个SV(图2B)。此外,大多数SV通过基于捕获的富集和PCR进行验证(50; 74%)。此外,8个体细胞SV通过基于捕获的富集而不是通过PCR进行验证,并且7个体细胞SV通过PCR而不是通过基于捕获的富集进行验证。在其余三个SV中,一个通过BNG验证,两个未通过任何靶向测定验证,但得到多种技术的支持,并通过检查来自肿瘤和正常样品的原始测序数据进行手动验证(图2C)。 所得体细胞SV真值集在表S3中给出,并作为变体调用格式(VCF)文件免费我们还提供了一个GRCh38提升版本的体细胞SV真理集。C0L0829体细胞SV真值集的表征精心策划和验证的体细胞SV真值集由38个缺失、3个插入、7个重复、7个倒位和13个易位组成(图3A)。大多数缺失(24; 61%)大于10 kbp,7个小于100 bp。还有三个大于10 kbp的重复和三个反转两个肿瘤驱动基因受C0L0829中体细胞SV的影响(表S3)。首先,在FHIT中存在两个大的杂合缺失(72和141 kb),位于3号染色体上的脆性位点FRA3B,其通常受到体细胞SV的影响。2第二,在10号染色体上存在影响PTEN的纯合12-kbp缺失除2、13、17和21号染色体外,所有染色体都有断裂点(图3B). 这些染色体也不显示任何CNA事件。用gnomAD-SV、33片段重复、简单重复或来自加州大学圣克鲁兹分校(UCSC)基因组浏览器的微卫星对体细胞SV断点进行注释,未发现任何重叠。通常,SV不会作为简单的孤立事件发生,而是在单个事件中引起的复杂景观的一部分,例如,Cell Genomics2,100139,2022年6月8日5会开放获取资源图3.体细胞SV真值集的表征(A) COLO 829真值集中不同类型SV的分布,按大小箱划分。易位(BND)被指定为0 bp的大小。(B) COLO 829真值集中CNA和体细胞SV之间的相关性circos图显示拷贝数增加(绿色)和损失(红色)以及体细胞SV。预期每个拷贝数变化侧翼为SV事件。在COLO 829中存在两个复杂的断裂-融合-桥事件。(C) 第一个发生在3号染色体(蓝色),模板插入来自6号染色体(粉红色),10号染色体(绿色)和12号染色体(红色)(另请参见视频S1,了解形成该事件的拟议机制的动画)。(D) 第二个发生在15号染色体上,模板插入来自6号染色体(粉红色)和20号染色体(绿色)。断点由带有箭头的垂直线指示虚线表示两个断点之间的连接点。断裂连接处标有真值集SV ID编号(表S3)。例如,chromothripsis或由于随着时间的推移发生的一连串事件也有两个复杂的连锁体细胞SV的集群,影响三个或更多的染色体,并涉及超过五个断点连接。它们都类似于断裂-融合-桥事件,因为它们两侧是折回倒位,并显示振荡的拷贝数分布。2其中1例发生在染色体3中,并且涉及四个返折倒位,其中两个具有分别来自染色体10和12以及染色体6的模板化插入(图3C)。3号染色体的断裂点和拷贝数分布可以完全解释为断裂-融合-桥的四个循环,然后通过全基因组加倍事件进行染色单体复制。不稳定的3号染色体(由于单个染色单体中存在两个着丝粒)由未修复的双链断裂的复制启动,在最终断裂后,通过修复其中一个着丝粒达到稳定状态(视频S1)。另一个BFB事件发生在15号染色体上,包括来自6号和20号染色体的模板化插入(图3D)。这些模板化插入的供体位置不受SV事件的影响。为了评估体细胞SV真值集的完整性,我们将其与体细胞CNA调用进行比较,因为每个CNA在任一端都应该具有SV断点或端粒。我们共发现43个CNA断裂点不是染色体的端粒末端. 其中,26例(60%)与SV断点同时发生我们评估了原始基因组数据中的其余CNA(表S4)。从这些剩余的CNA中,在生殖系中存在六个拷贝数断点(14%),侧接杂合生殖系CNA事件,所述杂合生殖系CNA事件通过另一等位基因的体细胞丢失而在肿瘤中是纯合的这些CNA的SV断裂连接是种系的,因此不是真值集的一部分最后,有11个体细胞CNA断点(26%)不与SV断点同时发生这些缺失的CNA断裂点中的五个位于着丝粒区域(染色体1、4、6、14和16)中,并且可能是由于缺失涉及着丝粒的体细胞SV,这通常由于其重复性质而难以完全解析。对于另外两个缺失的CNA断裂点(染色体3和染色体9),可以在原始ILL数据集中发现断裂点,这意味着发现了SV断裂点,但是不能明确地确定SV连接配偶体。GRIDSS2注释确实揭示了3号染色体的单个6Cell Genomics2,100139,2022会开放获取资源图4.召回和精度的体细胞SV调用作为功能的肿瘤纯度和测序深度通过混合来自COLO 829和COLO 829 BL的ILL、ONT和PB数据集的数据来模拟不同的肿瘤纯度(0%、10%、20%、25%、50%、75%和100%)。(A) 对每个纯度子集独立进行体细胞SV识别,并针对COLO 829体细胞SV真值集计算召回率(左)和精确度(右)线表示独立的三次测量的中值。(B) 对于ILL数据集中的每个肿瘤纯度子集,对不同的测序深度(13、53、103、303、503和983)进行采样。体细胞SV呼叫是对于每个测序深度和肿瘤纯度子集独立地进行,并且针对COLO 829体细胞SV真值集计算召回率(左)和精确度(右)break确实映射到了其中一个着丝粒。另外四个缺失的CNA断裂点位于1号染色体中两个假定缺失的侧翼,但在任何数据集中,对于COLO 829或COLO 829BL,在这些位置均未发现SV调用。手动检查这些CNA的原始数据(图S3A和S3B)表明,这些CNA实际上可能反映杂合性种系事件,随后是杂合性缺失(LOH),如与侧翼区段相比,C0L0829BL中较低的读段覆盖所证明的。此外,一个CNA涉及一个长的散布的核元素(LINE)丰富的区域,而另一个重叠的节段性重复。接下来,我们将我们的体细胞SV真值集与Arora等人提出的体细胞SV调用进行了比较。26它们提供了两种不同的体细胞SV调用集,一种由HiSeq平台产生,具有77个体细胞SV调用,另一种由NovaSeq平台产生,具有75个体细胞SV调用。由于这些是基于GRCh38基因组坐标提供的,我们将我们的体细胞SV坐标提升到GRCh38。我们发现,HiSeq和Novaseq调用集的体细胞SV调用中分别有58个(75.34%)和59个(78.6%)与SV两侧的体细胞SV真值集重叠(图S3)。我们手动检查了来自Arora等人的20个非重叠体细胞SV调用da- taset在我们的原始ILL、ONT和PB数据中(表S5)。在长时间读取的原始数据(ONT和PB)中,20个数据中只有3个有一些支持(最多三次读取)。在ILL原始数据中,20个中有9个证据有限,只有一个或几个支持读数。在我们最初的ILL体细胞SV调用中,这9个SV调用中只有4个通过了生物信息学调用标准,但这些调用都没有通过任何其他技术调用或通过更灵敏的PCR或靶向捕获和深度测序独立验证。因此,我们认为这些候选人是技术特定的噪声,并将它们从我们的真值集中丢弃,尽管我们不能正式排除这些是以非常低的频率(样本中的1%)存在的真实变量最后,13个SV出现在我们的真值集中,而不是在Arora等人的数据集中。所有这些都是通过至少两种不同的测序技术检测到的,并得到独立验证。肿瘤纯度和测序深度对体细胞SV识别的影响为了证明COLO 829体细胞SV真值集的实用性,我们评估了肿瘤纯度对SV识别的影响,肿瘤纯度我们使用可用的原始数据集,并通过随机模拟来自C0L0829和C0L0829BL的基因组数据分别用于ILL、ONT和PB的计算机模拟混合。我们对这些混合组中的每一个以及原始肿瘤文件(100%纯度[TP 100])和正常文件(0%纯度[TP 0])独立进行SV调用。然后,我们计算了召回率(找到的真值集的百分比)和精确度(属于真值集的调用的百分比)。在使用标准设置的情况下,发现对于所有三种技术,体细胞SV召回和精确度高度依赖于肿瘤纯度(图4A)。在TP 75和TP 100时使用TP50时,召回率略微下降至90%(ILL)、52%(ONT)和61%(PB)。对于低于TP 50的纯度,召回率进一步降低至76%(ILL)、22%(ONT)和48%(PB)。在ILL的情况下,精密度遵循类似的趋势,对于大于TP 50的纯度,精密度>78%,而在TP 25中下降至63%。在ONT和PB的情况下,较高数量的假阳性严重影响准确率,可能反映了Cell Genomics2,100139,2022年6月8日7会开放获取资源用于肿瘤-正常配对样品中体细胞SV检测的平台特异性工具的成熟度水平,但也为进一步的分析参数和工具优化提供了机会。测序深度是肿瘤测序项目中要考虑的另一个重要参数,因为它代表了变异检测灵敏度和成本之间的权衡决定。为了研究体细胞SV检测中测序深度与肿瘤纯度的组合的影响,我们从每个模拟的ILL肿瘤纯度(98× 3覆盖度)中取一式三份,并将它们二次取样至50× 3、30× 3、10× 3、5× 3和1× 3深度。我们再次使用相同的标准管道对这些模拟组中的每一个进行体细胞SV调用,并计算召回率和精确度(图4B)。我们观察到,对于50- 3和98- 3的深度和肿瘤纯度超过50%,召回率超过82%。在983例中,即使在TP 20时,也获得了71%的召回率,而对于503例,在TP 25时,召回率下降到42%。为在TP 100时,召回率为84%,但在TP 50时,召回率下降至54%,在TP 25时,召回率进一步下降至10%。对于较低的覆盖率,召回率较低。令人惊讶的是,303和503的深度在所有肿瘤纯度下具有比983更高的精度,在TP 50上精度约为95%,而983的精度约为70%。虽然这在理论上可以通过亚克隆SV的存在来解释,所述亚克隆SV不包括在真值集中,但在较高的测序深度下变得可检测,这也可能是由于在较高的测序深度下增加的测量噪声引起的随机效应引起的,这增加了假阳性的数量,因此降低了精确度(尽管召回不受影响)。另一种可能的解释是,SV检测工具已经使用约30 μ 3的测序深度开发和优化,因此在这些深度下功能更好,需要优化参数以在不同测序深度下实现最佳性能。分析工具和设置的进一步优化以及更深入的测序可以解决这些问题。根据COLO829真值集进行基准测试为了帮助使用所描述的COLO 829真值集进行未来的基准测试,我们开发了一个脚本来直接将SV与此基准测试或其他未来的基准测试进行比较。此脚本比较断点解析处的SV,以生成精确度和召回率图。为了证明其使用,我们将用于开发真值集的ILL、ONT和PB调用与提交本工作时可用的SV变体调用工具的最新版本进行了比较(图S4)。我们观察到PBSV更新版本的召回率有所改善。GRIDSS的精度下降可能是由于原始GRIDSS文件的不同手动预处理,在更新版本中被自动过滤取代。令人惊讶的是,在Sniffles的更新版本中可以观察到召回率的下降,同时保持低精度。 我们没有进一步详细分析这些变化的原因,因为这超出了当前工作的范围,但所提出的框架确实允许生物信息学工具和参数优化的通用方法。我们在更新的数据包中包含了每种技术的更新VCF文件。任何其他具有自己的VCF文件的基准测试都可以使用R脚本和我们的COLO829或其他未来的真值集来执行。讨论我们通过建立在不同测序技术的优势上,产生了精心策划和验证的体细胞SV真值集。结果和大规模独立验证策略的生物信息学整合被证明是减少获得的大量候选事件的有力方法。然而,原始测序数据的人工管理和检查对于排除测序或作图假象和剩余的种系事件至关重要因此,这些体细胞假阳性是种系假阴性,并且可能包括在初始体细胞SV调用中,这是由于与肿瘤相比,对照样品的测序分析深度较低(通常低3倍)以及特定的局部基因组特征(例如,由于例如局部GC含量或涉及低复杂度序列而导致的较低平均覆盖度34虽然基于68个真值集的体细胞SV重建衍生的染色体肿瘤基因组拓扑结构导致大多数衍生的染色体具有单个着丝粒和两个端粒的总体稳定的基因组构型,但一些断点连接仍然明显缺失。这一点得到了以下事实的证实:并非所有CNA的断点连接都在两端鉴定。我们的研究结果表明,这些缺失事件通常涉及不能通过任何现有测序技术直接访问的着丝粒区域。由GRIDSS2 SV调用器35提供的注释数据表明3号染色体中的单个断裂末端与1号染色体中的着丝粒之间的连接,其显示拷贝数变化。很可能,由于着丝粒区域的重复性质,这不能直接解决。当排除可能涉及着丝粒的缺失事件时,有两个拷贝数异常仍然无法通过真值集解释,这为基于现有或待生成的数据的进一步改进提供了空间。当然,我们不能正式排除由于当前测序和数据分析方法的限制,例如由于着丝粒、端粒或其他复制元件的不可接近性,从我们的真值集中缺失更多事件。因此,我们建议后续prom- ising新的候选人出现在未来的基准研究,正交验证,以进一步改善当前的真值集。本研究并非旨在比较测序平台或数据分析管道的性能,因为该基准测试需要最新的平台、化学品和管道版本才能有用。然而,可以提出一些有趣的意见。首先,在全面识别所有真实事件的各种平台之间存在明显的互补性。然而,对于不同的平台,体细胞SV检测的生物信息学管道显然仍然处于不同的阶段,最常用的基于Illumina的方法产生的假阳性数量最低。例如,肿瘤和正常测序数据中的联合调用然而,这种方法仅适用于Illumina数据集,因为其他数据集还不存在体细胞特异性调用程序或协议。我们相信,在真值变异调用数据集的帮助下,8Cell Genomics2,100139,2022会开放获取资源基于大量样本的平台特异性种系和伪影过滤数据集(“正常库”)的开发将有效地解决这一挑战。其次,数据分析管道为同一事件产生不同的注释。这需要进一步标准化的变异注释和命名,虽然一些观察到的差异是固有的使用短和长读技术。例如,长模板化插入可以被短读段SV调用者称为两个独立的易位,而基于长读段的技术将容易地将其检测为插入。第三,尽管先前的研究显示长读段对于种系事件的SV检测的附加值,但我们的体细胞SV真值集几乎全部用ILL短读段数据集解析很可能,这主要是由于为短读取数据而不是长读取数据开发的更先进的体细胞SV调用管道,如先前所讨论的。然而,这一观察结果也可以用种系和体细胞SV之间的根本差异来解释,例如整个基因组的总体分布,重复区域的参与以及此类事件的总数随着体细胞和生殖系SV识别方法的进一步除了我们的真值集提供的基准机会外,与真实肿瘤样品相比,COLO 829细胞系具有可再生来源的优势。因此,它可以用于评估未来平台开发的影响或通过从相同细胞系生成新数据集来进行体细胞突变检测的然而,尽管COLO 829细胞系代表了在癌症中观察到的SV,包括小和大的CNA(包括非整倍性)以及简单和复杂的SV事件,但它不一定代表真实肿瘤样品的所有方面。首先,肿瘤样品通常不仅由肿瘤细胞组成,而是肿瘤和正常细胞的混合物(例如,基质细胞和浸润性免疫细胞)。我们表明,在这项研究中获得的原始数据可以有效地用于模拟可变的肿瘤纯度和真值集是有助于评估在可变的肿瘤纯度的生物信息学数据分析工具的性能。正如预期的那样,我们的结果表明,召回率和精确度在很大程度上取决于所有平台的肿瘤纯度。其次,肿瘤持续进化,并且通常是遗传异质性的,尤其是原发性肿瘤,涉及潜在的亚克隆SV事件。虽然COLO 829细胞系在基因组水平上相对稳定,但它具有一定水平的遗传异质性,并且像任何细胞系一样在整个培养过程中经历突变积累和进化。这种变化是动态的,并且在细胞系分离株之间可能不同,如已经通过对该细胞系的各种研究所证明的,31,32,因此限制了如本文所述获得的单个定义的真值集的效用。因此,应独立验证我们当前真值集中不存在的新型体细胞SV,特别是当使用来自COLO 829细胞系的不同批次细胞生成数据时。最后,肿瘤通常在特定肿瘤类型的背景下但尤其是在肿瘤类型之间是非常异质的。例如,微卫星不稳定(MSI)肿瘤显示大量的小插入缺失,36个同源重组缺陷,(HRD)肿瘤存在许多具有微同源性和大重复的缺失,37并且儿科血液学癌症通常显示非常低的突变负荷但体细胞SV水平提高,尽管通常涉及特异性但复杂的基因组基因座(例如,免疫球蛋白H [IgH]基因座)。有效捕获这种异质性的特异性或可能在给定肿瘤样品中共同发生的特定基因组事件(例如,全基因组复制或染色体断裂)对特定测序技术或数据分析工具的总体性能因此,应谨慎使用COLO 829真值集,分析具有匹配正常细胞系的其他癌细胞系然而,代表癌症的全部遗传多样性的合适细胞系理想地,人们将因此求助于彻底分析的真实肿瘤样品,即使在实践中,用于多实验室和多技术分析的足够材料的可用性可能是有问题的,并且患者材料和数据的共享和再利用可能需要复杂的同意和法律程序。使用合成样品也可以是一种补充方法,40尽管其在模拟复杂结构变异方面的效用仍有待证明,并且当人们想要基准化的测序技术需要输入高分子量分子时,可能会出现技术挑战综上所述,我们相信这里描述的SV真值集以及基础原始数据是用于体细胞SV调用工具的基准测试和微调分析设置的有价值的资源,但是数据也可以用于开发新的分析工具,例如,结构变体的定相。所有分析结果和原始数据均可公开获得,以实现此类应用,而无需访问限制(ENA:PRJEB 27698;可用数据和特定访问链接的概述见表S6)。我们通过分析肿瘤纯度和测序深度对不同技术的SV召回率和精确度的影响来证明这种效用,从而为技术平台选择和实验设计对诊断准确性和总体成本的潜在影响提供有价值的见解。此外,这些结果强调了在不同肿瘤纯度和测序深度而不是在单一固定条件下对体细胞SV检测方法进行基准测试的需要,因为这些参数在群组内和群组之间高度可变,并且可能导致强烈的性能变化。该研究在这项研究中,我们使用了不同的测序技术,并分析了肿瘤细胞系基因组的变量,但有限的深度。因此,频率低于5%的亚克隆事件可能在我们的分析中遗漏。对于只能用特定技术检测的事件,并且对于其测序覆盖范围仅在303至503(PB和10 X)的事件,这种影响可能更大。另外我们Cell Genomics2,100139,2022年6月8日9会开放获取资源对肿瘤样品测序到比生殖系对照样品更高的深度,这是补偿可变肿瘤纯度和异质性的常规做法,但是已经显示体细胞变体识别的性能受到测试和参考样品的不平衡覆盖的影响。然而,需要证明这种效应是否也存在于结构变异识别和所使用的变异识别工具中。最后,应该注意的是,结构变体调用集是手动策划的。尽管所有真实事件都经过了独立验证,但策展可能错误地删除了真实变体。STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子模型d方法和步骤B每种技术的B深度和分子长度计算B拷贝数分析B验证BSV选择管道B提升至GRCh38B与外部来源B肿瘤纯度和测序深度分析B对照COLO 829真值集进行基准测试d量化和统计分析补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2022.100139。致谢我们感谢Pacific Biosciences和BioNano对生成和分析数据的友好支持。J.E.V.I.由Gieskes Strijbis基金会(1816199)支持。这项工作是作为欧盟资助的Horizon2020 EUCANcan项目的一部分进行的(资助给E.C.)以及由NWO资助的荷兰X-omics倡议,项目184.034.019。作者贡献概念化,J. E. V. -一、B.Y.,肯尼迪空军,W.P.K. E. C.; 调查,J.E.V.一、N.J.M.B.,E.D.B. M.N.,和I.R.;形式分析,J. E. V. -一、D.L.C.,J.E., J.K., S.v.L., 汤姆, P.P., M.J.v.R., 和A.M.W. 验证,N.J.M.B.,IR,M.G.M. R 和M.J.V.R.;可视化,J. E. V. -一、写作J.E.V.一、W.P.K. E. C.; 写作-I. E. C.; 监督,W.P.K.E. C.; 融资收购,E.C.和W.P.K.申报利益A.M.W.是太平洋生物科学公司的员工和股东。W.P. K是Cyclomics B.V.的员工和股东。投稿时间:2020修订日期:2021受理时间:2022发布时间:2022引用1. 杨湖,Luquette,L.J.,Gehlenborg,N.,Xi,R.,Haseley,P.S.,谢正辉,张,C.,Ren,X.,Protopopov,A.,钦湖,等人(2014年)。人类癌 症 基 因 组 中 体 细 胞 结 构 变 异 的 不 同 机 制 157 号 牢 房 1736 号https://doi.org/10.1016/j.cell.2014.05.020网站。2. 李 , Y. , 罗 伯 茨 , 北 达 科 他 州 , 瓦 拉 , J.A. , Shapira , O. ,Schumacher , S. E. , Kumar , K. , Khurana , E. , Waszak , S. ,Korbel,J.O.,哈伯,J.E.,等人(2020年)。人类癌症基因组中的体细胞 结 构 变 异 模 式 Nature578 , 112-121. https://doi.org/10.1038/s41586-019-1913-9网站。3. Kloosterman,W.P.,Koster,J.,和Molenaar,J.J.(2014年)。癌症基因组中染色体断裂的患病率和临床意义Curr. Opin. 在第26栏,64-72页。https://doi.org/10.1097/cco.0000000000000038网站。4. 科尔特-奇里亚诺岛李,J.J.K.,Xi,R.,Jain,D.,Jung,Y.L.,杨湖,Gorde- nin,D.,Klimczak,L.J.,Zhang,C.Z.,Pellman,D.S.,和PCAWG结构变化工作组;和Park,P. J.;PCAWG联盟(2020年)。使用全基因组测序对2,658例人类癌症中的染色体断裂进行综合分析Nat.Gene
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功