没有合适的资源?快使用搜索试试~ 我知道了~
技术通过结构变异和拷贝数的图形摘要亮点dLINX是对肿瘤中的体细胞结构变异进行分类的算法d链接,聚类和可视化提供了对复杂重排的dLINX预测多种致病性重排,包括链式融合d纯合子破坏是肿瘤作者作者:Daniel L. Cameron,JonathanBaber,.安东尼·TPapenfuss,EdwinCuppen,Peter Priestley对应p. hartwigmedicalfoundation.nl简言之Shale等人提出了一个大型癌症基因组队列中体细胞结构变异的综合分析。他们开发了一种算法LINX,揭示了对复杂基因组事件的见解,并展示了全基因组测序在检测各种临床相关基因融合和破坏中的实用性。Shale等人,2022,细胞基因组学2,1001122022年4月13日-作者。https://doi.org/10.1016/j.xgen.2022.100112会会开放获取技术通过结构变异和拷贝数的综合分析解读癌症查尔斯页岩,1,2丹尼尔L。卡梅隆,1,3,4乔纳森巴贝尔,1,2玛丽黄,5,6马克J。Cowley,5,6Anthony T.帕彭弗斯,3,4,7,8埃德温·库彭,2,9和彼得·普里斯特利1,2,10,*1Hartwig Medical Foundation Australia,Sydney,NSW,Australia2Hartwig Medical Foundation,Science Park 408,Amsterdam,the Netherlands3生物信息学部,Walter和Eliza Hall医学研究所,Parkville,VIC,澳大利亚4澳大利亚维多利亚州墨尔本市墨尔本大学医学生物学系5澳大利亚新南威尔士州肯辛顿市悉尼新南威尔士大学洛伊癌症中心儿童8Peter MacCallum爵士肿瘤学系,墨尔本大学,澳大利亚9Center for Molecular Medicine and Oncode Institute,University Medical Center Utrecht,Heidelberglaan 100,Utrecht,the Netherlands10引线触点* 通讯:p.hartwigmedicalfoundation.nlhttps://doi.org/10.1016/j.xgen.2022.100112总结复杂的体细胞基因组重排和拷贝数改变是几乎所有癌症的标志我们已经开发了一种算法LINX,以帮助解释来自短读全基因组测序的结构变异和拷贝数数据。LINX将原始结构变异识别分类为不同的事件,并预测它们对衍生染色体的局部结构的影响以及对受影响基因的功能可视化有助于进一步研究复杂的重排。LINX允许洞察各种各样的结构变异事件,并且可以可靠地检测致病性重排,包括基因融合、免疫球蛋白增强子重排、基因内缺失和重复。独特的是,LINX还预测链式融合,我们证明占临床相关致癌融合的13%。LINX还报道了一类失活事件,我们称之为纯合破坏,这可能是高达9%的肿瘤中的驱动突变,并且可能经常影响PTEN,TP53和RB1。介绍体细胞结构变异(SV)和相关的拷贝数改变(CNA)是肿瘤发生的关键机制1然而,癌症中基因组重排的驱动机制和后果都不如点突变事件那么好理解。这是由于全面SV分析所需的全基因组测序(WGS)数据相对缺乏,以及基因组重排具有显著多样性的事实。许多重排涉及高度的复杂性,单个事件导致多个甚至数百个断裂。对这些高度重排的基因组的解释是具有挑战性的,但同时与鉴定可能作为生物标志物或可药用靶标的驱动事件高度相关。LINX是一个SV解释工具,它整合了来自WGS数据的CNA和这样做的动机是双重的:首先,从生物学的角度来看,允许更好地了解肿瘤发生中重排的不同机制,其次,从临床的角度来看,允许预测结构重排的功能影响,包括基因融合和破坏。多个先前已经开发了工具来分析某些重排事件类型在肿瘤发生中的作用,例如染色体断裂、2染色体断裂、4长散布核元件(LINE)插入、5和扩增机制。[6]聚类方法以前也被用来提出结构重排的特征。1,7LINX不仅整合了这些先前工具中的每一个的功能,还通过对每个肿瘤基因组中的所有重排类别进行分类,并通过预测衍生染色体的局部链式结构以及重排在单个应用中的功能影响来结果LINX算法LINX的输入是来自先前描述的工具PURPLE8和GRIDSS的碱基对一致的分段拷贝数和SV调用集。9碱基对一致性意味着基因组中的每一个拷贝数变化都与SV连接点精确匹配,当伴侣位置已知时,SV连接点表示为断点,或者当伴侣位置不能明确确定时,SV连接点表示为单个断点。Cell Genomics2,100112,April 13,2022?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取技术2细胞基因组学2,100112,2022图1. LINX原理图和可视化(A) LINX算法分四步工作,即注释、聚类、链接和确定整合拷贝数的功能影响。左侧的Circos代表LINX的输入,并显示了影响两条染色体(绿色和蓝色的外轨道)的三种结构变体(紫色线),其具有一致的拷贝数断点(中间轨道显示绿色表示增益,红色表示损失).右侧的Circos显示了LINX的示例输出,包括将变体链接到两个连续的预测衍生染色体(棕色和紫色的线)和两个预测染色体之一上的典型TMPRSS2_ERG融合体(在第二个外圆上以蓝色和浅棕色描绘的基因,融合的外显子显示较暗的阴影)。(B) 生成的可视化的详细指南在LINXLINX算法中有四个关键步骤(图1;方法S1)。首先,LINX用对聚类和链接算法很重要的几个基本几何和基因组属性来注释每个断点和中断端。这包括每个断裂端是否是返折倒位的一部分,是否位于杂合性缺失(LOH)区域的侧翼,或者是否位于众所周知的脆性位点区域。8,10LINX还基于局部断点结构和多聚腺苷酸序列插入的信号注释公知的线元件源位置5其次,LINX执行聚类例程,将原始结构变体分组为不同的重排“事件”。LINX将重排事件定义为可能在时间上提前发生并将基因组从一种稳定构型转化为另一种稳定构型的一个或多个连接。事件的范围可以从简单的缺失或串联重复到复杂的事件,包括染色体断裂或断裂融合桥11级联。LINX中聚类的基本原则是在断点不太可能独立出现的地方连接断点。LINX在其聚类例程中采用一组11条独立规则,而不是单一规则,例如仅基于接近度12或形成“删除桥”的变体将变体聚类为事件这些包括非常接近(断裂末端之间5 kb)的聚类变体;一起界定LOH事件、纯合缺失或高主要等位基因拷贝数区域的聚类断裂末端;在两端共享共同臂的聚类易位;彼此直接重叠的聚类倒位、长缺失和长串联重复变体;以及在相同染色体上发生的所有折返倒位的聚类一些手臂。第三,在将所有变体解析成聚类之后,LINX通过链接算法预测衍生染色体结构为此,LINX考虑每个簇内每个染色体臂上的所有facing断裂端对,并迭代地优先考虑哪一对最有可能连接。链式逻辑在每个染色体上的所有点处施加等位基因折返反转也明确建模,以允许可变连接拷贝数和高扩增的簇的链接。总的来说,连锁优先化方案被设计成是容错的,并且旨在最大化每个单独的断裂端与衍生染色体上的下一个断裂端正确连接然而,由于多个可能的路径,上游来源的错误,和丢失的信息,预测是代表性的,只有,在高度复杂的集群的情况下,不太可能是正确的所有中断连接。LINX的第四步也是最后一步是注释SV连接的基因重叠或在Ensembl转录物13的上游区域中的任何断裂末端用其相对于基因链和最近的剪接受体或供体的位置和方向注释。通过在预测的衍生染色体上搜索正确定向的剪接受体和供体对来调用基因融合,包括可能跨越多个断裂连接的链式融合。14为了满足融合识别标准,断裂端还必须连接到每个基因中的可行环境,并且不被链中50或30配偶体末端上的其他断裂端终止(方法S1)。由于复杂的重排可能导致许多候选基因融合,LINX通过提供已知致病性融合基因对以及已知混杂的5 ′和3 ′融合基因配偶体的策划列表来简化临床解释,并将匹配的融合标记为可报告的。最后,LINX还将PURPLE在一组众所周知的癌症基因(表S1)8中调用的扩增、缺失和LOH驱动因子与特定SV簇匹配,并调用肿瘤抑制基因中的额外破坏驱动因子事件。一B细胞基因组学2,100112,2022年4月13日3会开放获取技术图2. 基因组重排景观(A) 上图显示了一个冲积图,描绘了每种原始结构变体类型(DEL,缺失; DUP,复制; INV,倒位;TRL,易位)与LINX分类的比例分配。LINX分类在左下图中的相对条形图中按肿瘤类型进一步细分右下图显示了按肿瘤类型分组的每个样品的结构变体数量的分布,黑点表示中值。(B) 简单重排和复杂簇(包含三个或更多变体)的概念性缺失、重复和非折返倒置的长度分布。请注意,折返反转具有不同的长度分布,并在图S4C中单独显示。(C) 每个样品的复杂簇中的缺失和重复计数与内型相比都严格遵循1:2的比率(由虚线表示),正如灾难性事件后的随机重排所预期的那样。(D) 每个样本的简单缺失和重复计数与复杂聚类中的缺失和重复计数不相关。另见图S4和表S3。基因组重排的泛癌症景观为了证明LINX的功能性,我们在来自Hartwig医学基金会的4,358个配对的肿瘤正常的全基因组测序的成人转移性癌症样本的泛癌症组群(pan cancer cohort)(配对末端测序覆盖率的中位数 分 别 为 1063 和 383 ) 上 运 行 LINX ( 称 为 Hartwig 组 群 ; 表S2)。在这些样品中,1,924个具有匹配的全转录组测序数据,其用于适当的正交验证。总体而言,我们发现每个样本平均有324个重排连接,其中食管(平均值= 753)和胃(平均值=647)肿瘤的重排连接率最高,甲状腺(平均值= 102)和神经内分泌(平均值= 109)肿瘤的重排连接率最低(图2A;表S3)。LINX的事件分类突出了重排机制的多样性和肿瘤类型特异性[1]我们详细检查了这些事件分类,如下所示。简单和复杂重排事件的分类LINX中事件类型的分类可以大大简化癌症基因组的解释。一个重要的用例是区分由导致缺失和重复的单个中断驱动的简单事件(图S1)与SV调用者概念上称为缺失和重复但可能是更复杂事件的一部分的变体干净的基因突变图谱-重复缺失和重复对于下游应用如特征分析1是重要的,特别同源重组(HR)缺陷分类,15,16,其与短缺失和串联重复两者相关,并且可能与癌症治疗相关在Hartwig队列中,我们发现归类为简单事件的缺失和重复的长度明显短于复杂事件中聚集的那些(图2B)。此外,简单的缺失和重复显示出明显的特征性长度峰,这些特征性长度峰先前已被证明与BRCA 1、BRCA 2和CDK 12失活或CCNE1扩增相关,17以及我们最近发现的与结直肠肿瘤相关的短DUP特征。9另一方面,复杂事件中涉及的缺失和重复具有与复杂事件中聚集的倒位非常相似的长度分布。我们还发现,复杂事件中缺失、重复和倒位的每个样本计数紧密遵循1:1:2的比率,正如灾难性事件后随机重排所预期的那样(图2C)。然而,每个样品的简单缺失和重复连接的计数仅与被归类为复杂事件的一部分的缺失或重复的计数非常弱地正相关(缺失r = 0.156;重复r = 0.13;图2D)。总之,这些观察结果表明LINX能够准确区分简单和复杂的重排。LINX使用解析类型注释涉及两个中断连接点(进一步称为两个中断连接点事件)的每个集群,其中它们可以一致地链接(图S2),或者4细胞基因组学2,100112,2022会开放获取技术衍生染色体(图S3)。一致的两次中断连接簇分为两大类-相互事件(例如,相互倒位或易位)或在链或环中具有模板序列插入的事件。1我们观察到具有插入序列的两个断裂连接事件经常涉及长度为1 kb的非常短的模板化序列,称为基因组碎片可能混淆其他简单变异类型的分类,因为来自另一条染色体的短模板插入在概念上表现为两个易位,并且很容易被误解为相互易位或更复杂的事件。LINX将可被解析为具有一个或多个插入碎片的简单缺失、串联重复或易位事件的事件分类为为了支持这一假设,我们发现具有高计数的简单缺失和重复的样品分别具有显著更高的合成缺失和重复计数(两者均为p13 10- 60)(图S4 A和S4 B),此外,我们观察到合成缺失和重复的长度与简单缺失和重复的相应长度高度一致(图S4C)。合成删除和复制事件可以有许多不同的断点拓扑重排,这取决于插入碎片的来源和方向(图S1)。基因组碎片的插入绝不是简单缺失和重复事件所独有的,因为我们还在更复杂事件(包括折返倒位和染色体断裂事件)的断裂中看到频繁的短模板插入序列。合成返送反转也显示出与简单返送相同的长度分布(图S4C)。双向事件是另一种主要的两断点连接事件。这些由多个并行双链断裂的交换引起,如果两个断裂都发生在单个染色体上,则形成相互倒位(其中两个断裂之间的区段被修复为倒位),或者如果修复是染色体间的,则形成相互易位。虽然在Hartwig队列中65%的样本中发现了相互倒位和易位,但它们与癌症中的其他事件相关,分别占所有聚类的0.8%和0.5%。除了这些经典的相互事件之外,我们还发现了涉及两个断裂连接的相互事件的其他配置(图S2)。我们称之为“相互复制”的一种突出在具有强串联重复 特 征 的 样 品 中 , 相互 重 复 显 著 富 集 ( p 13 10- 60) ( 图S4E)。此外,相互重复的长度分布与具有已知引起串联重复表型的驱动因子的样品的特征的长度分布相匹配,即,BRCA1、CCNE1或CDK12驱动程序(图S4F)。这表明,这些相互复制事件可能源于形成串联复制事件的同一过程,可能是当多个串联复制事件发生时,DEM复制在一个细胞中同时发生,它们可能交叉并产生相互复制,而不是局部修复。这一观察结果限制了串联重复可能形成的机制,因为它需要在断裂之前在两个基因座上都进行DNA复制,并且与复制重启-旁路模型一致,19但与微同源介导的断裂诱导复制模型不一致。LINE的体细胞整合是许多类型的癌症,特别是食道癌和头颈癌的共同特征LINE插入可以涉及完整或部分LINE源元件的转座或LINE元件下游5kb内的配对或孤立基因组区域的转导。虽然LINE插入通常是自身的简单事件,但这些断裂连接的正确分类对于准确解释基因组是重要的,因为它们可能被误认为易位和其他复杂事件。LINE整合可能难以用短读段技术解决,因为插入的序列在基因组中通常不是唯一可映射的,并且通常包括Poly-A尾,21使得组装困难。LINX通过利用GRIDSS的单一断裂端调用能力9来识别具有重复LINE序列、PolyA序列或已知的循环活性LINE源元件列表的断裂端证据的LINE插入位点,从而规避了这两个问题为了验证LINX对移动元件插入的检测,我们对来自全基因组泛癌症分析(PCAWG)泛癌症队列的75个样本运行LINX,并将LINX的LINE插入调用与来自TraFiC-PCR的那些进行比较。5总体而言,TraFiC-TBI检测到了564个LINX LINE插入调用中的339个(60%),TraFiC-TBI调用了LINX未发现的另外270个插入。在每个样品的基础上,总LINE插入计数的一致性非常强(图S5A;表S4),在高LINE突变负荷样品中发现了两个管道中的大多数私有调用(图S5B),表明来自两个管道的许多私有调用可能是真正的LINE插入。在整个Hartwig队列中,LINX发现76%的肿瘤至少有一次LINE插入事件。一些肿瘤受到极端的失调,6.7%的肿瘤具有超过100个插入,并且在单个食管肿瘤样品中发现2,241个插入(图3A和 3B ) 。 Hartwig 队 列 中 最 常 插 入 的 5 个 LINE 源 元 素 均 在PCAWG泛癌症队列中先前报告的前6个元素中:5chr 22:29,059,272115,566,440和chr 6:29,920,213 - 29,920,223。对这五个位点处的精确断裂末端位置的分析揭示了高度重复的位点特异性转导模式(图3C和S5C),其中转导序列的30通常来源于少数特定的下游位点(可能是LINE源元件的可选择的转录终点的多聚腺苷酸化序列),而转导的50侧的位置似乎是相对随机分布的。在LINE插入位点,准确的断裂点测定也可以深入了解潜在的生物学机制。 LINX发现频繁的目标站点重复22,但有趣的是,细胞基因组学2,100112,2022年4月13日5会开放获取技术图3.移动元件插入(A) 显示按肿瘤类型分组的每个样品的LINE插入数量分布的小提琴图黑点表示每种肿瘤类型的中值(B) HMF002232B(一种结直肠癌)中的复杂LINE簇来自chr14:59.2M的LINE源元件的重叠片段已插入到分散在整个基因组中的至少20个独立位置中。(C) 直方图显示了Hartwig群组中源自五个最活跃LINE源元件的所有移动元件转导相对于LINE源元件的最后一个碱基的断裂端位置的频率(D) 非小细胞肺癌HMF 002165 A中GLE 1假基因插入5号染色体上的重叠断裂连接处GLE1典型转录本的所有16个外显子都被插入,但第一个和最后一个外显子的部分丢失。(E) 具有大量LINE插入的样品也具有大量假基因插入。另见图S5和表S4。在插入断裂端之间的距离中有两个峰,一个在16个碱基的重叠处,但还有一个没有重叠的第二峰,表明LINE侵入后第二链可能存在两种不同的断裂机制(图S5D)。此外,对于20%的插入,其中LINX观察到插入序列中的50倒位(由于双引发),22仅发现具有16个碱基的靶位点重复的单峰。LINX还可以检测由与肿瘤中LINE活性失调相关的激活的逆转录酶活性引起的体细胞假基因插入5LINX将任何与注释内含子的精确边界匹配的缺失组注释为假基因插入(图3D)。我们在Hartwig组群中发现了577个假基因插入,仅在具有体细胞激活的LINE机制的样品中,并且在具有最失调的LINE活性的样品中富集(图3E)。复杂事件LINX将具有三个或更多交汇点且未解析为LINE源元素的任何聚类先前的工具,特别是Chainless4,已经被开发用于系统地搜索肿瘤中的复杂重排模式。我们在1,479个Hartwig群组样品中比较了LINX和Chainlymphoma,并且发现,虽然在22%的情况下,LINX和Chainlymphoma产生几乎相同的簇,但是由LINX聚类的大 多 数 连 接 未 被 Chainlymphoma 聚 类 , 而 很 少 SV 仅 被Chainlymphoma聚类(图S6A和S6 B)。我们发现这是因为两个主要原因:第一,Chainfamily未能聚类大量高度接近的连接点(断裂端之间5 kb;图S6 C),第二,LINX采用各种聚类技术来连接同一染色体臂上的远距离连接点,这些远距离连接点不存在。6细胞基因组学2,100112,2022会开放获取技术图4.复杂重排和高扩增(A) 每个样本的复杂重排簇计数的累积分布函数图,至少有3、5、10和20个变体。(B) 小提琴图显示每个样品中单个复杂重排簇中变体的最大数量的分布,按肿瘤类型分组。黑点表示每种肿瘤类型的中值。(C) 通过簇的复杂性和最大JCN,在一组癌症基因中促成至少一个扩增、缺失、纯合破坏或LOH驱动因子的簇的比例。(D) 完全消退的染色体断裂事件,由影响HMF 001571 A(一种前列腺肿瘤)2号染色体13-Mb区域的31种结构变异组成(E) 通过复合事件、LINE插入和两个断裂相互簇的断裂端之间的距离计算的反相断裂端出现的计数,范围为-500至500个碱基(对数标度)。负距离表示重排位点处的重叠断裂端和重复。(F) 按断裂端之间的距离计算的反相断裂端出现的计数放大到-30至30个碱基。(G) 对于选定的解析类型,按解析类型列出的具有至少一个连接长度小于1 kb的碎片的断裂端的变体的比例(H) 小提琴图显示了碎片长度按解析类型的分布。(I) 在前列腺肿瘤HMF 003969A中由三个连接形成的双微体,其将已知的癌基因AR扩增至约23的拷贝数(J) 按癌症类型列出的具有ecDNA和线性扩增的样本比例。另见图S6和S7以及表S5。由Chainstrike捕获(图S6D)。通过LINX聚类的额外变体与通过Chainstalk聚类的变体相比具有惊人相似的长度分布(图S6E),包括长度大于1 Mb的缺失、重复和倒位,这些通常在简单事件中不存在。相反,在一小部分(1.8%)病例中,连接是由Chainfamily而不是LINX聚类的。其中95%是长度为1 Mb的缺失和串联重复,也可能作为独立事件发生,并无意中被Chainfamily聚类(图S6E ) 。 与 该 假 设 一 致 , 我 们 发 现 , 20% 的 缺 失 被Chainlymphocyte 而 不 是 LINX 聚 集 在 已 知 的 脆 性 位 点 ( 图S6F),并且通常是反式定相的,表明它们可能发生在不同的事件中。12在Hartwig队列中,我们在95%的肿瘤中发现了至少一个复杂事件,在60%的肿瘤中发现了至少一个20个或更多个连接的事件(图4A)。虽然在任何特定肿瘤中复杂事件相对较少,但它们占超过一半的路口。复杂的集群,在所有癌症类型中发现>100个连接,其中乳腺癌具有最高的中值最大复杂簇大小62(图4B)。我们观察到,具有更多连接点的复杂事件更有可能破坏或扩增推定的癌症驱动基因。总体而言,队列中所有复杂簇的12.7%促成了LOH、扩增、缺失或破坏驱动因素,但对于具有20个或更多个连接的事件,这一比例上升至39.1%,对于具有20个以上连接和高扩增的事件,这一比例上升至77%(连接拷贝数R8;图4 C)。细胞基因组学2,100112,2022年4月13日7会开放获取技术LINX比其他聚类工具更进一步,因为它不仅允许识别复杂的聚类,而且在许多情况下能够将这些事件完全解析为一组一致的衍生染色体,包括具有多达33个连接点的链(图4D)。独特的,并在这些复杂的结构中精确的链,ING至关重要,LINX利用从GRIDSS相组件输出,以确定是否接近面临的断裂是顺式或反相。我们观察到,反相面对断裂末端,导致局部复制,在复杂事件中是常见的,并且通常可以延伸多达数百个碱基,但在相互事件和移动插入中很少延伸超过30个碱基(图4E和4F),这表明复杂事件中的断裂机制根本不同,这可能导致具有数百个碱基重叠的双链断裂。近端顺相断裂末端甚至比反相断裂末端更常见,并且在长度分布上类似于在简单事件中检测到的碎片,但在复杂簇中具有高得多的频率(图4G和4H).我们经常观察到局部瘢痕形成区域具有来自同一位置的多个不同碎片,有时具有重叠的模板序列。放大机制高度扩增的区域是肿瘤中最复杂的事件之一,因为它们需要迭代和重复的合成循环或不等分离才能形成。有两种众所周知的关键不同的生物学机制产生高度扩增的重排:断裂融合桥(BFB)的重复循环和细胞分裂期间通过不对称分离的环状染色体外DNA(ecDNA)的随机扩增。ecDNA(图4I和S7A)可由在同一染色体臂上同时产生多个双链断裂的任何事件引起另一方面,BFB(图S7B)是由具有两个着丝粒的染色体通过易位或折返倒位形成触发的,这是由多个同时发生的双链断裂或端粒侵蚀引起的,并导致线性染色体内染色体片段的复制。尽管在机制上存在这些显著差异,但基于短读段测序数据,ecDNA和BFB之间的区分并非微不足道,而是为了理解肿瘤中扩增驱动因子的多样性所必需的,并且可能与某些肿瘤的预后或治疗相关。[23]区别的关键困难在于,两种机制都可能留下类似的足迹,因为两者都可能产生于复杂的破坏事件,并在很大程度上受到相同的选择过程的影响,既有积极的(关键致癌基因的扩增),也有消极的(对其他邻近基因扩增的限制)。LINX采用一组遗传学来识别簇的子集用于鉴定ecDNA的关键原则是寻找与低拷贝数区域相邻的高连接拷贝数(JCN)结构变体LINX还检查了高JCN不能通过复合线性扩增机制来解释,通过比较候选ecDNA连接的JCN与折叠的最大扩增影响反向倒位(BFB的标志)和将ecDNA的闭合区段连接到基因组的其它区域的其它连接(方法S1)。为了验证ecDNA启发式,我们在一组13个WGS神经球培养的胶质母细胞瘤样本上运行LINX,这些样本之前已经用Amplicon Architect分析了ecDNA。6LINX和Amplicon Architect对13个样本(表S5)中的19个癌基因的相同集合调用ecDNA,包括通过荧光原位杂交(FISH)进行正交验证的11个样本。将启发式应用于Hartwig队列,我们发现ecDNA是一种相对罕见的事件,存在于所有肿瘤的9.9%中,在CNS肿瘤中频率最高(51%;图4 J)。这低于最近使用AmpliconArchitect对WGS进行的大型泛癌症队列分析,23发现泛癌症患病率为14%。我们观察到,总体上,Hartwig群组中鉴定的12%的推定扩增驱动因子与ecDNA事件相关(图S7C),但是对于更高度扩增的事件,该比率增加到大于40%,对于最大JCN> 32的事件。EGFR中ecDNA的相对比率最高(图S7D),但这似乎对CNS肿瘤具有高度特异性(其中87%的EGFR扩增与ecDNA相关),而对于肺肿瘤(其中表皮生长因子受体[EGFR]扩增也很常见)和其他癌症类型,ecDNA的比率分别仅为11%和21%,与其他已知致癌基因相似(图S7E)。假设不满足ecDNA标准的高扩增事件通过线性扩增形成。虽然我们发现这些事件中的76%具有至少一个返折反转,表明BFB过程,但在许多事件中,返折JCN不能解释完全扩增,并且在剩余事件中,LINX根本没有鉴定出返折事件(图S7F)。然而,其中大多数不太可能是ecDNA,因为没有明显的连接点和片段可以闭合成一个具有一致拷贝数的圆圈。一些事件,如脂肪肉瘤中常见的MDM2和CDK4异常复杂的扩增,3可能不完全属于ecDNA或BFB分类(图S7G),最近被提出为一种新的重排类别,称为12临床相关病原性重排的检测LINX称为多样且全面的融合和致病性重排(图5A和S8我们通过将LINX的致病性融合预测与从相同样品中提取的RNA测序(RNA-seq)数据预测的融合进行比较,正交验证了LINX对于RNA组合物,我们使用Arriba,其是性能最好的RNA融合调用器之一,25使用391个已知致病性融合对的策划列表(表S6)。在具有匹配RNA的1,924个Hartwig群组样品中,Arriba也发现了LINX预测的148/173个框内融合(86%)(图5B;表S7)。在RNA中未鉴定的25个融合体中,13个与已知融合体对的特征性肿瘤类型匹配(其中9个是前列腺癌中的TMPRSS 2-ERG另外两个由LINX预测的案例被Arriba发现,但仅在框架外转录本中。13已知对8细胞基因组学2,100112,2022会开放获取技术图5. 临床相关重排(A) 一种由唾液腺肿瘤HMF 000780 A的相互易位引起的MYB-NFIB融合该易位将MYB中的外显子1(B) Hartwig队列中LINX融合预测与来自已知对和混杂融合伴侣的正交RNA测序的Arriba融合预测的比较。长度小于1 Mb的混杂融合体单独显示,因为它们可能发生在通读转录物中,而与基因组重排无关(C) 计数已知和混杂融合的LINX链式融合预测,以及Arriba是否发现它们也在RNA中表达(D) 有和没有预测的致病性IGH-BCL 2重排的淋巴样品中BCL 2表达的分布方框:第25- 75百分位(E) HMF 001913A前列腺肿瘤中影响TP 53的相互易位这两个预测的衍生染色体在两端重叠约300个碱基,但是反相的,这排除了在任何一个位置插入模板的可能性虽然TP53拷贝数在1和2之间交替,但没有衍生染色体包含完整的基因,并且基因被同源破坏。(F) 前10个最受影响的肿瘤抑制基因的纯合破坏驱动因子的流行率(G) 对于RB1、TP 53和TP 54中的每一个具有纯合缺失、纯合破坏和野生型的样品,PTEN。箱:第25另见图S8和S9以及表S6、S7、S8和S9。Arriba预测到了融合,但LINX没有预测到,其中7个融合涉及同一染色体上相距不到100万个碱基的基因对,可能是由通读转录本26或与DNA结构重排无关的环化RNA27除了已知的致病性融合对,63个癌症相关的融合基因被策划为混杂的50和3 0融合配偶体。其中,LINX鉴定了另外152个候选框内融合体,其中74个(49%)也在RNA中检测到。Arriba检测到了397个额外的混杂转录物,但其中86%在相同的染色体上接近,并且可能是没有基因组重排的通读转录物。总之,325个已知和有害的融合预测中有43个(13%)是涉及多接头的链式融合,其中26个(60%)在RNA-seq数据中得到验证(图5C),突出了衍生物染色体进行DNA融合调用。TMPRSS 2-ERG是LINX在队列中发现的唯一一种复发性连锁融合,占43种预测连锁融合中的14种,全部发生在前列腺癌中。免疫球蛋白增强子重排是一类独特的致病性重排,常见于B细胞肿瘤中,其中IGH、IGK和IGL区域中VDJ重组和/或同种型转换的错误可能导致致病性重排,通过调节元件重新定位驱动已知癌基因的高表达。虽然这些通常不会产生新的蛋白质融合产物,但LINX基于IGH、IGK和IGL区域中的断裂端预测这些致病性重排,其中在B细胞肿瘤中通常观察到取向和位置匹配位置。在队列中10个具有匹配RNA的淋巴样本中,LINX发现了6个这样的重排,包括5个IGH-BCL 2病例。细胞基因组学2,100112,2022年4月13日9会开放获取技术IGH-MYC1例。具有IGH-BCL 2重排的五个鉴定的样品具有比未检测到BCL 2重排的五个淋巴样品显著更高的BCL 2表达(p =0.008)(图5D).LINX还鉴定了可能导致外显子缺失和重复的破坏性基因内重排。我们的知识库包括9个已知致病的重排和2个我们认为可能致病的重排,因为Hartwig队列的复发率较高。在我们的队列中,通过LINX在至少5个具有配对RNA的样本中检测到3种已知的致病性外显子重排:EGFRvII(n = 6)、EGFRvIII(n = 14)和CTNNB1外显子3缺失(n = 6)。在DNA中通过LINX检测到事件的所有情况下,我们在匹配的RNA中发现了支持新剪接点的RNA片段(图S8E)。在完全队列中,只有另一个样本(n =1,924)有一个以上的片段支持任何这些选择性剪接点(一个胃肠道间质瘤,有三个片段支持EGFRvII,但没有证据表明EGFR重排),表明LINX的假阴性率较低。除了产生新的致癌蛋白和已知致癌基因的过表达之外,重排还可以通过破坏肿瘤抑制基因的功能而导致肿瘤发生。为了捕捉这一点,LINX注释了与基因重叠的每个在相互易位(图5E)、相互倒位(图S9A)、复合断裂事件(图S9B)或重叠至少一个外显子的串联重复(图S9C)的情况下,基因可能在所有剩余拷贝上被破坏,即使所有外显子碱基的拷贝数大于零。[29]我们将这种类型的基因组重排称为纯合破坏不能通过标准组或全外显子组测序容易地检测,因为内含子序列通常不包括在这样的组中,并且它们在外显子区中是拷贝中性的。我们发现纯合破坏是Hartwig队列中的常见驱动因素,9%的样品在一组448个策划的癌症相关基因中含有至少一个纯合破坏(表S8)。三种众所周知的肿瘤抑制基因在超过1%的群组中具有纯合破坏:TP 53(n = 69)、PTEN(n = 56)和RB 1(n =55;图5 F)。什么...移植这些事件的功能影响,我们发现这些基因中的每一个的表达显著降低(TP 53:p = 23 10- 16; PTEN:p = 23 10- 6; RB 1:p= 23 10- 3)在样本与具有至少一个完整拷贝的样品相比具有预测的纯合破坏(图5G),并且与具有纯合缺失的样品相比具有相似的平均表达倍数变化(TP 53:0.30对0.40; PTEN:0.47对0.37; RB 1:对于破坏和缺失,分别为0.68和0.60我们还对纯合破坏富集的基因进行了全基因组搜索,发现了35个显著富集的基因,包括16个众所周知的肿瘤抑制基因、14个紧邻肿瘤抑制基因的基因和3个高度复发的致癌融合伴侣(表S9)。有趣的是,我们发现另外两个基因也富含纯合破坏,但没有被广泛表征为肿瘤抑制基因:PSIP 1(5个观察结果; q = 0.006),之前也曾显示过在截短点突变中,30和USP 43(6个观察结果;q = 0.01),最近提出的肿瘤抑制因子。31可视化LINX产生了肿瘤基因组重排的详细可视化,从而可以进一步了解复杂的重排。LINX支持绘制簇中的所有重排或染色体上的所有重排,创建集成Circos输出32,其显示拷贝数变化、簇SV、衍生染色体预测和受影响的基因,包括基因融合体的蛋白质结构域注释,所有这些都在同一图上。可视化在事件之间使用基于日志的位置缩放,以便可以在单个图表上检查小型和大型结构。与圆形表示相结合,这些特征允许跨广泛的事件类型的复杂结构的前所未有的分辨率,所述事件类型包括染色质(图6A)和复杂BFB扩增事件(图6B)。方法S1包括所有LINX图形的漫游和演示,涵盖完整的SV景观的COLO 829 T黑色素瘤癌细胞系,其已被提议作为癌症基因组测序的体细胞参考标准。三十三,三十四对独立队列的评价。为了评估工具集的更广泛效用和我们结果的重现性,我们将Hartwig队列的结果与来自独立测序的PCAWG泛癌队列的1,541份样本的子集进行了比较(表S10)。35分析的PCAWG样本也涵盖了各种肿瘤类型,但与Hartwig队列不同,几乎只包含原发性癌症样本,并且测序深度的平均覆盖率较低(PCAWG为383我们在两个队列中观察到基本相同的结构变体模式(图S10A)。对于两个队列中的简单和复杂事件,缺失、重复和倒位的长度分布高度相似(图S10B)。我们还观察到基因组碎片在所有事件类型中的非常相似的优势和长度分布(图S10C)。此外,我们发现PCAWG队列中合成事件的长度分布与Hartwig队列中发现的结果非常相似(图S10D)。同样,我们在Hartwig队列中鉴定的相互重复事件也存在于PCAWG中,具有BRCA1、CDK12和CCNE1驱动因子的样本具有相同长度的串联重复特征模式(图S10E)。PCAWG和Hartwig队列中与驾驶员相关的追尾模式也相似。虽然原发性癌症中具有高扩增事件的样本的总体比率较低(22% PCAWG; 41% HMF),但ecDNA占的比例 相 似 ( 28% PCAWG; 24% HMF; 图 S10 F ) 。 我 们 还 在PCAWG队列中发现了影响肿瘤抑制基因(TSG)的纯合子破坏事件。实际上,具有推定纯合破坏驱动因子的前四个驱动因子基因在两个数据集中是相同的(图S10G)。总的来说,独立测序的PCAWG队列中这些结果的高度再现性为LINX的效用和在转移性和原发性癌症中观察到的模式的普遍性提供了权重10细胞基因组学2,100112,2022会开放获取技术图6. 复杂事件可视化(A) 前列腺肿瘤HMF 001596 B中7条染色体的19个断裂连接形成的染色体丛样簇。重排在单个事件中导致三种不同的推定驱动因子,包括具有两个跳跃的链式TMPRSS 2-ERG融合;PPP 2 R2 A的杂合性缺失,其也具有停止获得的点突变(未显示);和PTEN的内含子纯合破坏。(B) 在黑素瘤细胞系COLO 829 T中影响3号染色体P臂的断裂融合桥事件预测的衍生染色体具有2个拷贝数,并且可以从3号染色体上的着丝粒开始向外追踪,穿过两个简单的折返和两个链式折返,并在chr 3:25.3M处的单个断裂端结束,从插入序列可以推断其连接到着丝粒卫星区(可能是1号染色体,其在从P到Q臂的着丝粒上具有2个拷贝数增益,并且在未发表的SKY核型图中似乎连接到3号染色体;http://www.pawefish.path.cam.ac.uk/OtherCellLineDe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功