没有合适的资源?快使用搜索试试~ 我知道了~
时间MPsMPs生物学上一致的基因模块途径调节子基序序列癌症驱动因素NNGN一个UN N一个U一个U五NVCGACG患者转录组111。。000。。模块扰动评分患者存活发现预后癌症模块低高提高预后超出标准临床特征的预后环境预测模型患者预后子组阶段模块p0.0001典型因子MPSMPS+时间文章癌症预后分子特征的系统评估图形摘要模块组织学风险比亮点生物学相关基因模块的失调预测癌症存活d系统发现高度预后的DNA/RNA顺式调节模块d基因模块比单基因座畸变d癌症模块预测的生存率超过目前使用作者Balaji Santhanam,PanosOikonomou,Saeed Tavazoie对应st2744@columbia.edu简言之Santhanam等人提出了一个系统的分析的预后潜力的不同连贯的基因模块在癌症队列。相对于常见的组织病理学指标和常见临床使用中的突出遗传畸变,这种预后癌症模块的失调提供了显著的额外预测能力。Santhanam等人,2023,细胞基因组学3,1002622023年3月8日,作者。https://doi.org/10.1016/j.xgen.2023.100262低高基因模块隶属度Surrrvival预后能力会会开放获取文章癌症预后分子特征的系统Balaji Santhanam,1,2,3,4Panos Oikonomou,1,2,3,4和SaeedTavazoie1,2,3,4,5,*1哥伦比亚大学生物科学系,纽约,NY 10027,美国2哥伦比亚大学系统生物学系,纽约,NY 10032,美国3哥伦比亚大学生物化学与分子生物物理学系,纽约,NY 10032,美国4Irving Institute for Cancer Dynamics,Columbia University,New York,NY 10032,USA5引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2023.100262st2744@columbia.edu总结精确肿瘤学承诺通过利用肿瘤的分子特征来准确预测疾病轨迹我们提出了一个系统的分析,在大型癌症队列的不同分子特征的预后潜力我们发现,生物学相干基因组(模块)的mRNA表达比单位点基因组和转录组畸变更能预测患者的生存。将我们的分析扩展到现有的策划基因模块之外,我们发现了一大类新的高度预后的DNA/RNA顺式调节模块,其与癌症内的动态基因表达相关值得注意的是,在超过82%的癌症中,与传统的临床因素和突出的基因组畸变相比,模块大大改善了生存分层癌症模块的预后潜力比常规使用的单基因特征更好地推广到外部队列最后,机器学习框架展示了多个模块的组合预测能力,产生的预后模型比现有的常用组织病理学和临床因素表现得更好。介绍治疗的选择应根据对患者风险的准确评估来指导治疗决策通常由基于组织病理学的观察结果驱动1-3精确肿瘤学方法寻求通过定义癌症进展的分子依赖性来改善患者的长期预后,从而增强临床上现有的诊断和预后评估。4-众所周知,致癌转化的分子变化可以提供关键临床表型的信息,如治疗反应性、肿瘤侵袭性和患者风险。8-突变或拷贝数变化)。4,12通常,这些单基因座基因组方法可能无法捕获反映共调节过程、途径和调节网络的活动的高阶依赖性。另一方面,利用功能相关基因组的活性的方法可以捕获跨基因的协调失调及其与临床表型的关联。13-生存然而,基因组、单基因座畸变和常规使用的临床特征的比较和组合预测潜力尚未在癌症中系统地确定。因此,系统地评估遗传病变和个体基因和功能相关基因组的失调的预后能力不仅会扩大临床可用的肿瘤生物标志物的集合,而且可以帮助优先考虑在每种癌症中提供最佳临床效用的分子评估。在这里,我们已经开发了一个强大的计算框架,以确定各种分子特征相对于常规使用的临床因素(如肿瘤分期、年龄和组织病理学)的预后优势,这些因素来自TCGA的大量癌症队列。我们已经使用这个框架系统地量化了预后潜力通过突变状态,拷贝数畸变和表达变化传达的单个基因的变化,发现转录组学评估在大多数检查的队列接下来,我们根据各种特征,包括基因功能、生物过程和基于DNA/RNA基序序列特征的共表达,策划了一大组生物学相关基因组(模块)值得注意的是,我们发现,与单个基因座的基因组扰动以及其他常规使用的临床评估相比,基因模块的mRNA表达扰动在大多数TCGA队列中提供了显著更好的生存分层。而且这些CellGenomics 3,100262,March 8,2023?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2Cell Genomics3,100262,2023(图例见下页)Cell Genomics3,100262,2023年3月8日3文章会开放获取与标准的组织病理学评估、显著的基因组变异和肿瘤微环境中免疫细胞类型的组成相比,模块提供了新的预后信息。我们的分析和结论为社区提供了强大的资源,以生成临床信息和可解释的患者风险模型,这是精确肿瘤学和治疗开发的关键基础1、7、10结果基因表达比单个基因座的基因组畸变更具预后性我们试图确定个体基因测量的预后潜力,包括突变状态、拷贝数畸变和TCGA队列中的基因表达变化(STAR方法)。我们对TCGA中25个队列的8,620例患者进行的分析显示,许多基因与总生存期或无进展间期生存期显著相关(p 0.005;数据S1),队列中对两个生存终点具有预后意义的基因中位数为59个。总的来说,我们发现基因的突变状态是一个比拷贝数变异(CNAs)明显更弱的生存预测因子,正如最近报道的那样。4事实上,单个基因座的表达比突变和CNA两者提供更多的预后效用(图1A和S1)。事实上,在大多数测试的队列中,我们还发现,与CNA或突变畸变相比,基因表达为总生存期(25个队列中的20个)和无进展间隔生存期(24个队列中的21个)提供了最强的患者分层(图1B、S2和S3),与先前的报道一致。四、二十五接下来,我们基于其作为癌症驱动因子的良好特征化作用,关注由OncoKB27管理的肿瘤抑制因子(n = 230)和癌基因(n =201)。即使在这些癌症驱动因素中,我们也只发现8个基因(1.8%)基于突变状态,148个基因(34.3%)基于拷贝数变化,212个基因(49.2%)基于其表达水平,至少在一个队列中预测总体和无进展间隔生存期。此外,11个基因(5.2%)基于其表达和基因组畸变的预后在两个以上的队列。只有低级别胶质瘤中的PTEN和低级别胶质瘤中的BAP 1表达。泛肾组群在所有三种分子特征中对任一生存终点具有预后性(数据S1)。这些结果表明,这些癌症驱动因素27的临床关联可能不足以单独通过其突变状态、CNA或表达变化来捕获。与癌症驱动因素相关的基因模块比突变状态我们假设,在癌症驱动因子畸变的背景下,基因模块相干干扰可能比潜在的单基因干扰提供更好的预后效用为了测试这一点,我们首先从分子特征数据库(MSigDB)组装了与癌症驱动因子27(22个肿瘤抑制因子和45个癌基因)相关的199个基因模块26这些模块是在携带癌症基因扰动的细胞上发现的,代表了它们的转录特征(MSigDB)。26为了量化模块中失调的幅度和方向,我们接下来基于有符号的互信息28定义统计测量,以量化来自TCGA(https://www.cancer.gov/tcga)的患者原发性肿瘤转录组中这些模块中的每一个中的扰动。我们将该测量称为模块扰动评分,其可以被解释为患者肿瘤转录组中一组基因的mRNA表达的协调变化正如预期的那样,我们发现模块扰动评分(MPS)与测试的队列中大多数癌症驱动因子27(67个中的40个)的突变、CNA或表达变化强烈相关(图S4)。接下来,我们系统地探讨了这些模块中的扰动是否将患者分为具有显著不同生存轨迹的组。这些分析鉴定了与几种癌症驱动因子相关的模块27,包括TP 53、KRAS和PTEN等,以提供患者生存的信息。尽管突变状态和TP 53相关模块的扰动之间存在显著一致性(超几何p = 8.83 10- 4),但我们观察到基于MPS分层的胰腺癌患者的生存轨迹显著更趋不同(Kaplan-Meier [KM] p =0.001)。2.5310- 5;风险比= 0.33)比基于TP 53突变状态分层的患者(KM p值= 0.28;风险比= 0.33)图1.表达变化比拷贝数畸变或基因突变更具预后性(A) 每个队列(y轴)中基于拷贝数畸变(紫色)、突变状态(黑色)和表达变化(黄色)预测总生存期和无进展间隔生存期的基因比例(B) 将所有群组中由基因表达(y轴)和基因组畸变(x轴)传达的预后强度之间的比较可视化为热图散点图(指示密度)。在组群内,对每个分层的标准化显著性(Wald统计量)的绝对值进行缩放,并绘制其利用基因表达(y轴)和基因组畸变(突变或拷贝数; x轴)的预后仅包括对三个特征(突变、拷贝数或表达)中的至少一个具有预后性的基因(C) MPS定量的示意图。互信息用于量化模块成员资格提供患者样品中基因表达水平信息的程度,然后通过它们之间的Pearson相关系数进行签名(D) Kaplan-Meier(KM)图显示具有模块的阳性扰动评分(红色)的胰腺癌患者,所述模块对应于在TP 53基因座处相对于TP 53野生型细胞系(MSigDB,26M2698; 198个基因)具有突变的细胞系中上调的基因,并且具有比具有阴性扰动评分(蓝色)的患者更差的总体存活显示统计学(两组中的p值和样本数)(STAR方法)。还显示了胰腺癌组群中基于TP 53突变状态分层的患者的KM图(黑线和灰线)。(E) 在来自TCGA的19种癌症中可视化与癌症驱动因子相关的模块的绝对标准化显著性的log2比率和编码这些癌症驱动因子的基因的测量值单个基因的标准化显著性(Wald统计量)被选择为每个队列中基于表达、拷贝数和突变的患者分层的最大值。 对于相应模块,使用Stouffer方法(STAR方法)总结标准化显著性评分还参见图S14Cell Genomics3,100262,2023会开放获取文章图2.癌症预后模块的系统发现(A) 发现预后癌症模块(PCM)的示意图对于每个模块,z评分的全转录组数据(热图)被系统地转换为跨样品的MPS(热图;底部)。具有显著模块激活(抑制)的患者具有阳性(阴性)MPS值,并且对应于其中模块中的基因被激活(抑制)并标记为MPS+(MPS将患者样本分层为MPS+和MPS-组,其扰动导致患者分层(生存轨迹显著不同)的模块被认为是(图例接下页)Cell Genomics3,100262,2023年3月8日5~文章会开放获取比率= 0.76;图1D)。值得注意的是,对于90%的癌症驱动因素,基于模块扰动的27名患者生存分层优于基于在所测试的癌症中的相应个体基因座处的测量的分层(图IE和S5综上所述,这些结果表明,模块的失调可能是指示性的,功能性下游后果超出了对上游癌症驱动因素的直接可预测的基因组和转录扰动。27癌症预后模块的系统发现与癌症驱动因子相关的基因模块的优越预后效用促使我们系统地发现癌症中的其他因此,我们扩大了我们的范围广泛,包括模块以外的致癌签名。我们的模块目录包括~5,000种途径、基因个体学和~2,000种推定的调节剂靶标,包括含有其结合位点和/或构成其转录靶标的基因(图S9A;数据S2;STAR方法)。26、29-31我们将来自TCGA(https://www.cancer.gov/tcga)的每个样品中的这些模块中的每一个的失调系统地定量为MPS(STAR方法)。我们发现,25%的先前定义的模块(图S9A)在检查的组群中显示出不同的组群特异性(图S9B和S9 C)和组织特异性(图S9D和S9 E)扰动模式(数据S3;STAR方法)。我们还试图测试MPS是否可以捕获疾病进展。为此,我们利用癌症阶段作为疾病进展的代表,从TCGA中鉴定了12种癌症中的3,221个模块(STAR方法;数据S3;图S10 A)。我们发现,与有丝分裂、细胞外基质和RNA代谢相关的模块以及多梳组环指蛋白BMI1和PCGF2的转录靶点的扰动评分与3种或更多种癌症的疾病进展复发相关(数据S3)。为了测试我们的发现是否可以推广到独立患者组中疾病进展的不同指标,我们使用了由从342名结肠肿瘤患者(GEO:GSE 41258)获得的正常、息肉、原发性肿瘤和转移性样本组成的队列15,32,33在TCGA中发现的与结肠癌分期相关的大多数模块与该独立队列的疾病进展显著相关我们确定了模块与细胞凋亡和氧化磷酸化途径基本相似(分别为超几何p = 10- 11和10- 237),与Drier和同事最初的观察结果一致(图S10我们还发现了与线粒体组织、蛋白质定位和锌指转录因子PATZ 1靶点相关的潜在新模块,这些模块与结肠癌进展显著相关(图S10和S11;数据S3)。显然,需要进一步的实验验证来建立这些模块在疾病进展中的体内功能作用尽管如此,我们的研究结果表明,MPS可以有效地捕获生物学相关的表型,包括疾病进展。接下来,我们量化了模块扰动预测个体癌症中患者存活的能力(图2A中的其扰动评分将患者分为具有显著差异的生存轨迹的活化(MPS+)和抑制(MPS-)我们使用TCGA作为我们的主要发现队列,因为(1)分析的癌症类型的多样性(2)患者相关临床、基因组和分子数据的丰富性,以及(3)TCGA中病理分期分布与美国多种癌症的一般人群统计数据之间的一致性(图S12A)。总体而言,在先前定义的基因模块(图S9A)中,我们的分析鉴定了443个PCM(图S12B和S12 C)。这些包括与细胞凋亡、细胞周期和DNA修复途径相关的模块,与其对癌症进展的公认贡献一致(数据S4)。我们还确定约180种已知的调节剂相关PCM。一些实例包括与微小RNA(miRNA)-149、转录因子ZHX 2和F0 XF 2以及SRSF 2 RNA结合蛋白相关的模块(图S13这些发现与这些调节剂已知的癌症相关作用一致35-一种新的基于调节剂的PCM的实例是与发育转录因子POU 1F1相关的模块,其显著活化赋予了胃癌更差的预后(KM p =9.8×10- 4;危险比= 0.3;图2 B和S13E)。据我们所知,POU1F1及其相关模块以前都没有涉及到预后(STAR方法)。通过联合建模这些协变量与MPS对患者生存期的影响,控制常规临床和组织病理学因素的混杂效应。在独立的外部队列中评价这些PCM的预测性能。(B) 对于携带至少一个POU 1F 1结合位点的基因(MSigDB,26M15591; 233个基因),具有显著模块激活(MPS+(C) 与具有显著模块抑制(MPS-;蓝色)的样本相比,具有在其30UTR中携带至少一个RBM 28结合位点的基因(CISBP-RNA30; 1,595个基因)的显著模块激活(MPS +;红色)的黑素瘤患者对于KM图比较,显示了统计数据(中位存活时间、log2风险比和p值),其余样品的存活率以灰色显示。(D) 对于OVS(左图)和PFS(右图),显示了基于调节剂的模块的基于MPS的患者存活率(Wald统计量)的标准化显著性。在3种或更多种癌症中反复预后的基于调节剂的模块被分组在一起,并且每行对应于集群内的示例性34模块(STAR方法)。对于每个模块,将队列中的患者分层为MPS+和MPS阳性(或阴性)值表明MPS+组患者的生存期更好(或更差)。(E) 对于OVS(左图)和PFS(右图),可视化与调节子相关的模块扰动的绝对标准化显著性的log2比率及其相应的单基因组基因座上的测量值对于单基因座测量,标准化显著性(Wald统计量)被选择为来自每个群组中基于表达、拷贝数或突变的患者分层的最大值,并且对于其相关模块,使用Stouffer方法(STAR方法)总结标准化显著性评分另见图S136Cell Genomics3,100262,2023会开放获取文章胃癌新的调节剂相关PCM的另一个实例是对应于RBM28(剪接体机制的组分)的序列特异性该模块的显著激活表明黑素瘤患者的预后更差(KM p = 5.6×10- 3;风险比= 0.3;图2 C和S13F)。除了队列特异性预后模块外,我们还确定了监管机构,其MPS将患者分为MPS+和MPS-组,在多个癌症队列中具有不同的生存轨迹(图S14中的事实上,在至少3个组群中,57和70个调节剂相关模块分别是总生存期和无进展间隔生存期的复发性预后(图S15这些结果表明,虽然对调节因子的干扰子集在特定癌症中具有预后性,但其他干扰子集在多种癌症中具有复发性预后性,暗示了患者生存的共同调节状态。最后,与癌症驱动因子一样,与编码这些调节因子的基因的表达变化、CNA或突变状态相比,调节因子相关模块中的27个扰动改善了患者分层(图2E)。这些发现表明,调节因子的微妙和/或间接调节(例如,通过翻译后效应),其不能被标准测序或免疫组织化学方法捕获,可能足以对其靶进行大规模重编程,从而介导对患者临床轨迹的显著从头发现的顺式调节模块的失调预测患者的生存我们的研究结果清楚地表明,先前定义的相关基因模块的失调在癌症中具有重要的预后效用。然而,我们推断,在一个大型癌症队列中的基因表达动态可能指向在整个队列中与疾病进展我们已知的基于调控因子的基因模块可能会捕捉到其中的一些变化。然而,大多数已知的调节剂不具有相关的靶基因模块,并且在存在此类模块的情况下,它们通常在不同于患者肿瘤的细胞环境中定义我们和其他人已经表明,调节因子与靶基因的启动子或mRNA非翻译区(UTR)中的顺式调节序列的上下文特异性结合导致其基因表达的协调变化,并且可以通过从头序列基序发现来发现潜在 的 DNA/RNA 顺 式 调 节 元 件 。 [39- 因 此 , 与 这 些 推 定 的DNA/RNA序列基序相关的模块将是在癌症中具有潜在重要性的协同调节基因集。使用称为FIRE的从头线性序列基序发现算法42,我们生成了约1,300个DNA和约5,500个RNA推定调控序列基序的系统目录,这些序列基序在TCGA队列中提供了肿瘤基因表达模式的重要信息(数据S2;STAR方法)。由于结构RNA调控元件也可以在转录后调控中发挥重要作用,40,41我们系统地发现了与转录组动力学显著相关的潜在结构RNA基序(STAR方法)。为此,我们将我们的结构RNA基序发现器TEISER40应用于TCGA中的乳腺癌和肝癌队列,以鉴定约700个推定的结构RNA调控基序(数据S2;STAR方法)。正如预期的那样,新发现的短的患者衍生基序的子集与癌症相关调节剂的结合位点相似,包括ETS 1、ELK 1、FOS、JUN和MAX(DNA元件)和HNRNPLL、RBM 6、ELAVL 1、miRNA-106 、 miRNA- 525 和 miRNA-329 ( 线 性 RNA 元 件 )(TOMTOM43q 0.01;STAR Methods)。然而,对于大多数从头发现的基序(>90%),我们没有鉴定出与调节子的已知结合位点的显著匹配(数据S5)。对于每个基序,其相关模块包含在其调控区中携带至少一个基序实例的基因(STAR方法)。在这些从头发现的顺式调节基序模块中,存在高度重叠,表明基序间序列的高度相似性和/或基序的共同出现。为了最小化这些模块之间的冗余,我们将它们分组为1,050个模块集群,每个模块集群有34个相关样本(Data S5;STAR方法)。总的来说,DNA和RNA调控基序的从头发现揭示了大量潜在于患者转录组动态的新型基因调控模块。我们评估了个体癌症中从头发现的顺式调节模块的预后潜力,而与发现它们的队列无关。因此,我们鉴定了157个DNA、739个线性RNA和12个基于结构RNA的非冗余顺式调节模块对总生存期或无进展间隔生存期具有高度预后性(图S9;数据S2)。即使在使用多变量生存比较解释混淆临床因素后,这些模块中的大多数(~85%)仍然是显著的(数据S2;STAR方法)。下面我们介绍几个有代表性的案例我们鉴定了一种基于DNA基序的PCM,其活化在乳腺癌中赋予更差的预后(KM p = 9.6× 10- 4;风险比= 0.37;图 3A、S16A和S16 B)。 该基序类似于TFE 3的E-box样结合位点(JASPAR ID MA0831.2 31; TOMTOM 43 p = 1.68 310 - 4; q =0.1),其在转化生长因子b(TGF-b)信号传导的下游起作用。尽管TFE3与乳头状肾细胞癌有关,但据我们所知,其在乳腺癌中的作用尚未报道。 我们还鉴定了一种基于DNA的PCM,其活化指定了前列腺癌中更好的预后(KM p = 2.3 × 10 - 4;风险比= 3.97;图3 B、S17 A和S17 B)。该基序与已知的转录因子结合位点没有显著的相似性(STAR方法)。绝大多数基于RNA基序的PCM与已知调控因子的结合位点不匹配。与线性RNA顺式调节序列相关的一个这样的模块中的扰动赋予胃癌患者显著的存活分层,模块的激活赋予更差的存活(KM p = 8.6× 10- 4;风险比= 0.49;图 3C和S18A)。该模块在对晚期肿瘤胃癌患者以及老年患者进行分层时也有效(图S18B)。我们还确定了一个结构RNA基序为基础的PCM,其显着激活指定会开放获取文章Cell Genomics3,100262,2023年3月8日7图3.独立癌症队列中基于新发PCM和保守预后的患者生存分层(A) 对于在其启动子的前1 kb内含有至少一个DNA基序HWRTNACGH(所示标志; 2,370个基因)的转录物,具有显著模块激活(MPS+;红色)的乳腺癌患者(图例接下页)会开放获取文章8Cell Genomics3,100262,2023结肠癌的预后更好(KM p = 1.2× 10- 3;风险比= 2.56;图3D),与组织学类型、年龄、分期、种族、微卫星不稳定性状态和肿瘤位置无关(图S19)。在所有基于基序的模块中,25个模块在3个或更多个癌症队列中具有预后性。这些模块中的基因富集已知在癌症中广泛失调的过程,包括细胞周期、DNA修复和染色质组织,以及已知的致癌基因和肿瘤抑制因子27(图3E)。这些实例说明了许多重新发现的基于基序的PCM,其在个体癌症群组中显著地提供患者结果的信息。有关扩展的示例集,请参见图S20和S21(数据S4中的完整列表)。模块扰动可预测独立队列中的患者我们的统计标准,包括对TCGA队列的内部交叉验证,降低了发现的PCM可能过拟合到一个数据集的可能性。为了提供另一个独立的验证点,我们测试了TCGA中发现的PCM在独立外部队列中对患者生存期进行分层的能力因此,我们系统地量化了模块的扰动评分,并评估了其对800多名患者的独立集的预后价值46,47(STAR方法)。TCGA和外部队列在人口统计学和组织病理学组成方面的差异尽管在组群之间观察到差异(图S22A和S22B),但外部组群中模块的预后显著性模式在很大程度上与它们关于TCGA的结果一致(图S22C和S22 D)。事实上,在TCGA上发现的PCM在外部队列中被发现具有预后的模块集中显著过度代表,其中56%-96%的PCM在组织匹配比较中表现出一致的另一方面,在外部队列中,基于其表达,只有一小部分基因具有一致的预后性(图3F)。此外,模块扰动对独立组群中患者存活率进行分层的预测性能显著优于基因表达(图3G)。总之,这些发现表明,与利用单个基因相比,模块在对独立外部队列中具有显著生存差异的患者进行分层方面在临床相关患者亚组中发现PCM临床一线以及后续治疗决策是根据患者的年龄、性别、分期和肿瘤的组织病理学特征以及一些常用的分子特征进行评估的。因此,由突出的临床和分子因素调节的模块扰动的预测潜力可能具有重要的临床实用性。为此,我们试图通过基于这些特征明确划分个体队列来使用3重交叉验证,我们确定了一组额外的约1,400个非冗余模块仅在这些先验指定的子队列中是预后性的(数据S6)。我们将从下面的几个类别中描述其中的一些模块。性与 染 色 质 组 织 相 关 的 模 块 ( Reactome R-HSA-489726;MSigDB26)仅在多形性胶质母细胞瘤女性患者中对总生存期具有预后作用,而在男性患者中则无此作用(中位生存期差异约为295,约70天),可能鉴定出一组患有多形性胶质母细胞瘤(GBM)的高风险女性患者(图4A)。这些结果提示染色质生物学在GBM疾病进展中的新的性别特异性作用。组织病理与嗜同性细胞粘附相关的模块(G 0:0007156; MSigDB26)在患有三阴性乳腺癌的患者中特异性地具有预后性,而在整个群组中不具有预后性(中间存活差异分别为约56个月和约17个月;图S23A和S23 B)。另一个例子是在II/IIA/IIB期乳腺癌患者中,即使在考虑混淆临床因素后,线性RNA基序相关模块的显著激活也传达了更差的预后(图4B、S23C和S23 D)。(B) 与具有显著模块抑制(MPS-;蓝色)的患者相比,具有显著模块激活(MPS +;红色)的前列腺癌患者在其启动子的前1 kb内携带至少一个DNA基序DTTTMCAM(所示的标志; 3,779个基因)的转录物显示出更好的PFS(C) 与具有显著模块抑制(MPS-;蓝色)的患者相比,具有显著模块激活(MPS + ;红色)的胃癌患者在其30个UTR的前1 kb内具有至少一个线性RNA基序WSUUCAMR(所示标志; 1,872个基因)的转录物(D) 对于在其30个UTR的前1 kb内含有至少一个结构RNA基序(标识和推定的二级结构; 399个基因)的转录物,具有显著模块激活(MPS+;红色)的结肠癌患者显示了在每个PCM中富集的重要基因本体论术语的选择列表(下图)。对于所有KM图比较,显示了统计数据(中位存活时间、log2风险比和p值),其余样品的存活率以灰色显示为了可视化,当MPS+或MPS-组中的样本百分比低于5%时,KM曲线的时间轴(E)在3个或更多个TCGA组群中复发性预后的从头顺式调节PCM基于其模块成员的相似性共聚类(改良的Jaccard评分;STAR方法)。热图显示了通过共识聚类揭示的具有六个广泛聚类(颜色键指示)的模块共聚类概率与每个聚类中至少75%的模块共有的基因以及该列表中的突出肿瘤抑制因子(斜体)和致癌基因相关的选定的显著基因本体论术语集被制成表格。指示了指示GO项的过度代表性的p值(超几何检验)(F) 在组织匹配的独立组群中,基于其扰动评分(橙色条)的模块或基于其表达(蓝色条)的个体基因的百分比(STAR方法)是一致的预后。p值表示模块重叠的显著性(STAR方法)。(G) 显示了MPS(橙色)和单基因(蓝色)的接受者工作特征曲线(AUC)下的面积分布,以预测组织匹配的独立群组的患者预后(STAR方法)。显示了它们之间比较的p值(单侧Mann-Whitney检验 ***p 10- 5)。另见图S16会开放获取文章Cell Genomics3,100262,2023年3月8日9图4. 临床相关患者亚组中的PCM(A) 对于参与染色质组织的基因(272个基因),具有显著模块激活(MPS+;红色)的多形性胶质母细胞瘤(GBM)女性患者比具有显著模块抑制(MPS- ;蓝色)的患者表现出更好的OVS还显示了患有GBM的MPS+和MPS患者数量在括号中表示。(B) 对于在其30个 UTR的前1 kb内含有至少一个RNA基序URUAMGGD(所示标志; 1,082个基因)的转录物,具有显著模块激活(MPS+;红色)的 II/IIA/IIB期乳腺癌患者显示出比具有显著模块抑制(MPS - ;蓝色)的样品更差的OVS(C) 火 山图 显 示了 与基 因 本体 注 释和 途 径( 灰点)、调节剂结合位点(绿点)和基于从头发现的DNA基序的模块(或-angeldot)相关的模块,这些模块是KRAS突变肺腺癌患者中PFS的临床预后(风险比:x轴; p值:y轴)(D) 具有突变的TP 53和注释为参与mRNA加工的基因(243个基因)的显著模块激活(MPS+对于KM图,显示了比较的统计学(中位生存时间、log2风险比和p值)另见图S23和S24。会开放获取文章10Cell Genomics3,100262,2023(图例见下页)会开放获取文章Cell Genomics3,100262,2023年3月8日11基因组畸变状态我们鉴定了在具有MYC基因座的深度扩增的乳腺癌患者中具有预测性的线性RNA基序相关模块,即使在考虑了混淆临床因素之后(图S24在另一个实例中,具有ATP 6V 1B 2基因座(空泡ATP酶的组分)缺失以及参与线粒体组织的基因激活的结肠癌患者(GO:0007005; MSigDB26)具有有利的预后(图S24D)。在KRAS突变型肺腺癌中,NRF 1靶标的显著活化与更差的预后相关(图S24E),这与NRF 1作为蛋白酶体途径调节剂的作用一致,48蛋白酶体途径49,50我们还确定了与ETV5转录因子、翻译延伸、G蛋白偶联受体(GPCR)信号传导和核糖核蛋白(RNP)亚单位组织的靶点相关的模块在KRAS突变型肺癌中的预后价值(图4C)。另一方面,这些模块在KRAS野生型肺腺癌中具有有限的预后能力(图S24F)。虽然进一步的实验对于确定其功能作用至关重要,但这些模块中的一些,如GPCR信号传导,为KRAS驱动的肺癌中的治疗靶向开辟了潜在的新途径51最后,我们还鉴定了在不同来源组织的癌症中在相同基因组基因座处具有畸变的子群组中复发性预后的模块(数据S6)。例如,mRNA剪接,其先前已经涉及多种癌症,52、53在TP 53突变肉瘤和头颈癌中是预后性的(来自Reactome R-HSA-72203的示例模块; MSigDB26,如图4D所示用于综合患者风险分层的基于PCM的机器学习模型我们试图在一个单一的预测模型中评估给定队列中所有PCM的综合预后能力。为此,我们利用10倍交叉验证下的随机生存森林54来预测个体癌症(图5A中的示意图)。在检查的大多数队列中,我们发现在队列中发现的PCM上训练的集成学习模型与单个模块相比提供了这些患者的更好的生存分层(图S25)。例如,与最强的个体PCM相比,在多种PCM上训练的模型使头颈癌的中位生存期差异改善约13.5个月(分别为71和58个月;总体生存期),低级别胶质瘤改善约43个月(分别为83和40个月;无进展间隔生存期;图5B和5C)。还在外部队列中验证了随机生存森林模型的预测能力(图S26)。为了评估与模块扰动相关的背景特异性,我们使用在来自一个队列的PCM上训练的模型来预测TCGA中每个其他队列的患者结局(STAR方法)。有趣的是,我们观察到在癌症组群上训练的模型的多个实例,其在不同来源组织的癌症中传达一致的预后(图S27),这表明模块扰动的模式及其对患者存活的影响可能是保守的,尽管它们的组织背景不同。PCM增加了临床常用因素的显著预后价值接下来,我们试图评估模块的能力,突出的个体基因和临床相关的组织病理学因素,以建立每个队列中患者生存的综合预测模型。我们量化了PCM相对于通常使用的临床和基因组特征预测患者生存的贡献。首先,我们比较了在队列中发现的PCM上训练的随机生存森林模型与仅在标准临床因素上训练的等效模型。我们发现,基于总体和无进展间期生存率,在约78%和约图5.基于PCM的模型可预测超出常规临床因素的生存率(A)量化多种PCM的联合预测能力及其与常用临床因素相比的相对强度的示意图(B和C)KM图显示了基于来自随机存活森林模型54的风险预测(高风险:紫色;低风险:绿色)的患者分层,所述随机存活森林模型54在(B)头颈癌(OVS)和(C)低级别神经胶质瘤(PFS)中在PCM(参见STAR方法)上训练显示了生存比较和患者数量的统计。(D) 在TCGA癌症队列中,在PCM(橙色)和标准临床因素(蓝色)的扰动评分上训练的模型中预测PFS的随机生存森林性能比较每个交叉对应于来自10倍交叉验证模型的10个不同实例的中位风险比,并且对于每个队列,指示了两个模型的风险比之间比较的p值(单侧Mann-Whitney检验 *p 10- 5;**p 10- 4;*p 53 10-3)。(E) 在TCGA癌症队列中,在PCM(橙色)和显著基因组畸变(SNV和CNA)(绿色)的扰动评分上训练的模型中预测OVS的随机生存森林性能的比较。每个交叉对应于来自10倍交叉验证模型的10个不同实例的中位风险比,并且对于每个队列,指示了两个模型的风险比之间比较的p值(单侧Mann-Whitney检验 *p 10- 5;**p 10- 4; *p 53 10- 3)。(使用常规临床特征和PCM的扰动评分训练的该模型的预测为暗红色,而没有PCM的可比模型的预测为灰色。生存曲线和相关统计量(p值和风险比)是两个随机生存森林模型之间风险比差异使用每个风险组中相同数量的患者进行生存比较,并指出每个模型中的患者总数(n)。(F) 在乳腺癌患者(n = 500)中,KM图显示了使用PCM扰动评分增强的标准临床因素对OVS进行的患者分层(G) 在肉瘤患者(n = 100)中,KM图显示了使用标准临床特征和通过PCM扰动评分增强的SNV对OVS进行的患者分层(H) 在胰腺癌患者(n = 100)中,KM图显示了使用标准临床特征和通过PCM扰动评分增强的CNA进行的PFS患者分层另见图S25、S28和S30。会开放获取文章12Cell Genomics3,100262,2023(图5D、S28A和S28 B;STAR方法)。同样,我们发现,与突出的单核苷酸变体和CNA相比,在PCM上训练的模型在约81%的测试队列中赋予了优异的患者生存分层(图5E和S28;STAR方法)。然后,我们试图测试,如果使用PCM与这些传统使用的临床因素提供了额外的预测价值。在测试的绝大多数队列中,在标准临床因素和PCM上训练的随机生存森林模型比仅在标准临床因素上训练的等效模型具有显著更好的预后(图S29)。类似地,使用SNV或CNA与PCM组合训练的模型比仅使用SNV(约78%的cohort)或CNA(约90%的cohort)训练的模型显著更具预后性(图S30A、 S30 B、S31A和S31 B)。接下来,我们测试了与标准临床因素和显著遗传畸变相结合相比,PCM是否具有事实上,在标准临床因素和与PCM组合的基因组畸变上训练的模型比在没有PCM的情况下训练的等效模型显著更具有预后性(图S30C、S30D、S31C和S31D)。例如,我们发现乳腺癌的中位生存期差异改善了约肉瘤约25个月(32.5 vs. 7个月),肉瘤约22个月(23 vs.0.6个月)(图5F总之,这些发现表明,模块中的扰动不仅改善了患者临床结局的预测,而且提供了相对于标准组织病理学因素和常用单位点观察的额外预后信息。讨论我们提出了一个系统的计算框架,以描述不同的分子特征和传统的临床因素如何能够预测大型癌症队列中患者的生存率。我们发现,生物学上连贯的基因组(基因模块)提供了丰富的生物标志物来源,具有显著的预后效用,优于单基因座观察(图1和2)。通过利用共表达基因中的DNA/RNA基序发现,我们已经鉴定了具有显著预后价值的大量基因模块,这些基因模块有望揭示对癌症进展具有潜在显著贡献的新生物学(图3)。虽然选择模块是因为它们能够提供生物学背景,但计算构建模块,使得它们的扰动分数最大化存活差异,可以生成高度预测存活的鲁棒模块。我们的研究结果表明,MPS至少捕获了一些潜在癌症的分子复杂性,加强了利用基因组进行单位点观察的优势。单个癌症模块的预后能力促使我们开发高阶机器学习方法,通过将多个PCM与大幅改善的生存预测相结合来生成模型。在绝大多数情况下,这些组合PCM模型提供了新的预后信息,超过了目前使用的各种组织病理学和单基因座遗传性畸变(图5)。有趣的是,我们发现MPS对生存预测的贡献在癌症之间变化很大(例如,低级别胶质瘤[LGG]和头颈鳞状细胞癌,小鼠细胞癌[HNSC];图S28一个可能的解释是,仅捕获肿瘤的基因组和/或转录组状态不太可能完全捕获所有癌症背景下的疾病轨迹开发技术和建立具有匹配临床数据的患者肿瘤的多组学分析的纲要可能会提供对疾病状态和临
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功