没有合适的资源?快使用搜索试试~ 我知道了~
DNA甲基化在癌症中的作用及其影响
医学信息学解锁23(2021)100542应用TCGA数据库Daniele Santonia,*,Danilo Pillottib,Davide Vergni caIstituto di Analisi dei Sistemi ed InformaticabTor Vergata大学生物系,Via della Ricerca Scientific 1,00133,罗马,意大利cIstituto per le Applicationazioni del CalcoloA R T I C L EI N FO保留字:癌症甲基化图谱癌症基因组图谱基因调控染色体结构板层相关结构域A B S T R A C T背景:DNA甲基化是导致表型改变而不改变基因型的主要表观遗传学机制。自70年代末以来,甲基化在癌症中的作用变得越来越清楚。目的:这项工作的目的是阐明甲基化事件对癌细胞的影响,提供证据表明,小区域的差异甲基化,主要以超甲基化为特征,影响基因调控,而大基因组区域的差异甲基化,主要以低甲基化为特征,影响染色体组织。方法:通过利用可靠的计算和统计分析,研究了六种不同癌症类型的癌症和正常样本的甲基化图谱,寻找在两种情况下显示差异甲基化模式结果:通过染色体滑动窗口方法,鉴定出一组大小为2Kbp的差异甲基化基因组微区和大小为1Mbp的宏区。微区主要与功能元件相关,而宏区主要与核染色体组织相关。结果证实了前人工作中讨论的结果,为高甲基化主要发生在重要的微区而低甲基化主要发生在重要的宏区提供了明确的证据。有趣的是,鉴定了六种不同癌症常见的差异甲基化区域的存在,并且还发现了一些未预期和先前未探索的特殊甲基化模式结论:这项工作中提出的有效和强大的计算和统计方法可用于阐明DNA甲基化在癌症和其他非恶性疾病中的作用,并可定制以研究小规模和大规模基因组特定区域的差异甲基化模式。1. 介绍表观遗传学正日益引起国际科学界的关注,因为现在已经确定,如果不将基因组学和表观基因组学结合起来,就不能解释从基因型到表型的转变。甲基化是最相关的机制,允许表观遗传学提供进一步的调节水平和细胞分化的有效工具。它是一种影响核苷酸含氮碱基和氨基酸残基侧链的分子过程,包括烷基取代基-CH 3甲基与有机分子的功能化学基团的可逆加成。这两种类型的甲基化/去甲基化反应,DNA和组蛋白尾部协同作用调节基因表达。DNA胞嘧啶甲基化主要发生在哺乳类真核细胞中[1],主要发生在CpG二核苷酸的背景下。在人类基因组中,60%CpG二核苷酸通常聚集在一起形成称为CpG岛的区域,其通常位于蛋白质编码基因转录起始位点的上游,并且其高度动态的甲基化状态构成基因表达水平调节的主要表观遗传机制之一。甲基化事件在肿瘤发生和癌症进展中起着重要作用,因此癌细胞的甲基化图谱显示出独特的特征[3]。* 通讯作者。电子邮件地址:daniele. iasi.cnr.it(D.Santoni)。https://doi.org/10.1016/j.imu.2021.100542接收日期:2020年10月29日;接收日期:2021年2月9日;接受日期:2021年2月21日在线预订2021年2352-9148/©2021的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuD. Santoni等人医学信息学解锁23(2021)1005422≥这项工作的目的是研究正常细胞和癌细胞中DNA CpG甲基化谱之间的差异,并评估这些差异在小(2 K bp)和大(1 M bp)尺度上的影响。基于从癌症基因组图谱(TCGA)数据库[4]提取的甲基化图谱的可靠统计分析已被应用于选择在癌症和正常样品之间显示显著差异甲基化值的那些探针。根据可用样品的数量考虑并选择了SIX种癌症类型。值得注意的是,对于每种癌症类型,数据集中仅包括可获得正常/癌症(受给定病理影响的同一患者的正常细胞和癌细胞)的那些样品,以消除由于不同受试者之间的不同遗传甲基化背景而导致的偏倚。然后,将探针定位在染色体上,并通过滑动窗口方法分析其甲基化谱。用2Kbp的微窗口研究功能调控的差异甲基化,用1Mbp的宏窗口研究结构调控的差异甲基化。在微观和宏观水平上的窗口都进行了排名,以确定那些部分的基因组中,以前的差异甲基化。最后,这些区域,我们称之为泛癌区域,显示出高度和显著的差异,所有正常和癌症样本之间的差异甲基化模式或在本研究中考虑的许多癌症中, 鉴定2. 相关作品自70年代末以来进一步的研究强调了异常甲基化如何参与癌症中改变的大多数重要途径,包括细胞周期控制的丧失、转录因子的功能、受体功能、正常细胞-细胞和细胞-基质相互作用的破坏、信号转导途径的失活、凋亡信号的丧失和遗传不稳定性[7,37,39]。特别是Jones和Baylin强调了异常启动子高甲基化与不适当的基因沉默相关,如何表征肿瘤进展的每一步[8]。实验和生物信息学方法相结合,用于揭示需要DNA甲基化的基因组区域,并鉴定必须通过DNA甲基化沉默才能使癌细胞存活的基因[9]。一些研究应用了机器学习方法,特别深度学习的新范式,研究甲基化与癌症之间的关系Levy及其同事提出了一种基于深度学习的计算工具MethylNet,用于分析甲基化图谱,同时考虑癌症亚型的高阶信息,如年龄和与吸烟相关的因素,与已知差异一致[10]。Jurmeister及其同事将机器学习方法应用于DNA甲基化谱,以区分原发性肺鳞状细胞癌和头颈部转移[11]。大多数关于癌症中甲基化的研究都集中在甲基化对抑制单个基因表达的影响上,这表明癌症中普遍存在高甲基化,但如果我们有一个整体的观点,正如最近几项研究[12]所强调的,我们可以观察到的现象是,甲基化在癌症中的主要作用是在核染色体结构的重组中发挥作用,由于称为部分甲基化结构域的长区域的低甲基化,导致异常的染色质重组[13,14]。实际上,根据所考虑的癌症类型和基因组区域,观察到低甲基化和高甲基化。基因组高甲基化通常发生在CpG岛中,而低甲基化发生在高度和中度重复的DNA序列中,包括异染色质DNA重复序列、分散的逆转录转座子和内源性逆转录病毒元件[15]。关于基因组学和表观基因组学癌症数据的综合资源2013年发布的癌症基因组图谱[4]收集了与33种不同癌症类型相关的大量数据以及正常对照数据。这是研究人员的基本资源,允许通过与相关的正常细胞进行比较来识别癌细胞中的异常行为。许多研究基于TCGA数据库进行分析,以阐明肿瘤发生的不同方面和特定癌症类型的特征。一些工作集中在单一癌症类型上,寻找显示改变的甲基化启动子模式的基因组或寻找肿瘤标志物[16,17]。其他一些人试图整合不同的数据源,包括甲基化,以表征癌症[18,19]。进一步的研究鉴定了特定的探针组,再次应用机器学习方法,以鉴定与癌症类型相关的甲基化特征,也作为预测疾病模型[20特别是Weisenberger及其同事分析了来自TCGA数据库的DNA甲基化图谱,显示改变是癌症基因组学的所有方面的组成部分,并且它们与基因表达、序列和拷贝数变化具有重要关联[24]。3. 材料和方法3.1. TCGA数据库癌症基因组图谱为几种类型的人类癌症提供了非常丰富的基因组学和表观基因组学数据。特别是,在数据库中,有近一万个与三十多种不同癌症相关的正常细胞和癌细胞的大量甲基化谱。每个甲基化谱包含在文本文件中,该文本文件的特征在于报告与样品相关的若干信息的特定标识符(条形码),即患者标识符、组织、癌症,对于每个正常细胞,我们在癌细胞集中选择来自同一患者的细胞(当可用时),因为我们的目标是追踪由于癌症而不是不同受试者之间的基因组变异性导致的甲基化差异。因此,对于每种病理,数据样本由取自相同患者的N个正常细胞和N个相关癌细胞组成。为了进行分析,我们仅选择具有N50的那些病理,如表1中所报告的,以便具有显著数量的样品来统计学地研究差异甲基化谱。报告甲基化概况的文本文件具有全部相同的格式并且尺寸精确地包含485577条线,每条线与由唯一ID标记的CpG探针相关联。探针的甲基化水平(杂交后,在Illumina Infinium 450 k微阵列中,由每个DNA探针点的荧光强度计算),其值范围为0(不存在甲基化)至1(存在甲基化)。通常,β值可以被认为是CpG被甲基化的概率。与探针相关的其他特征是染色体上的基因组坐标、与该区域相关的基因(如果探针从TSS上游1500 bp下降到基因末端)、相对于CpG岛的位置等。对于给定的病理和每个探针,收集与正常和癌细胞相关的β值集,以便分析表1与所选病理相关的癌细胞和正常细胞的甲基化样本数量,即,BRCA -乳腺癌,HNSC -头颈部鳞状细胞癌,KIRC -肾透明细胞癌,LIHC -肝细胞癌,PRAD -前列腺癌,THCA -甲状腺癌。癌癌细胞正常细胞(样本量)BRCA79696HNSC53050KIRC325160LIHC38050PRAD50350THCA51556D. Santoni等人医学信息学解锁23(2021)1005423()下一页()下一页()下一页()()∑()下一页∑N(i)=∑N+(i)s()()()()()()()下一页()下一页()下一页==从统计学的观点来看,正常细胞和癌细胞是否可以被认为是差异甲基化的。引入了评价甲基化水平之间差异的距离,如以下部分所示。在某些情况下,β值不可用(在现场报告为NA值):我们从分析中排除了报告给定病理学缺失值超过20%的探针。3.1.1. 统计测量本段的目的是介绍用于识别正常细胞群和癌细胞群在β值分布方面呈现不同甲基化谱的情况的统计技术。3.1.1.1. Mann-WhitneyU检验。 我们考虑单个甲基化位点k,我们将B C(k)定义为癌细胞位点k的β值集,将B Nk定义为正常细胞位点k的β值集。我们的第一个目标是确定两个样本分布BCk和BNk是否可以被认为是从相同的概率分布中提取的,这意味着是否存在甲基化的差异谱为了实现这一目的,存在不同的统计检验,其中大多数依赖于理论分布的高斯假设由于我们的数据在0和1之间,并且高斯假设不适用,因此我们决定使用Mann-Whitney检验,这是零假设的非参数检验,即BCk和BNk具有相同的概率分布[25]。该检验的应用提供了用于接受或拒绝零假设的p值。在这项工作中,为了拒绝零假设,选择了低于0.001的p值,这表明两个样本分布BC(k)和BN(k)不能被认为是从同一个样本中提取的。窗口,wL i,其是包含以核苷酸i为中心的L个碱基的DNA的一部分,并且我们定义了以下量。• 窗口中的探针数量wL(i):N(i)=1个;k∈wL(i)• 窗口中显著探针的数量wL(i),其中我们提醒当探针k差异甲基化,Θ k=1,否则Θ k=0:N s(i)=Θk;k∈wL(i)• 窗口中差异甲基化探针之间的平均距离wL(i):<$d(i)<$=∑k∈wL(i)d(k)Θk.此外,为了分析低甲基化和高甲基化探针的特征,我们计算了包含低甲基化(其中μH(k)>μC(k))的集合w+L(i)和w-L(i)的上述量。和高甲基化(μH(k)μC(k))探针。<因此,我们可以定义。• 的 number 的 显著 窗口中的低甲基化探针wL(i):N+(i)=∑Θ;概率分布,我们可以肯定地说,网站k是在正常和癌细胞之间差异甲基化。为了容易地鉴定那些差异甲基化的探针,我们SKk∈w+L(i)引入假设值为1或0的变量Θk,在探测器k的情况下,必须分别拒绝或接受零假设3.1.1.2. 样品之间的距离。一旦确定与正常细胞和癌细胞相关的两个样品(参照探针k)是统计学上不同的(Θ k1),一个非常重要的问题是确定探针在表征两个样品之间的甲基化差异方面的相关性。具有两个相距不太远的良好分离的样品是一回事,即具有刚好低于0.5和刚好高于0.5的值,具有完全分离的具有非常不同的甲基化谱的样品是另一回事,即具有所有值接近0的样品和具有所有值接近1的另一样品两个样本之间可以建立许多不同的距离,我们选择使用一个非常简单的距离来确定相关性两个样本之间的差异甲基化:• 窗口中显著高甲基化探针的数量wL(i):Ns-(i)=Θk;k∈w-L(i)• 窗口中低甲基化探针之间的平均距离(i);l(i)d(k)θ k=∑k∈w+L(i)d(k)Θk;• 窗口中高甲基化探针之间的平均距离WL(i):d kμN(k)-μC(k)ωd-(i)ω=∑k∈w-L(i)d(k)Θk.()=(σC(k)+σN(k))/2其中μCk和μNk分别是样本BCk和BNk的平均值,σCk和σNk是标准差。我们称之为d-指数的这一指标旨在提供与位点k相关的甲基化谱之间的距离,用以下平均值测量:Ns-(i)最后,我们还将显著低甲基化和高甲基化探针的百分比定义为:%N+(i)=Ns+(i)且%N-(i)=Ns-(i)。两个样本的标准差例如,对于sN(i)sN(i)d k表示甲基化谱的平均值相差两个标准偏差。阳性dk表示低甲基化,而阴性dk表示探针k的高甲基化(低甲基化和高甲基化指的是癌细胞)。3.1.1.3. 观察窗。在癌症和正常细胞之间的甲基化差异的研究中,即使单个探针的差异甲基化可能具有其自身的重要性,但在某些区域中的许多探针在甲基化谱中显示出重要差异的情况下更相关。因此,我们引入了一个观察,最后,让我们注意,在下文中,我们将仅使用L2kbp和L1Mbp,并且从上下文中将清楚的是,哪个是所考虑的大小,并且为了符号简单起见,我们将参考省略窗口大小参数L的那些量。在图2的步骤1-3中概述了用于确定差异甲基化探针的操作步骤·D. Santoni等人医学信息学解锁23(2021)1005424Fig. 1. 所考虑的癌症的d指数分布。由于LIHC和THCA癌症显示出最独特的差异甲基化谱,图A和图B显示了最独特的差异甲基化谱。 分别显示了当考虑不同细胞类型(正常细胞对癌细胞-粗线)之间和相同细胞类型(正常细胞对正常细胞-亮虚线和癌细胞对癌细胞-暗虚线)内的测量值d(k)时,图二、 在宏观和微观区域中测定差异甲基化区域的操作步骤。步骤1对于宏观(微观)区域,我们认为至少存在50(20)个探针,其中至少90%(95%)必须具有显著性,p值低于10- 3。4. 结果一旦选择了具有足够样本的癌症,我们收集了正常细胞和癌细胞中每个探针的β值,并计算了p值和d指数,以鉴定差异甲基化的探针。在下一小节中,我们提出了d指数的第一个统计分析,而在随后的小节中,根据适当的p值截止值,将每种癌症的显著探针定位在染色体上,以鉴定该癌症差异甲基化的那些区域.4.1. d指数分布对新度量的属性的第一个重要检查可以通过查看变量d(k)在数据集中的分布来给出。特别是文献中关于癌症和正常细胞中的低甲基化和高甲基化的已知结果之间的比较,以及使用引入的度量获得的结果。表2报告了关于六种所选癌症的低甲基化和高甲基化探针与最近的研究一致([26]),两种癌症显示低甲基化相对于高甲基化明显占优势,特别是LIHC和HNSC,平均d指数等于0.30,0.11,以及许多显著(p值低于10- 3)低甲基化探针对高甲基化探针,LIHC为106,312对30,674(高出三倍以上),HNSC为90,324对61,337。在KIRC癌症中,平均d指数等于0.05的低甲基化略占优势,并且与高甲基化的是109,835,102,897人被发现 THCA癌症的特征基本上不在于D. Santoni等人医学信息学解锁23(2021)1005425--()下一页表2与每种癌症的所考虑探针相关的低/高甲基化统计第二列报告所有探针的平均d指数。第三、第四和第五列显示阴性(高甲基化)阳性(低甲基化)的数量和由于β值不可用而 最后两列报告了显著p值低于10- 3的高/低甲基化探针的数量。在我们考虑的所有或大多数癌症中甲基化,发现我们定义的泛癌症区域(限于我们考虑的六种病理,但仍然非常重要,因为它们指的是非常不同的癌症)。该过程在图2中概述,而在图3中显示了甲基化谱的实例巨蟹座不可靠#Hyper #Hypo10-3#Hypo10-34.2.1. 宏窗口考虑大小等于1 M bp的区域,并对所有BRCA-0.09208,478十八万七千零四十八90,052 104,531 69,995HNSC 0.11 172,433 222,777 90,368 61,337 90,324KIRC 0.05 192,517 203,173 89,888 102,897LIHC 0.30 145,561 249,874 90,143 30,674 106,312PRAD-0.17224,561十七万一千三百零三89,714 88,314 36,566THCA 0.02 199,687 195,970 89,921 35,343 31,760低甲基化或高甲基化占优势,平均d指数为0.02,低甲基化和高甲基化显著探针的数量非常接近。在BRCA中,特别是PRAD中,观察到高甲基化占优势(平均d指数分别等于0.09和0.17),并且显著高甲基化探针相对于低甲基化探针的数量更高(BRCA为104,531对69,995,PRAD这与已知的研究一致,表明癌症中低甲基化的普遍优势,即使这对于每种癌症类型都不是真的,特别是对于BRCA和PRAD,如Wu及其同事的工作[27]中所报道的;已经显示出高甲基化的作用更强(在癌症中起主要作用)。抑制作用)的启动子基因的CpG岛在这里考虑的各种癌症中发生的不同类型的甲基化分布之间的更广泛的评估可以在图1B中找到。1 .一、在主图中,显示了每种癌症的dk分布。由于低甲基化和高甲基化位点的不均匀存在,分布显示出高度的不对称性。并不令人惊讶的是,不同的癌症显示出完全不同的甲基化谱。由于LIHC和THCA显示出最独特的差异甲基化谱,我们将重点放在它们上(分别为图1的图A和B),并且我们显示了原始差异甲基化谱与正常(较亮的线)和癌症(较暗的线)细胞的同质组内的两种差异甲基化情况的比较。这两个图显示,如果在不同细胞类型(正常与癌症)之间计算而不是在同一类细胞(正常或癌症)内计算,差异甲基化谱具有更宽的差异,正如预期的那样。4.2. 甲基化窗口差异甲基化探针染色体上的映射和甲基化概况进行了分析,通过滑动窗口的方法,考虑到两个不同的观点:前者,我们定义的宏观和后者,我们定义微观,其特征在于区域的大小为1 M bp和2 K bp,分别。对于低分辨率分析,将宏窗口大小设置为1M,具有200 K bp的位移(根据材料和方法中所述的滑动窗口方法),因为该大小与染色体结构元件如板层相关结构域(LAD)的大小相当。另一方面,将微窗大小设置为2K,具有500bp的位移以用于高分辨率分析,因为该大小与功能区如启动子和编码序列的大小相当,从而允许捕获甲基化对基因调节的影响。值得注意的是,即使所考虑的窗口大小被严格设置,移位程序也提供了更有效和精确的调查。在宏观窗口的情况下,我们分析了这些区域在染色体结构组织中的潜在作用,而对于微观窗口,考虑了这些基因组性状中的功能元件,如蛋白质编码、反义和miRNA。最后,我们选择了那些不同的窗口,选择每种单一癌症类型的染色体和严格阈值,以根据正常和癌症样品之间的差异甲基化选择最显著的基因组性状。仅考虑在窗口中存在最少50个探针的基因组区域,并且这些探针中的至少90%必须具有低于10 - 3的相关p值(如材料和方法中所述,特别是图1A)。2)的情况。选定区域的摘要见表3。BRCA和LIHC分别显示了最高的窗口36和37,LIHC也显示了最高的有效探针数量,平均为185个,为94%,HNSC平均为102个,为94%。值得注意的是,六分之四的癌症显示普遍的低甲基化模式(LIHC达到93%的低甲基化),除了THCA,其没有鉴定出窗口(这与上文报道的关于甲基化对这种癌症类型和HNSC的影响降低的内容一致,其中一半的窗口显示高甲基化模式,剩余的一半显示低甲基化模式)。这与最近关注癌症中核染色体结构重组的研究一致。事实上,大多数关于甲基化癌症的研究都集中在甲基化对抑制单个基因表达的影响上,提示癌症中高甲基化的普遍存在,但从更广泛的角度来看[12-14 ],甲基化在癌症中的重要作用是在核染色体结构的重组中发挥作用,由于称为部分甲基化结构域的长区域的低甲基化,导致异常染色质重组([13,14])。在表4中,我们报告了15个最佳1 M窗口(3个用于BRCA,3个用于HNSC,KIRC1例,LIHC2例)。第二个窗口是唯一一个实际上由两个连续的1 M区域组成的窗口(偏移了200 K,并且都非常重要)。有两个窗口具有100%的显著探针(19号染色体上的Id 6和21号染色体上的Id9),总共53个和91个。9个窗口中有5个窗口的低甲基化优势范围为61%至100%,而4个窗口显示高甲基化优势50%至87%。观察到Guelen及其同事[38]研究和实验确定的这些区域和LAD之间存在相关重叠。9个窗口中有4个完全包含在LAD中(显示相关的低甲基化模式),而其他3个窗口显示与Guelen研究的LAD显著重叠。特别地,窗口1包含在LADchr 7:152172250-154954755中,以及窗口3 LAD chr 16:5153535-8604427,窗口4包含在LAD chr 2:75937802-80210697中,窗口5包含在LAD chr 5:1662775-5410587中,窗口8包含在LAD chr 5:1662775-5410587中。在窗口5和7中观察到显著重叠(LADS chr 8:62727813-4.2.2. 微窗考虑大小为2K bp的基因组区域用于与微窗相关的分析。对于每种癌症,仅考虑具有最少20个探针的2K bp基因组区域,其中至少95%的探针具有低于10 - 3的相关p值(如材料和方法中所述,特别是图1)。 2)的情况。所考虑的窗口及其功能的总结见表5。BRCA和HNSC显示了更多的显著窗口(分别为65和69)。除LIHC外,所有病理学均显示明显的高甲基化优势D. Santoni等人医学信息学解锁23(2021)1005426图三. 在THCA肿瘤的1号染色体的情况下,宏观窗口的甲基化谱的表示。在每个宏窗口中,显著探针的数量乘以平均d指数,以红色(负d指数,高甲基化)和蓝色(正d指数,低甲基化)显示。小的垂直深绿色区域显示了甲基化差异最大的三个宏区域。在插图中,显示了大部分高甲基化区域的放大(使用微窗)。(For关于本图图例中颜色的解释,读者可参考本文的Web版本表3显著的1 M bp窗口特征。根据以下限制条件选择窗口:它们必须包含至少50个探针,其中90%的p值小于10- 3。癌症类型报告在第一列中。第二列报告重要窗口的总数第三列报告所选窗口中的平均探测数第四列报告显著探针的百分比(显著探针总数除以所有选定窗口中的探针总数第五列和第六列显示低甲基化和高甲基化显著探针的百分比第七列和第八列报告显著低甲基化和高甲基化探针的平均d指数。癌症#w NNs%N+s%N-sd+Ld-L26 66 93 67 26 1.70-1.50HNSC 28 102 94 50 44 2.03-2.19KIRC 20 61 91 53 38 1.37-1.37LIHC 37 185 94 93 1 2.04-1.00PRAD 3 67 92 61 31 1.19-1.13 THCA 0(58%的低甲基化)。THCA显示了最低数量的重要窗口,只有2。表6显示了一些最重要的窗口,报告了窗口的位置(染色体和坐标)以及与这些区域相关的其他参数。我们报告了每种癌症的3个窗口,除了THCA,其没有特别相关的窗口。(我们提醒,如前一节所强调的,THCA在6种病理中显示出最小的d指数,表明甲基化对这种癌症的影响有限)。有趣的是,大多数显著窗口出现在染色体6和7中(分别为6和4个窗口)。值得注意的是,对于所有窗口,根据选择标准,至少有19个探头(95%的表5显著的2K bp窗口特征。根据以下限制条件选择窗口:它们必须包含至少20个探针,其中95%的p值小于10- 3。癌症类型报告在第一列中。第二列报告重要窗口的总数第三列报告所选窗口中的平均探测数第四列报告显著探针的百分比(显著探针总数除以所有选定窗口中的探针总数第五列和第六列显示低甲基化和高甲基化显著探针的百分比第七列和第八列报告显著低甲基化和高甲基化探针的平均d癌症#w NNs%N+s%N-sd+Ld-L巴西货币联盟65 27 98 4 94 1.02-1.52HNSC 69 27 99 15 84 1.58-1.98KIRC 54 28 98 23 75 1.11-1.50LIHC 29 27 98 58 40 1.60-1.83PRAD 46 28 98 0 98-THCA 2 32 97 0 97 0-1.3表4根据d指数评分选择最佳1 M bp窗口第一列报告窗口ID。癌症类型报告在第二列中。第三和第四列分别报告染色体和基因组区域第五列报告所选窗口中的平均探测数第六列报告显著探针的百分比(显著探针总数除以所有选定窗口中的探针总数)。第七列和第八列显示低甲基化和高甲基化显著探针的百分比第九列和第十列报告显著低甲基化和高甲基化探针的平均d指数Id癌症Chr区域N>N%Ns染色体%N+s染色体%N-s染色体d+L染色体德-勒1BRCA chr7 153.400.000–154.400.000934350 1.59-1.942BRCA chr12 126.400.000–127.600.000926131 2.12-1.873BRCA chr16 6.8000.000907416 2.12-1.874HNSC chr2 78.800.000–79.800.000946133 2.75-2.725HNSC chr8 63.400.000–64.400.000921181 1.53-2.866HNSC chr19 20.000.000–21.000.0001001387 2.47-2.467KIRC chr5 63.600.000–64.600.00092983 1.91-1.438LIHC chr5 380000097970 2.32–9LIHC chr21 30.000.000–31.000.0001001000 2.36–D. Santoni等人表7医学信息学解锁23(2021)1005427-根据d指数得分选择最佳2Kbp窗口第一列报告窗口ID。癌症类型报告在第二列中。第三和第四列分别报告染色体和基因组区域。第五列报告区域由多少个连续窗口组成。第六列报告所选窗口中的平均探测数第七列报告显著探针的百分比(显著探针总数除以所有选定窗口中的探针总数)。第八列报告了低甲基化或高甲基化的优势。第九列报告平均d-指数值,最后一列显示区域中出现的功能元素列表。IdCancerChrRegion#wN %Ns甲基苯丙胺注释1 BRCA chr6 29552000- 假基因2 BRCA chr 6 30126000-3 BRCA chr 7 27129500-HOXA-AS 3反义HOXA 3蛋白编码HOXA 4蛋白编码RP 1 -170O19.22原转录本4LIHC chr 10 132785000-5 LIHC chr14 101022000MIR299 MIR411 MIR3796 LIHC chr14 101065000MIR412 MIR6567 KIRC chr 7 27142500-HOXA5蛋白编码RP 1 -170O19.22原转录本8KIRC chr 6 30683500AL662797.1 miRNA9 KIRC chr 1 24931000-10 PRAD chr6 30006000- 假基因HLA-J transr.未处理ZNRD 1-AS 1反义11 PRAD chr 6 30128000-12 PRAD chr 7 95395000-13 HNSC chr 7 27185500-HOXA11-AS antisenseHOXA11-AS1-4 misc-RNAHOXA11-AS1-5 misc-RNARP1-170O19.14 linc-RNA14 HNSC chr6 28634000- 假基因15 HNSC chr 1 24931000-20)具有显著性,p值低于10- 3,并且对于高甲基化的情况,所有窗口报告了非常高且显著的平均d指数低于2,而对于低甲基化的情况,报告了d指数高于1.8。如可以观察到的,负平均d指数值(高甲基化)通常与功能元件如蛋白质编码或假基因相关,而正平均d指数值(低甲基化)通常与miRNA相关。与BRCA相关的窗口1与假基因OR2I 1P相关,该假基因已知是一种有效的肿瘤标志物(用于癌症免疫治疗的基因签名US 2019 316 203 A1专利)。对于HNSC、LIHC和PRAD,根据所选择的参数,也选择相同的基因组区域作为微窗口。位于染色体7上彼此非常接近的窗口3和7(分别为BRCA和KIRC)都与属于同源黑猩猩XHOX转录因子家族的蛋白质:HOXA 3、HOXA 4和HOXA 5以及相应的反义和加工的转录物RP 1 - 170 O19.22相关。发现所有HOX蛋白HOXA3、HOXA4和HOXA5都参与肿瘤发生[28窗口9和15与相同区域相关,与两种病理KIRC和HNSC的最佳窗口相关,与肿瘤抑制活性相关的RUNX 3相关[31];而PRAD中与窗口12相关的PON 3也与癌症相关[32]。令人惊讶但有趣的是,同时窗口2和11结果与任何功能元素相关联。这将值得进一步分析和研究,因为这些区域中大部分探针的极高显著差异甲基化水平不可能是偶然的,应该从功能和调节作用方面来解释。三个窗口5、6和8导致低甲基化,并且如预期的,它们与miRNA相关。Windows 5和Windows 6位于14q32.31的基因组区域(也称为C14或miR-379/miR-379)。656簇),约55 Kb,缺乏蛋白质编码基因,由52个成熟的miRNA表征。与这些基因相关的miRNA包括MIR299、MIR411、MIR379、MIR369、MIR409、MIR 410、MIR 412、MIR 414、MIR 416、MIR418、MIR 419、MIR410、MIR 412、MIR 410、MIR411、MIR 410MIR656属于这个星团。C14簇通常与几种癌症类型中的下调相关[33],但肝细胞癌中报告了上调[34],这与我们的发现一致,因为这些窗口被选为LIHC的显著低甲基化。4.2.3. 泛癌窗口正如我们在前面的章节中所观察到的,每种癌症在低/高甲基化和甲基化模式方面都表现出特殊的行为。在本小节中,尝试在微观和宏观两个方面识别更多病理共有的那些重要窗口。可以假设,这些泛癌区域在整体意义上在肿瘤发生中起作用,并且它们不仅与特定的癌症类型相关,而且通常与表征肿瘤发作的异常甲基化模式相关。我们选择保持严格的显著性阈值,如前几节所述,即p值低于10- 3,微观窗口中的探针数量最少为20个,宏观窗口中的探针数量最少为100个,但无论如何,我们将显著探针的百分比降低至65%(即使所有百分比均高于80%,也有一些获胜)。泛癌症微观和宏观窗口分别见表7和表8位于14号染色体上的微窗1在所有六种病理中显著差异甲基化。其结果是相对于6个数据集平均在几乎18个探针中低甲基化,并且其与一簇miRNA相关,如前一节所讨论的。微窗口2位于染色体6上,以及窗口3,它们彼此非常接近(约300 K bp)。 它们对于5种病理都是显著的,除了THCA。窗口D. Santoni等人医学信息学解锁23(2021)1005428表7泛癌最佳2K bp窗口。 窗口必须包含至少20个探针,其中65%对于所有癌症的p值小于10- 3。第一列报告窗口ID。相关癌症报告在第二列。第三和第四列分别报告染色体和基因组区域第五列报告区域由多少个连续窗口组成。第六列报告所选窗口中的平均探测数。显著低甲基化和高甲基化探针的平均数分别报告在第七列和第八显著低甲基化和高甲基化探针的平均d指数分别报告在第九列和第十在最后一列中,显示了在该区域中出现的功能元件的列表LIHC PRADLIHC PRAD表8泛癌最佳1 M bp窗口。窗口必须包含至少100个探针,其中65%对于所有癌症的p值小于10- 3。第一列报告窗口ID。第二列报告相关癌症。第三和第四列分别报告染色体和基因组区域。第五列报告区域由多少个连续窗口组成。第5x列报告所选窗口中探针的平均数量(非整数值意味着对于某些癌症,出现缺失的β值)。显著低甲基化和高甲基化探针的平均数分别报告在第七列和第八列中。显著低甲基化和高甲基化探针的平均d指数分别报告在第九列和第十LIHC PRADLIHCPRADLIHCPRADLIHC2在5个数据集的30个探针中平均约有21个探针被过度甲基化在第二个和最后一个外显子之间的区域中存在所有病理共有的明显的超甲基化模式,但有趣的是,也有一些探针(特别是4个探针)保守地低甲基化(PRAD除外)。所有这些探针都出现在基因的第一个外显子附近,这表明它们可能与癌症中与第一个外显子相连的选择性剪接机制有关。根据Maor及其同事关于DNA甲基化在剪接过程中的作用的报道,这个问题也值得进一步研究[35]。这种分析可以很容易地对类似的甲基化模式进行,可能与甲基化驱动的选择性剪接有关对于5个数据集,平均29个探针中的28个探针被预先高甲基化,这表明基因表达的潜在抑制作用,但令人惊讶的是,它不与基因相关,并且没有其他功能元件与该区域相关当然,这值得进一步研究,因为5种病理学共有的这种明显的超甲基化模式关于1M泛癌分析,鉴定了6个窗口窗口1由5种癌症类型共享,另一个由4种癌症类型共享。窗口1由4个连续的有效窗口组成(我们提醒,对1 M窗口的计算是应用200 K的移位来执行的),窗口2由3个连续的有效窗口组成。显著探针的平均数范围为132至190,除5个外,所有的葡萄酒都以低甲基化模式为特征,显著低甲基化探针的数量范围为85至190个。149.在窗口5的情况下,存在20个低甲基化探针和138个高甲基化探针。表中报告的所有泛癌症窗口均与一个或多个LAD相关[38]:窗口1有两个LAD 157145909-157930561和158098845-158966229,窗口2有两个LAD 157145909-157930561 和 158098845-158966229 。4169582-5213736,窗口3与152025174窗口4与24758121797742337–99777339和100057867-100545737,窗口6与129251344-131662247.5. 讨论DNA甲基化,特别是CpG二核苷酸中胞嘧啶的甲基化,是表观遗传学影响表型而不改变基因型的主要因素之一。DNA甲基化是一个可逆的过程,可以控制细胞活性的许多方面,例如通过调控基因表达来控制细胞分化。表观遗传学和甲基化现在是大量研究的对象,然而,自70年代末以来大多数关于甲基化和癌症的研究都集中在单一的癌症类型和有限的一组基因上,试图找到启动子超甲基化和基因表达抑制之间的联系。这导致了癌症与超甲基化的自然关联,即使随后的近期研究显示癌症通常以显著的低甲基化事件为特征,在许多癌症类型中,高甲基化确实普遍存在[13,14]。如[12]中所假设的,癌细胞的甲基化图谱中出现两种主要模式。前者的特点是相对小(微)区域的超甲基化,其大小为K bp的数量级,与基因相关,对基因表达起抑制作用。 后者的特点是较大基因组(宏)区域的低甲基化,称为部分甲基化甲基化结构域(Methylated Domains)通常与核板相关结构域(LaminaAssociated Domains)相关,其大小为M bp,在核染色体结构重组中起作用,导致异常染色质重组。这个方案总结了一个典型的场景,无论如何,身份证癌症
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功