没有合适的资源?快使用搜索试试~ 我知道了~
文章跨人类性状的表达和选择性剪接变异的景观图形摘要亮点发育、性别、年龄和BMI对表达变异有d对表达变异的贡献主要是加性的,相互作用很少。d核糖体蛋白在不同人群d糖尿病的系统分析揭示了与胫神经作者Raquel Garc 'a-Pe'rez,Jose MiguelRamirez,Aida Ripoll-Cladellas,...,佩德罗湾Ferreira,Kristin G. Ardlie,Marta Mele'对应marta. bsc.es简言之Garc 'ıa-Pe' rez等人对人口统计学和临床特征与人类转录组变异之间的关联进行多组织分析。性别、年龄、BMI和某些疾病对基因表达变异有很大的组织特异性贡献,而选择性剪接变异主要由祖先驱动并受遗传控制。Garcarta-Pe 'rez等人,2023,细胞基因组学3,1002442023年1月11日- 2022年作者https://doi.org/10.1016/j.xgen.2022.100244会会开放获取文章跨人类性状的表达和选择性剪接变异的景观Raquel Garcaval'a-Pe' rez,1Jose Miguel Ramirez,1Aida Ripoll-Cladellas,1Ruben Chazarra-Gil,1Winona Oliveros,1Oleksandra Soldatkina,1Mattia Bosio,1Paul Joris Rognon,1,2,3Salvador Capella-Gutierrez,1Miquel Calvo,4费兰·里韦特尔,4罗德里克·吉格奥,5弗朗·科瓦奇·阿盖,6,10佩德罗·G。 费雷拉7,8,9克里斯汀·G Ardlie,6和MartaMele'1,1,1,*1生命科学系,巴塞罗那超级计算中心(BCN-CNS),巴塞罗那,加泰罗尼亚08034,西班牙2西班牙加泰罗尼亚巴塞罗那庞培法布拉大学经济与商业系,邮编:080053Department of Statistics and Operations Research,Universitat Polite`cnica de Catalunya,Barcelona,Catalonia 08034,Spain4巴塞罗那大学(UB)生物学系统计科,巴塞罗那,加泰罗尼亚08028,西班牙5生物信息学和基因组学,基因组调控中心,巴塞罗那,加泰罗尼亚08003,西班牙6哈佛和麻省理工学院布罗德研究所,波士顿,MA,美国7波尔图大学理学院计算机科学系,Rua do Campo Alegre,4169-007 Porto,葡萄牙8人工智能和决策支持实验室,INESC TEC,Rua Dr. Roberto Frias,4200-465 Porto,葡萄牙9波尔图大学分子病理学和免疫学研究所,健康研究和创新研究所(i3s),R.Alfredo Allen 208,4200-135 Porto,葡萄牙10现住址:Illumina人工智能实验室,Illumina公司,San Diego,CA 92121,美国11引线触点* 通讯地址:marta.bsc.eshttps://doi.org/10.1016/j.xgen.2022.100244总结理解个体转录组变异的后果对于解读人类生物学和疾病至关重要我们实施了一个统计框架,以量化21个个体性状的贡献,作为基因表达和选择性剪接变异的驱动因素,来自基因型组织表达项目的46个人体组织和781个我们证明了血统、性别、年龄和BMI对表达变异性的贡献是剪接的变异受祖先支配,并且在大多数组织中处于遗传控制之下,核糖体蛋白显示出强烈的组织共享剪接事件富集我们的分析揭示了1型和2型糖尿病对组织转录组变异的系统性贡献,其中神经中的信号最强,其中histopathology图像分析鉴定了与糖尿病神经病变相关的新基因我们的多组织和多性状方法提供了健康和疾病中人类转录组变异的主要驱动因素的广泛表征介绍在过去的二十年里,转录组分析已经彻底改变了我们对无数生物过程的理解,使我们能够将分子变化与表型性状联系起来。跨组织、1、2发育时间点、3-人类大规模转录组学分析表明,基因表达而不是选择性剪接是定义组织表型的关键,而表达和选择性剪接都有助于个体间变异。进一步的研究,集中在特定的组织,已经表明,人口统计学特征,如血统,性别,年龄和体重指数(BMI)与基因表达变异密切相关。群体之间的表达差异是广泛的,特别是在对免疫挑战的反应中。15、16性别表达差异是普遍存在的,并且也可以与基因表达的遗传调节相关,17而随着年龄的表达变化主要是组织特异性的,并且通常与线粒体活性相关。18选择性剪接(AS)也通过从同一基因产生不同的外显子组合来驱动转录异质性。几项研究已经确定了AS事件随年龄、性别、血统而变化,并为剪接如何导致表型变异提供了重要的见解。一、二尽管这些研究做出了重要贡献,但转录组变异的分析大多仅限于单一性状和少数组织。17-只有在全血中的研究已经开始解决性别和年龄对免疫刺激后差异基因表达变异的协同作用,性别相关性在不同条件下比年龄CellGenomics 3,100244,January 11,2023?2022作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取文章2Cell Genomics3,100244,2023协会. 25类似地,研究表明,在免疫细胞老化过程中,基因表达在男性和女性之间存在差异。[26]然而,除了免疫细胞类型之外,人们对不同的性状如何同时相互作用以定义组织、器官和个体表型知之甚少。研究确定健康和患病个体之间的基因和AS差异,通过精确定位参与疾病进展和严重程度的特定基因和途径,揭示了疾病机制。27然而,在人类疾病的背景下,大多数转录组分析已经研究了它们在众所周知的受影响组织中的关联(例如,胰腺28、29或脂肪组织30、31中的糖尿病),由于组织样品收集的限制,通常忽略它们的全身效应。可用于基因型-组织表达(GTEx)群组32的广泛病史克服了该缺点,允许在多组织尺度上研究不同疾病的影响。类似地,GTEx样品图像的病理学注释33在这里,我们利用GTEx数据系统地分析了多种人口统计学和临床特征之间的关联,以及基因表达与人体组织中AS变异之间的关联。我们确定差异表达的基因和差异剪接事件跨组织,专注于添加和相互作用的影响。我们强调组织和性状之间以及表达和剪接之间的共性和差异。总的来说,我们的多组织和多性状方法提供了人类转录组变异的主要驱动因素的广泛表征,提高了我们对表型变异如何在健康和疾病中出现的理解。结果人口统计学特征对组织转录变异的我们使用GTEx版本v.8数据,在来自781个个体的46种不同组织中,同时定量具有四种人口统计学特征(遗传祖先、2种性别、年龄和BMI)的基因表达变化(图S1A)。我们考虑了总共22,967个基因(图S1B),并鉴定了差异表达基因(DEG),同时控制了已知的技术变异来源和未观察到的混杂因素,如细胞类型组成(STAR方法)。年龄具有最大数量的DEG,其次是性别、血统和BMI,组织间存在差异(图1A)。如前所述,皮肤、乳腺和脂肪组织分别具有最多1有趣的是,随着年龄的增长,动脉的DEG数量最多,这可能与观察到的心血管系统中广泛的老化变化有关。34当控制样品大小时,这些一般模式持续存在,尽管子宫和卵巢中的表达变化随着年龄的增长变得更加明显 35(图1C)。为了评估复制,我们将我们的发现与四项独立研究(STAR方法)进行了比较,并发现了与预期组织中所有人口统计 学 特 征 的 显 著 重 叠 ( 单 尾 Fisher 我 们 观 察 到 Pellegrino-Coppola等人报告的血液中年龄-DEG的一致复制,第36章明确的纠正细胞类型丰度的差异,表明我们的差异表达分析正确控制组织组成。接下来,我们评估了人口统计学特征是否对组织间的表达变异做出了相似的贡献,或者它们的个体贡献是否因组织而独立变化。我们使用分层分区方法来量化每个性状对基因表达变异的贡献,同时控制共线性效应(STAR方法)。我们发现,虽然一个性状解释了某些组织中的大部分变异(例如,性别在主动脉中或年龄在主动脉中),这四个人口统计学特征在其它方面具有可比的贡献(例如,骨骼肌或贴壁皮下)(图1B)。乳腺是大多数组织中表达变化的主要贡献者,其次是年龄、性别和BMI(图1B)。一般而言,由每个基因的人口统计学性状解释的变异是低的(图1C和S1D),与先前的观察结果一致。[25]与性别相比,年龄与更多的基因相关,但解释其变异的比例较低,性别与更少的基因相关,但贡献更大,与全血中的观察结果一致。25血统的贡献与性别的贡献相似,BMI,在它贡献的组织中,通常高于年龄。我们鉴定了3,196个基因,其中单个性状解释了超过10%的个体间组织差异(图1D;表S1 B)。其中,一些已知与性状相关的表型有关,例如疟疾受体基因ACKR 1,其在非洲血统个体中的较低表达与对疟疾感染的较高抵抗力有关。37总的来说,我们观察到每个人口性状对基因表达的个体间变异的关联在很大程度上是组织依赖性的。基因表达差异仅限于一个或几个组织我们接下来试图探索组织中每种人口统计学特征的贡献之间的相似性。大多数基因(90%)在一种和五种组织之间差异表达(DE)(图2A;表S1 C)。17,18这种模式不能用组织限制性表达来解释,因为只有430个基因在它们是DE的组织中专门表达(表S1D和S1E),并且基因是DE的组织通常不是该基因表达最高的组织(图S2A)。对于给定性状,在许多组织中是DE的基因我们发现了443个高度组织共享的DEG(10个或更多个组织中的DEG;表S1 F)。其中,祖先-DEG在谷胱甘肽相关的代谢过程中富集(图2B;表S1 G),主要由聚集在基因组中的谷胱甘肽基因驱动。一个与癌症风险相关的高度多态位点。38-42个基因DE与三种以上组织中的BMI(159)包括参与体重和食物摄入调节的基因,如LEP或AKAP 143,44(图2A)。Cell Genomics3,100244,2023年1月11日3文章会开放获取一BRNSNG子宫BRNSPCBRNAMY阴道B C20个人口统计学特征性别年龄BMI10组织DEG02550750DACKR 1(脾)975EA AASLVRYGBRNACCOVARYBRNHPPSNTTRMBRNPTMBRNHPTBRNCHBBRNCTXBBRNCDTLIVERBRNNCCARTCRNBRNCTXABRNCHAPRSTTESPLEENADRNLGPTTARYPNCREASCLNSGMSTMACHTESTISESPGEJCLNTRNHRTAAARTAORTHRTLVBREASTESPMSLADPVSCESPMCSLUNGSKINNSNERVETADPSBQARTTBLTHYROIDSKINWHLBLDMSCLSK0 0.20.40.6 0.8 110 200 10 20 30 40LINC01597(CLNSGM)2.01.51.00.50.0男女0 10 20 30 40ROBO2(雅特)43210[20[45−70]0 10 20 30 40SLC27A2(ADPSBQ)5432DE信号00.51组织表达变异解释同性恋性爱解释的平均基因表达变异(%)10正常超重肥胖年龄BMI0 5 10 15解释的基因表达变异(%)图1.人口统计学特征对基因表达变异的贡献(A) 每个组织和人口统计学特征的DEG数量热图单元格颜色被归一化为每个特征的最大值组织按样本量分类,组织标签对应于图S1中描述的组织名称。(B) 由每个人口统计学特征解释的总组织表达变异的比例。顶部的条形图显示了每种人口统计学特征解释变异比例最大的组织数量。(C) 每个组织中每个人口统计学特征解释的平均基因表达变异这随着样本量的增加而减少,因为更大数量的样本提供了检测较小贡献的能力。(D) 具有由人口统计学特征解释的大比例表达变异的基因的例子遗传效应是群体间大部分组织基因表达差异的基础人类群体间的表达差异部分由具有不同等位基因的顺式调节变体(cis-eQTL人口之间的频率。与此一致,我们观察到祖先DEG显著富集在eGenes(具有至少一个顺式eQTL的基因)2(双尾Fisher精确,FDR 0.05)中cis-eQTL的贡献1500010000500002235182648349351842711719317288107350651208881363121456053366NA3,59837 037NA5615117一千五百九十四3596NA2,46736 296657363413557182488538143NA84267 681292037729 336293 54273 1171,643NA441 194364 699157两千一百零五2291950165114618238321309702418866830268044448691 697 155407一千零五十五千五百一十一400 754 345817,732280000000000000000116016000000000080001645571 664 513 0622 581 4252,2181,438287 3520923 99 331 493五千五百三十四千七百二十四79两千五百二十四914 455七三五二四五七961 780四千九百一十九38一千八百零七二千六百八十593372,623 3430731178173635903601,112 1,966 1,2816714,2702,16405,069n = 176n = 35n = 273n = 90n = 192n = 106n = 163n = 153n = 220DEG的唯一总数0200样品400600血统性BMI年的组织TPM(log2)TPM(log2)TPM(log2)TPM(log2)4Cell Genomics3,100244,2023会开放获取文章血统0UTYXist年龄BMI0GSTM3GSTT2BGSTM 1SULT1A1GSTM 4GSTO2ACSM1AKR7A2GGT1ACSM5AHCYGSTM5适度分享ZMAT30DDB20CDKN2ABax高度共享AKAP 1NPR30低分享MRPL9组织特异性EAAAGG不不GSTM3顺式驱动顺式非依赖顺式驱动顺式非依赖顺式驱动基因(%)TPM(中位数log2)的组织解释的基因表达变异(%)A B C DPWP2880467046032500402EA AA1.0020.7500.50−20.25−40.00−6电话:021 - 44067413EAAAEAAAEAAAEA AAEA:欧洲裔美国人AA:非裔美国人143(Fst = 0.46)E F G40400.33030025 50 75 100 025 50 75 100 025 50 75 100 025 50 75 1002DEG(%)0.2202010100.1组织特异性[20[45−70]00图2.DEG的组织共享和遗传变异对人群间表达差异的贡献(A) 其中基因与每个人口统计学性状DE的组织数量的分布标记的祖先和年龄DEG分别对应于富含谷胱甘肽相关代谢过程和p53途径的高度对于性DEG,黑点对应于高度共享的X染色体失活(XCI)逃逸物17和Y基因。例如,标记了众所周知的XCI逃逸物XIST41和普遍转录的Y基因UTY标记前三个最多组织共享的BMI-DEG底部条显示了组织特异性DEG的比例和具有每种人口统计学特征的低(2-5)、中等(6-9)或高(R10)数量的组织中的DEG(B) 高度组织共享的祖先(上)和年龄(下)DEG的组织表达中值(EA,欧洲裔美国人; AA,非洲裔美国人)。(C) 跨组织的总祖先eGenes DE的顺式驱动的百分比(D) 阳光暴露皮肤中顺式驱动DEG的示例左图:条形图显示每个群体中eQTL变体的等位基因频率右:按群体和个体基因型分层的基因表达水平的PWP2小提琴图(E) 顺式驱动的DEG与具有较大Fst值的eQTL相关(Wilcoxon符号秩检验,p = 1.9e-10)。小提琴图显示了组织中位数的分布顺式驱动(左)和顺式非依赖(右)DEG的Fst值(F) 顺式驱动的DEG更多的组织共享(Wilcoxon符号秩检验,p = 3.9e-07)。小提琴图显示了顺式驱动(左)和顺式非依赖(右)DEG的中值组织共享值的分布。(G) cis-eQTL解释了比祖先更大量的基因表达变异(Wilcoxon符号秩检验,p = 2.8e-14)。小提琴图显示了在顺式驱动和顺式非依赖性DEG中由eQTL解释的组织中值基因表达变异的分布(左)以及在顺式非依赖性DEG中由祖先解释的组织中值基因表达变异的分布(右).仅在免疫细胞类型15、16或细胞系中探索了群体间的表达变异。47,48在此,我们估计了健康组织中顺式遗传效应引起的表达变异中祖先差异的比例。我们发现eGenes中群体间平均63%的表达差异可由cis-eQTL(顺式驱动的DEG)解释(图2C、2D和S2B;STAR方法). 顺式驱动的DEG的比例正如预期的那样,顺式驱动的DEG具有固定指数(Fsts)更大的eQTL,Fsts测量两个群体之间的差异程度(图2E和S2C),并且在比顺式非依赖性DEG更多的组织中是DE(图2F和S2D),这与顺式eQTL通常在组织间共享的观察结果一致.2此外,平均而言,在顺式非依赖性DEG中,顺式驱动的祖先效应解释了更大比例的表达变异(约22%),而不是遗传(约11%)和祖先效应(约6%)(图2G和S2E)。此外,尽管顺式驱动和顺式不依赖DEG的数量与样本量相关(Spearman顺式非依赖性DEG在组织间的变化比顺式驱动的DEG的数量大得多(图2B)。总的来说,顺式驱动的遗传效应是祖先差异的重要部分的基础,并且比顺式独立效应解释更多的表达变异,顺式独立效应具有更微妙和组织特异性的影响,并且可能反映发育、环境和转基因因素的组合。添加剂的贡献是广泛和组织特异性,而相互作用是罕见的我们的研究提供了一个机会,以表征人口统计学特征对特定基因在整个组织中的组合关联。与之前的研究不同,25,26通过在同一模型中包括多个性状,我们可以明确评估多个性状的联合贡献是独立的(加性)还是依赖的(相互作用),以及这些在组织中的变化。首先,我们鉴定了7,458个DEG,其对跨组织的多个性状具有加性贡献(图S3A、S3B和S3D)。如所预期的,对于具有加性贡献的基因,每个基因解释的表达变异大于具有一个性状的DEG(图S3C)。大多数具有两种性状的DEG仅限于少数组织(例如,56%和70%的祖先-性别-DEG和年龄-BMI-DEG发生在未暴露于阳光的皮肤和皮下T/TT/GG/Gn = 11n = 35n = 79n = 13n = 323n = 6ZMAT3顺式驱动顺式驱动顺式非依赖 顺式非依赖eQTLeQTL血统的组织TPM(中位数log2)等位基因频率FSTTPM(log2)Cell Genomics3,100244,2023年1月11日5男性女性正常超重肥胖正常超重肥胖N = 74N = 67N = 41N = 112N = 153N = 89> 20个加性效应基因比预期更多的加性效应基因具有加性效应的基因比期望和有偏方向性文章会开放获取一个C150.06十点零四0.025性别-年龄DEG(ARTTBL)432CDKN2A(ARTTBL)E0.1000.0750.0500.000−0.02100 2 460.0250.000男性女性B10075502501007550250D0.20.10.0−0.1−2 −1 0 1 2性别(logFC)性别-BMI DEGs(ADPSBQ)10.07.55.02.50.0解释的表达变异(%)EGFL6(ADPSBQ)F6543BCL2L11(乳房)男青年男-老男性-低BMI男性-高BMI-2 - 1 0 1 2 30 510215 20 25女青年女-老女性-低BMI女性-高BMI性别(logFC)解释的表达变异(%)图3.人口统计学特征的附加贡献是常见的,相互作用很少(A) 条形图显示至少20个DEG具有两种人口统计学特征的组织数量,其中有多少具有显著重叠,以及有多少在变化方向上具有显著偏倚。(B) 比例的DEGs与性和年龄(左)或性和BMI(右)在每个组织的秋天在每个颜色编码类别.(C和D)左:具有比预期更多的具有两个性状的DEG的两个组织的实例,其在变化方向上也具有偏差散点图显示了与每个人口统计学性状相关的log2倍数变化,每个点代表一个基因。红色,观察值与预期值比值较大的基因。标记基因是具有较大倍数变化的基因之一。右:表达水平的小提琴图,例如基因,按年龄范围或性别分层。底部的条表示由每个人口统计学特征解释的表达变化的比例。(E) 在性别和年龄之间存在显著相互作用的基因中,分别计算男性和女性的年龄倍数变化的比较(Wilcoxon符号秩检验,p <2.2e-16)。(F) 性别和年龄之间具有显著相互作用的基因的示例:其表达在男性中随年龄增加而增加,但在女性中随年龄减少。表达水平按性别和年龄范围分层。脂肪组织,与这些组织中的DEG数量较大一致)(表S3A)。因此,很少有基因(204)在两个以上的测试中显示出相同的加性贡献群体之间和性别之间的DEG是组织共享最多的(图S3E和S3 F),这与性别和血统DEG更多的组织共享一致(图2A)。我们接下来探讨了人口特征的特定组合是否更有可能与相同的基因相关。在21个具有显著大于预期数量的具有加性贡献的基因的组织中的9个中(双尾Fisher值得注意的是,在大多数情况下,这些加性贡献由具有特定方向性的表达变化驱动(卡方检验,FDR 0.05)(图3B;表S3 B),例如,在男性和老年个体中,在胫动脉中上调(图3C),或在女性和高BMI的皮下脂肪组织中上调(图3D)。重要的是,这些结果不受性别间年龄或BMI差异的混淆(图S3G;STAR方法)。这种加性贡献可能与表达水平与疾病风险相关的基因特别相关,因为特定人口统计学群体中的健康个体可能处于较高的风险中,而与其遗传背景无关。这是CDKN2A的情况,其在男性和老年个体中具有更高的表达水平(图3C)。CDKN2A是一种在动脉粥样硬化病变中,特别是在参与动脉粥样硬化形成的细胞类型中表达,50并且与CD68(巨噬细胞)和TNF(促炎细胞因子)正相关,51两者都与动脉粥样硬化有关。52我们还测试了一种人口统计学特征与基因表达变异的关联是否取决于另一种人口统计学特征(STAR方法)。我们在11个组织中发现了235个基因在两个人口统计学性状之间具有显著的相互作用(表S3C)。大多数相互作用(91%,216个基因)发生在乳房中,具有性别和年龄,并且由女性中与乳腺发育相关的衰老表达变化驱动(图3E和3F;表S3 D)。总体而言,这些结果表明,人口统计学特征具有组织特异性的加性贡献,而相互作用是罕见的,并强调了同时分析多个个体特征以评估其联合贡献性质的重要性。选择性剪接事件的组织分布mRNA的选择性加工通过从相同基因产生具有不同外显子组合的转录物而促成转录异质性。这种转录异质性已被证明是重要的发展,53疾病,8和进化创新。54为了提高我们对组织和个体间替代性mRNA加工变异的理解,下文总结为AS,我们基于PCDH10SCGB3A2DLX3SLC14A1 SCUBE1GRIA2 C5orf46SYT12KCNK2 ATRNL1CST6MGAMCOL11A1LINC00607NDUFA4L2GALNT5CDKN2ACPAMD8CYTL1 EMB试剂 盒ITGA 11ABCC9EIF2S3LCADM3GREM1VANGL 2KB−68A7.1EGFL6CSN1s1SAA2MMP7SAA1Chi3l1JCHAINRP11−20F24.2CPAMD8PDZRN4ANGPTL7RORBBMP3PKHD1L1[20(−45)男女[45-70]男女N = 27 3N = 12 8N = 90N = 45男性[20[45−70]N = 173女性[20[45−70]N = 101N = 41N = 5918353147739131871461644422411919591151016911468233511447862494564055471103624757DEG(%)的组织艺术性-性别NERVETARTTBL皮历史-年龄WHLBLD体重指数-BMIMSCLSK性别-年龄DEG(%)性别-BMI皮肤年龄-BMIADPSBQBMI(logFC)MSCLSK年龄(logFC)TPM(log2)TPM(log2)TPM(log2)|FC(log2)|6Cell Genomics3,100244,2023会开放获取文章对组织剪接变异的阿、英、法403020B1.00.80.60.40.20.00 10 20 30 40的组织C35,00030,00025,00020,00015,00010,0005,0000在异构体非编码异构体D1.000.750.500.250.00SEMXA5A3RIAFAL在异构体100BRNSNG子宫BRNSPCBRNAMYVAGINASLVRYGBRNACCOVARYBRNHPPSNTTRMBRNPTMBRNHPTBRNCHBBRNCTXBBRNCDTLIVERBRNNCCARTCRNBRNCTXABRNCHAPRSTTESPLEENADRNLGPTTARYPNCREASCLNSGMSTMACHTESTISESPGEJG蛋白质结构域剪接事件剪接入亚型POLR 1C-008剪接出亚型POLR 1C-006RNA聚合酶ALSEMA4A-非编码(剪接入)和蛋白质编码(剪接出)蛋白质编码(剪接入)和非编码(剪接出)蛋白质编码亚型蛋白质编码亚型中的ASE与PFAM结构域重叠非编码(剪接入)和蛋白质编码(剪接出)蛋白质编码(剪接入)和非编码(剪接出)H人口统计学特征性别年龄BMI的组织数量10203040CLNTRNHRTAAARTAORTHRTLVBREASTESPMSLADPVSCESPMCS肺皮肤神经1.00.90.80.70.6POLR1C − AL(皮肤)n = 66n = 5041.000.750.500.25100755025ADPSBQARTTBL甲状腺皮肤WHLBLDMSCLSK0.00.20.40.60.8 1.0版组织剪接变异解释欧元[20[45−70]000.51人口统计特征血统性年龄BMI0 240.00.51.01.50 25 50 75 100解释的剪接变异(%)解释的剪接变异(%)组织表达变异图4.人口统计学特征对AS变异的贡献(A) 不同类型的剪接事件的示意图对于每种类型的剪接事件,我们提出了剪接事件的剪接版本和剪接版本黑色为外显子/内含子序列,其包含在剪接的同种型中,并计算PSI值。(B) 剪接事件为AS的组织数量的累积分布。(C) AS事件的功能表征。(D) 每种事件类型中与非编码亚型和编码亚型之间转换相关的AS事件比例。箱形图显示了各组织AS事件比例的分布。(E) 每个组织和人口统计学特征的DSE数量热图单元格颜色被归一化为每列的最大值(F) 由每个人口统计学特征解释的总组织AS变异的比例顶部条形图是每种人口统计学特征解释最大比例的组织数量(G) DSE的潜在功能后果示例。所示为PFAM结构域和同种型的转录物结构的示意图,所述同种型包括或排除剪接事件并且有助于DSE。对于每个事件,PSI值表示为箱形图,样本按人群或年龄范围分层。小提琴图显示PSI分布。点对应于各个PSI值。每组中的个体数显示在图中。底部的条表示由每个人口统计学特征解释的选择性剪接变异的比例。(H) 比较每个人口统计学性状对总组织表达和剪接变异的相对贡献。对于每个性状,绘制组织间的平均值。误差条对应于标准偏差。对于每个人口统计学特征,我们只考虑至少有五个DEG和五个DSE的组织。在七种类型的AS事件的“拼接百分比”(PSI)55上我们确定了总共62,269例AS事件(图S1B)(STAR方法)。每个组织的AS事件的数量是高度可变的,但事件类型在组织间的分布是相似的:外显子跳跃和互斥外显子分别是最丰富和最不丰富的(图S1B)。在此外,替代的第一和最后外显子更具组织特异性,与先前的观察结果一致, 56而保留的内含子事件在组织中更多地共享(图4B)。我们评估AS事件是否与编码或非编码亚型转换相关将近一半的AS事件与两种蛋白编码异构体之间的转换10000500001361181642211753042481651231702651535873593451372935772032 13NA4270 00654NA 184 6941353NA21800100100000387 0379NA474 1279 0370576701496 7267 01,210NA615 13437 0374 03820两千七百三十0510071291110110351317170504183一千零八十三25922 0八七五一千一百二十四476 07760702012600010100219103100052210010000100010001310121713 00 001527506 140 0667 83436457578702959 49 38 0一千一百五十五59 6 1335 4 1 3555214915063,167981SEMA4A − SE(BRNHPT)n = 13n = 154SEMASE002SEMA4A-004的组织SEMXA5A3RIAFAL累积密度PSI选择性剪接事件PSI选择性剪接事件(%)DSE的唯一总数0200样品400600血统性年龄BMI直扩信号会开放获取文章Cell Genomics3,100244,2023年1月11日7(图4C;表S4 A;STAR方法)。在其中的28%中,外显子/内含子序列的交替使用与已知的蛋白质编码结构域57重叠(STAR方法),因此可能有助于蛋白质多样性。大多数剩余的AS事件(40%)与非编码和蛋白编码亚型之间的转换有关。在这些情况下,包含内含子和替代50和30事件更经常与非编码亚型相关(二项式检验,FDR 0.05;图4 D;表S4 B),表明包含而不是排除额外的碱基与编码潜力的丧失更相关。martstry解释了个体之间的大多数选择性剪接然后,我们通过对每个剪接事件的PSI值进行差异剪接分析并校正已知的技术变异来源和未观察到的混杂因素(如细胞类型组成)(STAR方法),探索了血统、性别、年龄和BMI与AS变异之间的关联。我们在组织和人口统计学特征中确定了16,197个差异剪接事件(DSE)。与表达相反(图1A),血统具有最大数量的DSE,其次是年龄、性别和BMI(图4E)。DSE影响总共6,909个基因(差异剪接基因,DSG;图S4 A)。与表达相似,具有血统、性别和BMI的最大数量的DSE分别发生在未暴露于阳光的皮肤、乳房和皮下脂肪组织中。然而,下丘脑有最多的年龄DSE,紧随其后的是动脉。当控制样品数量时,差异剪接的一般模式仍然存在,但大脑中的老化信号变得更加明显(图S4B)。即使校正了神经元丰度,大脑中的剪接差异仍然存在58(图S4C),这表明年龄可能与某些大脑区域中的剪接模式相关,而与随年龄增长的神经元衰退无关。59可能需要进一步的分析来证实这一观察结果。我们发现群体间的可变最后外显子比预期的多,但可变第一外显子和可变30个差异剪接(DS)事件比预期的少(表S4C;卡方检验,FDR 0.05;STAR方法)。我们还确定了某些事件类型的组织和性状特异性偏倚(表S4D;二项式检验,FDR 0.05;STAR方法),最强偏倚是胫骨动脉中内含子保留随年龄增加,欧洲人未暴露于阳光的皮肤中内含子保留我们进一步探讨了差异剪接的功能后果。有7,925例(46.37%)DSE与蛋白质编码亚型之间的转换相关,其中1,892例(23.87%)影响已知的蛋白质编码结构域57(图4G;表S4 E;STAR方法)。与先前的发现一致,与偶然预期相比,多5,22这些基因富含eGenes和具有顺式-sQTL的基因(顺式驱动的DSE; sGenes)(表S4G).接下来,我们量化了人口学性状对组织间AS变异的独立贡献,并将其与表达进行比较(STAR方法)。在大多数组织中,剪接是剪接变异的主要原因,年龄对主动脉或下丘脑或杏仁核等脑区的影响较大(图4F、S4D和S4 E)。性别和体重指数的贡献仅在少数组织中值得注意,如乳房和肌肉或脂肪组织。每个人口统计学性状解释的变异量对于剪接比对于表达更低(图S4F)。然而,按比例,血统解释了剪接比表达变异更大的比例,而年龄、性别和BMI则相反(图4H)。比较剪接事件类型,外显子跳跃、选择性50和30以及内含子保留事件解释了比转录起始或终止位点的选择性使用更大量的变异(表S4H)。这表明转录后水平的变化(即,外显子跳跃)可能比转录水平上的变化对整个AS变异做出更大的贡献(即,可选的第一或最后外显子)。具有由给定人口统计学性状解释的大比例(>10%)AS变异的DSE(653)可能与性状相关表型相关(表S4I)。例如,我们在CYP3A5基因中发现了祖先DSE(图S4G),AS已被证明可消除其酶活性,主要在欧洲人群中。60总之,这些结果表明,祖先显着前-与其他人口统计学特征相比,个体间剪接变异的比例更大顺式调节变异体解释了人类群体间的大多数选择性群体间等位基因频率的差异是群体间大部分剪接差异的基础。具有祖先DSE的22个正如预期的那样,顺式驱动的DSE与群体之间具有较大遗传距离的sQTL相关,并且比顺式非依赖性DSE更具组织共享性(图5B、5C、S5B和S5C)。与表达类似,与顺式驱动的DSE相关的顺式-sQTL解释了比顺式非依赖性DSE中的sQTL(~5%)或祖先(~6)更大比例的剪接变异(~9%)(图5D 和 S5D ) . 顺 式 驱 动 的 DSE 的 比 例 与 样 本 大 小 负 相 关(Spearman's r =-0.53,p = 0.0001548),表明我们鉴定了群体之间的剪接差异,这些差异可能由尚待鉴定的核糖体蛋白质的选择性剪接差异在人类群体中广泛存在于组织中,并受遗传控制接下来,我们试图描述DSE的组织共享模式。只有祖先具有高度共享的DSE(图5E),并且具有高度共享的祖先-DSE的基因在翻译途径中强烈富集,由核糖体蛋白驱动(23个基因中的10个)(图5F;表S5 B)。这与先前的观察结果一致,即在AS中,与肥胖相关的基因具有最大的个体间变异。1在组织水平,祖先DSG也富含核糖体蛋白(图S6A)。为了进一步探索这种功能丰富,我们使用了一个会开放获取文章8Cell Genomics3,100244,2023DA B C EFG IH图5.核糖体蛋白的剪接模式在不同人群中有所不同(A) 顺式驱动的DSE在组织中的百分比(B) 顺式驱动的DSE与具有较大Fst值的sQTL相关(Wilcoxon符号秩检验,p = 1.563e-12)。小提琴图显示了顺式驱动(左)和顺式非依赖(右)DSE的组织中值Fst值的分布。(C) 顺式驱动的DSE有更多的组织共享(Wilcoxon符号秩检验,p = 1.395e-06)。小提琴图显示了顺式驱动(左)和顺式非依赖(右)DSE的中值组织共享值的分布(D) cis-sQTL解释了比祖先更大量的剪接变异(Wilcoxon符号秩检验,p = 1.421e-13)。小提琴图显示了在顺式驱动和顺式非依赖性DSE中由sQTL解释的组织中值剪接变异的分布(左)以及在顺式非依赖性DSE中由祖先解释的组织中值剪接变异的分布(右).(E) 其中剪接事件为DS的组织数量与每个人口统计学性状的分布核糖体蛋白中的双链DSE以黑色突出显示底部条显示了组织特异性DSE的比例和具有每种人口统计学特征的低(2-5)、中等(6-9)或高(R10)数量组织中
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功