没有合适的资源?快使用搜索试试~ 我知道了~
文章SNP-基因连接策略揭示增强子相关和候选主调节基因对自身免疫性疾病的贡献图形摘要亮点d增强子相关基因和主调节基因提供了独特的遗传信号与蛋白质相互作用网络的整合进一步放大了信号d鉴定的特异性基因程序高度富集免疫药物靶基因d功能性SNP-基因(ABC,Roadmap等)链接策略驱动信号作者库沙尔湾戴伊,史蒂文·加扎尔,放大图片作者:Bryce van de Geijn,Samuel Sungil Kim,Joseph Nasser,Jesse M.阿尔克斯?恩格雷茨价格对应kdey@hsph.harvard.edu简言之与复杂性状和疾病相关的疾病风险变体主要位于基因的非编码调控区,这促使需要通过基因调控的镜头来评估基因对疾病的在这里,戴伊等人。使用SNP-基因连接策略评估血液中增强子相关基因和候选主调节基因对自身免疫性疾病的贡献Dey等人,2022,细胞基因组学2,1001452022年7月13日https://doi.org/10.1016/j.xgen.2022.100145会会开放获取文章SNP-基因连接策略揭示增强子相关和候选主调节基因对自身免疫性疾病的贡献库沙尔湾Dey,1,8,*Steven Gazal,1Bryce van de Geijn,1,3Samuel Sungil Kim,1,4Joseph Nasser,7Jesse M。Engreitz,5,6,7和Alkes L.价格1,2,71哈佛大学流行病学系Chan公共卫生学院,波士顿,MA 02115,美国2哈佛大学生物统计学系。ChanSchool of Public Health,Boston,MA 02115,USA3 Genentech,South San Francisco,CA94080,USA4麻省理工学院电气工程与计算机科学系,Cambridge,MA 02139,USA5斯坦福大学医学院遗传学系,斯坦福,CA 94305,美国6BASE Initiative,Betty Irene Moore Children7Broad Institute of MIT and Harvard,Cambridge,MA 02142,USA8引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2022.100145kdey@hsph.harvard.edu总结我们评估了其调控由增强子区域(增强子相关)驱动的基因和调控反式其他基因(候选主调控子)的基因对自身免疫性疾病的我们使用几种SNP-to-gene(S2 G)策略将这些基因与SNPs联系起来,并应用遗传力分析得出关于11种自身免疫/血液相关疾病/性状的三个首先,在广泛的调节注释的条件下,使用功能基因组学数据对增强子相关基因的几个表征对于自身免疫性疾病的遗传性是有用的其次,在血液中使用trans-eQTL定义的候选主调节基因也是自身免疫性疾病遗传性的条件信息第三,整合增强子相关和主调节基因集与蛋白质-蛋白质相互作用(PPI)网络信息放大了他们的疾病信号。与最近提出的增强子结构域评分相比,所得到的PPI增强子基因评分产生了>2倍更强的在每种情况下,功能性知情的S2G策略产生的疾病信号比传统的基于窗口的策略强4.1至13倍介绍与复杂性状和疾病相关的疾病风险变体主要位于基因的非编码调控区,这促使需要通过基因调控的视角来评估基因对疾病的相对重要性。1-7-以前的研究表明,这两种特征对理解人类疾病很重要。9,15-已显示协同调节其表达,25,26和NLRC 5在免疫应答中充当MHC类基因的主调节剂。[27]我们的两个主要目标是确定哪些类型的基因对自身免疫性疾病是重要的,并构建来自这些基因的SNP注释,这些基因对疾病的遗传性有条件地提供信息,条件是所有其他注释。疾病基因水平分析的一个主要挑战是将基因与可能调节它们的SNP联系起来,这是GWAS汇总统计综合分析的先决条件。以前的研究经常采用基于窗口的策略,例如±100 kb,8,9,11将每个基因与100 kb内的所有SNP连接;然而,这种方法缺乏特异性。在这里,我们纳入了功能知情的SNP到基因(S2G)连接策略,捕获基因调控的远端和近端组件我们通过应用分层连锁不平衡(LD)评分回归28(S-LDSC)评估了所得SNP注释,条件是来自基线LD模型的广泛的编码、保守、调节和LD相关注释,29,30细胞基因组学2,100145,2022年7月13日1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取文章2Cell Genomics2,100145,2022表1. 11个基因得分列表基因评分描述大小(%)增强子相关基因评分ABC-G血液中基因和基因间增强子-基因连接数量前10%基因中的基因使用按联系人列出的活动进行评估3210ATAC远端通过远端ATAC-seq峰解释的免疫细胞类型间小鼠基因表达变异性的比例3329EDS-二进制血液特异性增强子结构域得分前10%的基因,反映了血液特异性增强子结构域中碱基的数量。10与基因相连的增强子24eQTL-CTSeQTL34(FDR 0.05)对单一细胞类型(跨血细胞类型的联合)32期望MVP基于转录起始位点周围区域的Expecto D预测,位于变异潜力幅度前10%的基因710PC-HiC-远端血细胞类型中远端启动子捕获HiC连接数量前10%的基因3510SEG-GTExGTEx全血中特异性表达的基因93610候选主调节基因评分反式-主基因,其通过焦点基因的任何显著的顺式-eQTL显著反式调节R3基因10TF策展的人类转录因子基因列表377.4基于PPI网络的基因评分在STRING38 PPI网络中与增强子相关基因具有高网络连接性的PPI增强子10在STRING38 PPI网络中与候选主调节基因具有高网络连接性的PPI主基因10对于每个基因得分,包括七个增强子相关基因得分,两个候选主调节基因得分和两个PPI网络通知基因得分(对应于增强子相关和候选主调节基因得分),我们提供了简要描述并报告其大小(22,020个基因的平均基因得分;等于二进制基因得分的基因百分比)。基因得分在每个类别中按顺序列出。除了ATAC远端和eQTL-CTS是概率性的之外,所有基因评分都是二元的。图S1中提供了每个基因评分下的度量分布的密度图。更多细节见STAR方法。荟萃分析11种自身免疫性疾病和血细胞特征的结果我们专注于自身免疫性疾病和血细胞性状,因为我们分析的基因评分和S2G策略的功能数据我们还评估了疾病相关基因集的基因水平富集,包括批准的自身免疫病药物靶点。10结果方法概述我们将注释定义为在1000个基因组计划欧洲参考组中将数值分配给具有次要等位基因计数R5的每个SNP,31与我们先前的工作一样;28我们主要关注值在0和1之间的注释。我们将基因得分定义为每个基因的0到1之间的数值分配;基因得分预测每个基因与疾病的相关性我们主要关注由前10%的基因定义的二元基因集;我们做出这个选择是为了与Finucane等人,9,并确保所有得到的SNP注释(基因评分3S2 G策略;见下文)具有合理的大小(0.2%的SNP或更大)。我们考虑优先考虑增强子相关基因、候选主调节基因和与增强子相关或候选主调节基因具有高网络连接性的基因的11个基因评分(表1和图S1);这些基因评分仅轻度相关(平均r = 0.08,图S2)。我们考虑了增强子相关基因和候选主调节基因,因为先前的研究表明,这两种特征对于理解人类疾病都很重要。9、15-24我们将S2G连接策略定义为将0个、1个或更多个连接的基因分配给每个SNP。我们考虑了10种捕获远端和近端基因调控的S2 G策略(参见STAR方法,图1A和表2);这些S2 G策略旨在将SNP与它们调控的基因对于每个基因得分X和S2 G策略Y,我们通过为每个SNP分配与该SNP连锁的基因中的最大基因得分(或对于没有连锁基因的SNP为0)来定义相应的组合注释X3Y;这概括了使用基于窗口的策略从基因得分构建注释的标准方法例如,增强子结构域评分(EDS)-二进制3接触活性(ABC)注释由ABC增强子-基因连接32、39连接到来自EDS-二进制基因集的任何基因的SNP,而EDS-二进制3100 kb注释来自EDS-二进制基因集的任何基因的100 kb内的所有SNP。对于每个S2G策略,我们还定义了由与所有基因的集合相关联的SNP定义的相应的二进制S2G注释我们已经公开发布了本研究中分析的所有基因评分、S2G链接和注释(见URL)。我们通过将S-LDSC28应用于11种独立的血液相关性状(6种自身免疫性疾病和5种血细胞性状;对于自身免疫性疾病,平均N例=13 K,对于血细胞性状,N = 443 K,表S1)并对性状间的S-LDSC结果进行荟萃分析来评估所得注释的疾病遗传性的信息性;我们还评估了仅对自身免疫性疾病或血细胞性状进行荟萃分析的结果,以及个体疾病/性状的结果。我们从基线LD模型(v2.1)29,30(见URL)中选择了86个编码、保守、调节和LD相关S-LDSC使用两个指标来评估疾病的信息性Cell Genomics2,100145,2022年7月13日3会开放获取文章AB图1. S2G策略和基因评分(A)通过用近端(靠近基因体)和远端S2G策略整合基因组中的基因来定义的SNP注释。(B)用于定义增强子相关基因的方法的实例。(C) 一个反式主基因通过一个顺式eQTL调控多个远端基因,顺式eQTL是远端基因的反式eQTL.(D) PPI增强子基因与PPI网络中的增强子相关基因具有高度连接性。C D遗传力:富集和标准化效应量(t*)。富集被定义为注释中SNP解释的遗传力的比例除以注释中SNP的比例,28并推广到值在0和1之间的注释。34标准化效应量(t*)定义为与注释值增加1SD相关的每SNP遗传力的成比例变化,条件是模型中包含的其他注释29作为对10种S2G策略潜力的初步评估,我们考虑了由与所有基因的集合相关联的SNP定义的10种S2G注释。S2 G注释仅弱正相关(平均r = 0.09;图S3)。我们通过边际分析分析了十个S2G注释,在基线LD模型的条件下运行S-LDSC28,并对11个血液相关性状的结果进行荟萃分析。在边际分析中,所有十个S2G注释对于疾病遗传性显著富集,对于较小的注释具有较大的富集(图2A和表S2);标准化富集的值(定义为通过注释11的SD缩放的富集)在注释之间更相似(图S4和表S3)。七个S2G注释Bonferroni校正后获得条件显著性t * 值(p<0.05/10)(图2 B和表S2)。在联合分析中,这七个S2G注释中的三个是联合显著的:转录起始位点(TSS)(联合t * =0.97)、路线图(联合t * = 0.84)和ABC(联合t * = 0.44)(图2B和表S4)。这表明这三个S2G注释对于疾病是高度信息性的。随后的分析以基线LD+模型为条件,该模型由86个基线LD模型注释加上所有S2G注释(除了编码、TSS和启动子,它们已经是基线-LD模型),以确保条件显著t * 值(基因评分3 S2 G策略)注释a-这种情况是基因得分所特有的,不能用(所有基因3S2G策略)注释来解释。因此,我们证实了(随机基因3S2G策略)注释对于任何S2G策略都不产生条件显著的t *值(表S5)。我们通过调查它们是否富集在五个(We注意,高pLI基因不应被视为严格的金标准,因为并非所有这些基因都与疾病相关,但这些基因中有30%具有确定的人类疾病表型。(第四十九条)4Cell Genomics2,100145,2022会开放获取文章表2.十大S2G战略列表S2G战略描述远端/近端规模(%)ABC具有远端增强子-基因连接的基因间SNP,通过Activity-By-Contact评估32,39跨血细胞类型远侧1.4TSS预测转录起始位点40、41中的SNP与Ensembl基因重叠±5kb窗口近侧1.6编码编码区近侧1.6ATACATAC-seq峰中的SNP>50%与跨血细胞类型的小鼠表达相关33(映射到人)远侧1.6eQTLGTEx全血中精细映射因果后验概率42>0.001的SNP远端+近端2.4路线图预测的增强子-基因链接中的SNP,使用Roadmap表观基因组学项目数据进行评估43,44远侧3.2启动子启动子区近侧4.3PC-HiC血细胞类型中启动子捕获HiC35连接到启动子区域的远端SNP远侧275 kb基因体近侧53100 KB基因体8、9、11远侧81对于每种S2G策略,我们提供了一个简要的描述,指出S2G策略是否优先考虑相对于基因的远端或近端SNPS2G策略按大小递增的顺序列出。更多细节见STAR方法。随后的小节按以下顺序组织:该小节的基因评分描述;使用S-LDSC的边缘分析;使用S-LDSC的联合分析;以及使用金标准疾病相关基因集验证我们研究中涉及的基因评分。增强子相关基因对自身免疫性疾病遗传性的条件性我们评估了血液中优先考虑增强子相关基因的七个基因评分的疾病信息性我们基于远端增强子-基因连接、组织特异性表达或组织特异性表达定量性状基因座(eQTL)来定义这些基因评分,所有这些都可以表征增强子相关调控(图1B、表1和STAR方法)。这些基因得分中的一些来自于我们用于定义S2G策略的相同功能数据(例如, ABC32,39和使用测序[ATAC-seq]测定转座酶可接近的染色质;33参见URL)。我们纳入了两个已发表的基因评分:(二进制化)血液特异性EDS24和基因型-组织表达(GTEx)全血中特异性表达的基因9(SEG-GTEx)。我们使用术语我们的四个增强子相关基因评分(ABC-G、ATAC-远端、EDS-二元和启动子捕获Hi-C [PC-HiC])基于远端增强子-基因连接 明 确 定 义 。 使 用 已 建 立 的 EDS- 二 进 制 ( 来 源 于 公 开 的EDS24)作为参考点,我们确定其他三个基因评分(ABC-G、ATAC-远端和PC-HiC)与EDS-二进制评分具有1.7× 3的平均过量重叠(每个基因评分的p值:2 ×3 × 10- 8至6 × 3× 10- 6;表S7),证实它们优先考虑增强子相关基因。我们的三个增强子相关评分(eQTL-CTS、Expecto-MVP(变异幅度)和SEG-GTEx)未基于远端增强子-基因连接明确定义。我们确定,这三个基因评分与EDS-二进制评分也具有1.53的平均过量重叠(每个基因评分的p值:43 10-7至1.5 3)。1310- 4;表S7),证实了它们优先考虑增强子相关基因;值得注意的是,对于基于远端增强子-基因连接定义的基因评分,1.53的过量重叠几乎与1.73的过量重叠一样大我们将7个增强子相关基因评分与10个S2G策略(表2)组合以定义70个注释。在我们的边际分析中,使用以基线LD+模型为条件的S-LDSC(荟萃分析11种自身免疫疾病和血细胞性状的S-LDSC结果),所有70种增强子相关注释的疾病遗传性均显著富集,较小注释的富集程度较大(图S5和表S8);标准化富集值在注释间更相似(图S6和表S9)。在Bonferroni校正后,70个增强子相关注释中的37个获得了条件显著性t* 值(p0.05/110)(图3A和表S8)。我们观察到ATAC远端3ABC的最强条件信号(t* = 1.0± 0.2)。ATAC-远端由小鼠基因表达变异性在血细胞类型中的比例定义,其由小鼠中的远端ATAC-seq峰解释;33小鼠基因被映射到直系人类基因。七个基因评分中的四个(ABC-G、ATAC-远端、EDS-二元和SEG-GTEx)在许多S2 G策略中产生强条件信号;然而,对于所有十个S2 G策略,它们中没有一个达到Bonferroni显著性t*(图3A)。在S2 G策略中,ABC策略(平均t * = 0.59)和TSS策略(平均t * = 0.52)的平均条件信号最强,大大优于基于窗口的S2 G策略(平均t * = 0.04-我们比较了六种自身免疫性疾病与五种血细胞性状的S-LDSC结果的荟萃分析(图3B和S7;表S1、S10和S11)。结果大致一致(t* 估计值之间的r= 0.57),自身免疫性疾病的信号略强(斜率= 1.3)。我们还比较了两种粒细胞相关血细胞性状(白细胞计数和嗜酸性粒细胞计数)与三种红细胞或血小板相关血细胞性状(红细胞计数)的Meta分析结果。Cell Genomics2,100145,2022年7月13日5会开放获取文章图2. S2G注释我们评估了10个S2G注释,这些注释通过与所有基因的集合相关联的SNP从相应的S2G策略定义。(A) 遗传力富集(对数尺度),以基线-LD模型为条件。水平线表示无富集。(B) 标准化效应量(t*),以基线-LD模型(边际分析:左列,白色)或基线-LD+模型(包括所有10个S2 G注释)(右列,深色阴影)为条件。对11个与血液相关的性状进行了荟萃分析。**p 0.05/10。误差条表示95%置信区间。数值结果见表S2和S4。计数、红细胞分布宽度和血小板计数)(图S8;表S12和S13)。结果大致一致(r = 0.65,斜率= 1.1)。我们还检查了单个疾病/性状的S-LDSC结果,并应用异质性检验50(图S9和S10;表S14和S15)。结果总体上动力不足(770个注释-性状对中有16个的错误发现率[FDR] 5%),疾病/性状间异质性的证据有限( 70个注释中有11个的FDR 5%)。我们联合分析了37个增强子相关注释,这些注释在我们的边缘分析中是Bonferroni显著的(图3A和表S8),通过进行向前逐步消除以迭代地去除具有条件性非显著性的注释。Bonferroni校正后的t* 值。其中,6个注释在所得增强子相关关节模型中具有联合显著性(图S11和表S16),对应于4个增强子相 关 基 因 评 分 : ABC-G 、 ATAC- 远 端 、 EDS- 双 元 和 SEG-GTEx。我们评估了七个增强子相关基因评分(表1)在五个金标准疾病 相 关 基 因 组 中 的 富 集 : 药 物 靶 基 因 10 、 45 个 孟 德 尔 基 因(Freund)、46个孟德尔基因(Vuckovic)、47个免疫基因48和高pLI基因49(图3C和表S6)。7个基因评分中的6个在药物靶基因中显著富集(Bonferroni校正后; p 0.05/ 55),所有7个在两个孟德尔基因集中显著在药物靶基因(2.43,SE 0.1)和孟德尔基因(弗氏)(2.43,SE 0.1)中观察到SEG-GTEx基因的最大富集。这些发现证实了增强子相关基因对疾病的高度重要性。我们进行了五次二次分析。首先,对于来自增强子相关联合模型的六个注释中的每一个(图S11),我们评估了它们对来自两个先前研究的血液相关性状的精细映射的SNP的功能富集。51,52我们观察到所有六种注释的大量且显著的富集(表S17),与S-LDSC结果一致。其次,对于7个增强子相关基因评分中的每一个 , 我 们 进 行 了 途 径 富 集 分 析 , 以 评 估 它 们 在 来 自ApproximsusPathDB数据库的途径中的富集;53所有7个基因评分在免疫相关和信号传导途径中显著富集(表S18)。第三,我们探索了使用S2G策略通过使用与SNP相关的基因得分的基因间平均值或基因间总和而不是基因间最大值来组合与SNP相关的基因间信息的其他方法。我们确定,平均值或总和的结果与最大值的结果非常相似,所得SNP注释的标准化效应量无显著差异(表S8、S19和S20)。第四,我们使用前5%或前20%阈值重复了我们对应用前10%(基因)阈值的五个增强子相关基因评分的分析(表S21和S22)。我们观察到非常相似的结果,标准化效应量基本上无显著差异。第五,我们证实了当应用于所有70个增强子相关注释时,我们的前向逐步消除程序产生相同的结果,而不仅仅是在我们的边缘分析中是Bonferroni显著的37个增强子相关注释我们的结论是,增强子相关基因的7个特征中的4个在使用功能性知情S2G策略时对于自身免疫性疾病和血液相关性状是有条件的信息与增强子相关基因具有高网络连接性的基因信息量更大我们评估了一个基因评分的疾病信息性,该基因评分优先考虑了蛋白质-蛋白质相互作用(PPI)网络(PPI-增强子)中与增强子相关基因高度连接的基因6Cell Genomics2,100145,2022会开放获取文章图3.增强子相关和PPI增强子注释我们评估了通过将7个增强子相关+1个PPI增强子基因评分与10个S2G策略相结合构建的80个注释。(A) 标准化效应量(t*),基于基线-LD+模型。(B) 比较六种自身免疫性疾病与五种血细胞性状的荟萃分析标准化效应量(t(C) 增强子相关和PPI增强子基因在五个“金标准”疾病相关基因集中的富集(D) 标准化效应量(t*),以基线-LD+模型加上7个联合显著增强子相关+PPI-增强子注释为条件在(A)和(D)中,对11种血液相关性状的结果进行了荟萃分析在(A)和(C)中,双星号表示Bonferroni显著p值(A中**p0.05/ 110,C中 **p0.05/55),单星号(*)表示FDR 0.05。在(A)中,每行中的黑框表示具有最高t * 的S2G策略在(B)中,圆圈点表示两个荟萃分析之间效应量存在显著(FDR 5%)差异的注释,实线表示y = x,虚线表示回归斜率。我们报告了增强子相关注释和PPI 增 强 子 注 释 的 回 归 斜 率 和 Pearson 相 关 性(D)中的误差条表示95%置信区间。数值结果见表S6、S8、S10、S11、S23和S26。生物网络中的基因可能是重要的,以及(2)组合定义增强子相关基因的潜在噪声度量将增加统计信号。我们使用STRING PPI网络38来量化每个基因相对于来自图S11的四个联合信息增强子相关基因评分(ABC-G、ATAC-远端、EDS-二进制和SEG-GTEx)中的每一个的网络连接性(图1D)。网络连通性得分使用随机游走与重启算法10、54计算(参见STAR方法)。我们基于四个增强子相关基因评分中平均网络连接性的前10%中的基因定义PPI增强子基因评分(表1)。PPI增强子基因评分仅与四种潜在增强子相关基因评分中度正相关(平均r = 0.28;图S2)。我们将PPI增强子基因评分与十种S2G策略(表2)组合以定义十种注释。在我们使用S-LDSC的边际分析中(荟萃分析S-LDSC结果,11种自身免疫疾病和血细胞性状),所有10种PPI增强子注释都显著富集了疾病遗传性,较小注释富集较大(图S5和表S23);标准化富集值在注释间更相似(图S6和表S24)。在Bonferroni校正后, 所有10个PPI 增强子注 释均达到条件 显著性t* 值(p0.05/110)(图3A和表S23)。值得注意的是,PPI增强剂3ABC的最大t *(2.0 [SE 0.3])比最近提出的EDS24的最大t*(EDS-二元3ABC的0.91 [SE 0.21])大>2倍。所有10个PPI增强子注释仍然显著,当以图S11的增强子相关关节模型为条件时(表S25)。在5种血细胞性状与6种自身免疫性疾病的S-LDSC结果荟萃分析比较中,结果大致一致(t* 估计值之间r = 0.93),但自身免疫性疾病的信号更强(斜率= 2.2)(图3B和S7;表S10和S11)。在两种粒细胞相关血细胞性状与三种红细胞或血小板相关血细胞性状的荟萃分析比较中,结果广泛一致(r = 0.83),但粒细胞相关血细胞性状的信号更强(斜率= 2.1),进一步验证了PPI增强子基因评分与免疫应答相关(图S8;表S12和S13)。在个体性状分析中,110个PPI-增强子注释-性状对中有62个显著(FDR 5%)(图S9和S10;表S14),其中8个具有疾病/性状间异质性的证据(10个PPI-增强子注释中有8个FDR 5%)(表S15)。我们联合分析了来自增强子相关联合模型的6个增强子相关注释(图S11)和表S25中基于增强子相关联合模型的10个边缘显著PPI-增强子注释。其中,三个增强子相关注释和四个PPI增强子注释在所得PPI增强子相关联合模型中是共同显著的(图3D和表 S26 ) 。 PPI 增 强 子 3ABC 的 联 合 信 号 最 强 ( t* = 1.2±0.21),突出了ABC S2G策略的不确定性。7个注释中有3个达到t *> 0.5;t*> 0.5的注释不常见,被认为是重要的。55Cell Genomics2,100145,2022年7月13日7会开放获取文章我们评估了PPI增强子基因评分在五个金标准疾病相关基因组中的富集:药物靶基因10、45个孟德尔基因(Freund)、46个孟德尔基因(Vuckovic)、47 个免疫基因48和高pLI基因49(图3C和表S6)。PPI增强子基因评分显示所有5个基因集中的显著富集,与7个增强子相关基因评分中的任何一个相比,富集的幅度更高特别地,PPI增强子基因得分为5.33(SE 0.1),富集药物靶基因,4.63(SE 0.1),富集孟德尔基因(Freund),在每种情况下比EDS二元基因得分24(2.13 [SE 0.1]和2.33 [SE 0.1])强R2倍的富集。我们进行了三次二次分析。首先,对于来自图3D的四个共同显著的PPI增强子注释中的每一个51,52我们观察到所有四种注释的大量且显著的富集(表S17),与S-LDSC结果一致(并且与上述增强子相关注释的类似分析一致)。其次,我们进行了途径富集分析,以评估PPI-增强子基因评分在来自PatisusPathDB数据库的途径中的富集;53该基因评分在免疫相关途径中富集(表S18)。第三,我们证实,当应用于所有80个增强子相关和PPI增强子注释时,我们的前向逐步消除程序产生相同的结果,而不仅仅是来自增强子相关联合模型的6个增强子相关注释(图S11)和10个PPI增强子注释。评估PPI网络信息相对于组合不同增强子相关基因评分的相对重要性的其他分析描述于方法S1中。我们的结论是,增强子相关基因的高网络连接的基因是有条件的自身免疫性疾病和血液相关性状的信息时候选主调节基因是自身免疫性疾病遗传性的我们评估了两个基因评分的疾病信息性,优先考虑血液中的候选主调节基因。我们使用来自eQTLGen联合体56(Trans-master)的全血eQTL数据和公开的人类已知转录因子(TF)列表37(图1C,表1和STAR方法)来定义这些基因评分。我们注意到TF基因不一定是主调节子,只有少数转录因子调节许多下游基因,但TF基因仍然可以被视为候选的主调节子。使用来自18个主调节基因家族57-61的97个已知的主调节基因2.2310- 160;表S27和S28),证实它们优先考虑候选主调节基因。详细地说,反式主基因是一个二元基因评分,由通过SNP显著反式调节三个或更多个其他基因的基因定义,所述SNP是焦点基因的显著顺式eQTL(10%的基因);由反式主基因反式调节的基因数目的中值为14.值得注意的是,eQTLGen Consortium56仅可用于10,317个先前疾病相关的SNP。具有显著的cis-eQTL的基因是疾病相关的SNP,这是可能的,无论反式信号如何,都可能富集疾病遗传力为了考虑这种基因水平的偏差,我们将所有的反式主基因注释分析条件化为:(1)基于由具有至少一个疾病相关的cis-eQTL的基因定义的基因评分的十个注释,与十个S2 G策略中的每一个组合,和(2)基于由具有至少三个未连锁的疾病相关的cis-eQTL的基因定义的基因评分的十个注释,与十个S2 G策略中的每一个组合;我们选择数字3以最大化该基因评分和反式主基因评分之间的相关性(r= 0.32)。因此,我们的主要分析以93个基线-LD+和20个额外注释(113个基线-LD+顺式模型注释)为条件;下文描述了额外的次要分析。我们没有考虑由trans-eQTL定义的SNP注释,因为eQTLGen数据中的trans-eQTL仅限于疾病相关的SNP,这将使我们的结果产生偏差。我们将反式主基因评分与十种S2G策略(表2)组合以定义十种注释。在我们使用以基线-LD+顺式模型为条件的S-LDSC进行的边缘分析中,所有10个反式主注释均强烈且显著富集了疾病遗传性,较小注释的富集程度较大(图S5和表S29);各注释的标准化富集值更相似(图S6和表S30)。在Bonferroni校正后,所有10个Trans-master注释均获得了条件显著性t* 值(p0.05/ 110)(图4A和表S29)。我们观察到Trans-master3 TSS的最强一致性信号(对于候选主调节器3基于窗口的S2 G策略,t * = 1.6对比t * = 0.37-当仅以基线-LD+注释为条件时,我们观察到相似(略微更显著)的结果(表S31)。如上所述,来自eQTLGen对照56的反式eQTL数据仅可用于10,317个先前疾病相关的SNP,因此我们定义并以基线LD+顺式模型注释为条件我们验证了对源自由其他最小数目的cis-eQTL和/或未连锁的cis-eQTL定义的基因评分的注释的调节产生了类似的结果(表S32为了验证我们的结果不受SNP水平偏倚的影响,我们调整了10个Trans-master注释中的每一个。通过从注释中去除eQTLGen数据中的所有疾病相关的trans-eQTL SNP以及任何连锁的SNP(STAR方法)。我们验证了这些调整后的注释产生了相似的结果(表S37)。TF是一个二进制基因评分,由人类1,639个已知转录因子的公开列表定义。37我们将TF与十个S2G策略(表2)组合以定义十个注释。在我们对基线-LD+顺式模型的边际分析条件下,所有10个TF注释的遗传性均显著富集,但富集程度小于反式主注释(表S29;标准化富集程度见表S30在Bonferroni校正后,9个TF注释获得显著的t* 值(图4A和表S29)(相同的9个注释在基线-LD+模型的条件下也是显著的;表S31)。在所有S2 G策略中,Trans-master注释的t * 值大于TF注释的t * 值(表S29)。8Cell Genomics2,100145,2022会开放获取文章B.图4。我们评估了通过将两个主调节因子+ 1个PPI主基因评分与10个S2G策略相结合构建的30个注释。(A) 标准化效应量(t*),以113个基线-LD +cis模型注释为条件(B) 比较六种自身免疫性疾病与五种血细胞性状的荟萃分析标准化效应量(t(C) 在五个“金标准”疾病相关基因集中富集主调节基因和PPI主基因(D) 标准化效应量(t*),条件为CD基线-LD + cis模型加上五个联合显著的主调节因子+PPI-主注释。在(A)和(D)中,对11种血液相关性状的结果进行了荟萃分析在(A)和(C)中,双星号表示Bonferroni显著p值(A中**p0.05/ 110,C中 **p0.05/55),单星号(*)表示FDR 0.05。在(A)中,每行中的黑框表示具有最高t * 的S2G策略在(B)中,圆圈点表示两个荟萃分析之间效应量存在显著(FDR 5%)差异的注释,实线表示y = x,虚线表示回归斜率。我们报告了主-调节因子和PPI-主注释的回归斜率和Pearson相关性(仅主-调节因子注释的(D)中的误差条表示95%置信区间。数值结果见表S6、S29、S38、S39、S47和S51。我们比较了六种自身免疫性疾病与五种血细胞性状的S-LDSC结果的荟萃分析(图4B和S7;表S1、S38和S39)。结果大致一致(t* 估计值之间的r= 0.56),血细胞性状的信号略强(斜率=0.57)。我们还比较了两种粒细胞相关血细胞性状与三种红细胞或血小板相关血细胞性状结果的荟萃分析(图S8;表S40和S41)。结果基本一致(r = 0.94,slope = 1.12)。我们还检查了单个疾病/性状的S-LDSC结果,并应用异质性检验50(图S12和S13;表S14和S15)。我们观察到几个具有疾病信号的注释-性状对(220个注释-性状对中的96个的FDR 5%),具有跨疾病/性状的异质性的证据(20个注释中的10个的FDR 5%)。我们联合分析了在我们的边际分析(图4A和表S29)中具有Bonferroni显著性的10个Trans-master和9个TF注释,方法是执行前向逐步消除,以迭代删除Bonferroni校正后具有条件非显著性t * 值的注释。其中,三个反式主注释和两个TF注释在所得候选主-调节子联合模型中具有联合显著性(图S14和表S42)。Trans-master3 Roadmap的 联合 信 号 最强 ( t*= 0.81, SE =0.13),强调了Roadmap S2 G战略的高附加值。我们评估了五个金标准疾病相关基因组中的反式主基因和TF基因评分的富集:药物靶基因10、45个孟德尔基因(Freund)、46个孟德尔基因(Vuckovic)、47个免疫基因48和高pLI基因49(图4C和表S6)。反式主基因得分显示与TF基因评分相比,所有五个基因集中的富集。与一些增强子相关基因和PPI增强子基因评分相比,药物靶基因的候选主调节基因的富集较低(1.43,SE 0.07)(图3C);这可归因于候选主调节基因可能倾向于破坏几种途径中的基因,使其不适合作为药物靶点。我们进行了7次次要分析。首先,为了比较的目的,我们定义了一个二元基因评分(反式调节)的基础上,至少有一个显着的trans-eQTL的基因。我们将反式调节基因与十种S2G策略相结合以定义十种注释。在我们使用S-LDSC条件性基线-LD+顺式模型的边际分析中,在Bonferroni校正后,所有反式调节注释均未获得条件性显著t* 值(p0.05/110)(表S43)。(相比之下,当仅在基线-LD+模型上调节时,三个注释是显著的;表S44。)第二,潜在的复杂性是全血中的trans-eQTL可能固有地富集与血细胞性状相关的SNP(因为调节特定血细胞类型丰度的SNP将导致trans-eQTL对在该细胞类型中特异性表达的基因的影响56),潜在地限制了我们的结果对非血细胞性状的普遍性。为了确保我们的结果对这种复杂性具有稳健性,我们验证了仅限于5种自身免疫性疾病的分析(表S1)产生了相似的结果(表S45)。第三,对于来自候选主-调节子联合模型的五个注释中的每一个(图S14),我们评估了它们对来自两个先前的基因组的血液相关性状的精细映射SNP的功能富集。一Cell Genomics2,100145,2022年7月13日9会开放获取文章问题研究51,52我们观察到所有五种注释的大量且显著的富集(表S17),与S-LDSC结果(以及上述类似分析)一致。第四,我们进行了途径富集分析,以评估Trans-master和TF基因评分在来自PatisusPathDB数据库的途径中的富集。53反式主基因评分在免疫相关途径中显著富集(表S18)。第五,我们探索了使用S2G策略组合与SNP相关的基因间信息的其他方法,通过使用与SNP相关的基因评分的基因间平均值或基因间总和,而不是基因间最大值。我们确定平均值或总和的结果与最大值的结果非常相似,所得SNP注释的标准化效应大小无显著差异(表S29、S19和S20)。第六,我们重复了我们对反式主基因得分的分析,该得分是在我们的初步分析中基于2,215个反式调节R3基因的基因定义的,使用了3,717个反式调节R1基因的基因(其中大多数反式调节多基因)或1,170个反式调节R10基因的基因(表S46).我们观察到了非常相似的结果,在标准化效应量方面基本上没有显著差异。 第七,我们确认,当应用于所有20个候选质量调节因子注释时,我们的正向逐步消除程序产生相同的结果,而不仅仅是在我们的边际分析中具有Bonferroni显著性的19个候选质量调节因子注释。我们的结论是,候选主调节基因的自身免疫性疾病和血液相关性状的条件信息时,使用功能知情S2G策略。与候选主调
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功