GWAS中疾病基因的统一统计框架和发现IBD和肥胖基因的方法

26 浏览量更新于2023-12-06 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

文章从GWAS中发现疾病基因的统一统计框架图形摘要亮点d将基因组最佳划分为祖先特异性和通用LD区块D 最先进的增强子-基因图谱d基因关联后验概率的计算d发现基因-疾病关联，包括最知名的IBD和肥胖基因作者新泽西州贾斯汀作者声明：Robert J.作者：Daniel Lowengrub，SarahChristensen对应justin@kallyope.com简言之从GWAS中识别疾病基因仍然是一个重大挑战。McManus等人引入一个数学框架来计算基因组中的每个基因受到介导疾病风险的因果变异影响的概率。该方法重新发现了大多数已知的IBD和肥胖基因，并建立了一种方法来优先考虑候选致病基因进行实验验证。McManus等人，2023，细胞基因组学3，1002642023年3月8日，作者。https://doi.org/10.1016/j.xgen.2023.100264会会~开放获取文章统一的统计框架从GWAS中发现疾病基因新泽西州贾斯汀McManus，1，4，5，*Robert J.Lovelett，1Daniel Lowengrub，1，2和Sarah Christensen1，31Kallyope，Inc.，430 East 29th Street，纽约，NY 10016，美国2现住址：Google，111 Eighth Avenue，New York，NY 10011，USA3现住址：D.E.Shaw Research，120 West 45th Street，New York，NY 10036，USA4资深作者5引线触点* 通讯地址：https://doi.org/10.1016/j.xgen.2023.100264justin@kallyope.com总结全基因组关联研究（GWAS）确定了与复杂性状相关的基因组位点，但在这些位点中确定受因果遗传变异影响的基因仍然是一个挑战。解决这一挑战的尝试因一些复杂的问题而受挫在这里，我们将展示如何将这些问题的解决方案结合到一个统一的数学框架中。通过这种合成，可以计算出基因组中每个基因受到特定性状的因果变异影响的概率我们单独或组合验证框架的每个组成部分。当应用于人类疾病的大型GWAS时，所产生的范例可以重新发现大多数已知的疾病基因。此外，它为许多以前仅由临床或临床前证据涉及的基因建立了人类遗传学支持，并以令人信服的生物学原理揭示了大量新的疾病基因。介绍全基因组关联研究（GWAS）已经确定5从附近的变异体中提取关联信号，使得很难将驱动每种关联的因果多态性与相关的“乘客"变异体区分开来二十五，二十六约10人与复杂性状相关的基因组位点对性状没有影响然后，即使因果关系人类疾病和生理学谱。1-“因果变异”），并将它们与它们影响的基因联系起来，我们将揭示复杂性状和疾病的遗传结构。特别是，识别致病变异体靶向基因的能力可能会彻底改变药物开发，并揭示表型变异背后的分子机制。事实上，复杂的计算策略已经产生了关于哪些基因可能是GWAS关联的基础的假设，并且在某些情况下可以直接识别因果变异所针对的基因。5-18然而，从GWAS中发现性状相关基因（即，受致病变体影响的基因）的研究受到几种复合挑战的阻碍，这阻碍了致病变体及其靶基因的鉴定。首先，全球WAS带来了沉重的多重比较负担。在目前的样本量下，许多因果变异诱导的关联信号低于全基因组显著性的阈值。 2 ， 19 ， 20 然后，即使发现了全基因组显著（GWS）关联，通常也很难确定致病的遗传变异。邻近的变异体表现出连锁不平衡（LD），也就是说它们的等位基因不独立地分类。21-因此，可以识别变体，其中90%是非编码27;它通常不知道它们影响哪些基因。28数学和实验的进步使这些问题变得容易处理了。统计精细映射算法已经建立了从复杂的GWAS关联中剖析因果变异[29-在这里，我们将这些进展扩展并结合到一个新的统计框架中，该框架直接解决了GWAS分析的主要问题。我们认为，发现性状相关基因的最直接方法是发现引起GWAS关联的因果变异，然后确定受这些变异影响的“目标”基因。这些基因可能潜在地介导因果变异对复杂性状和疾病的影响。我们在概率环境中实现了这一想法，不需要从字面上精确定位因果多态性（这在目前的GWAS样本量下通常是不可能特别地，我们通过结合全面的映射（即，查找表）从变体到它们影响的靶基因。因此，我们计算的后验概率CellGenomics 3，100264，March 8，2023？作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。会开放获取文章2Cell Genomics3，100264，2023BDCE图1. 欧洲人的LD划分(A) 热图可视化了从1KGP欧洲（EUR）超级人口计算的相关矩阵的对角线。(The矩阵已逆时针旋转45°，以便对角线水平运行每个热图都是人类遗传学中一个重要基因座的子集：APOE（chr 19：44，000，000（坐标是关于基因组参考联盟人类构建37 [GRCh37]。颜色条表示相关性大小。细线描绘了该群体中的LD区块LD边界跟踪底层相关矩阵的块对角结构的边缘强相关性的区域永远不会被划分到块中，块包括强相关性和弱相关性。(B) 同一区块（天蓝色）、相邻区块（红紫色）或非相邻区块内变异对之间的均方相关性（±SD）2（gre en，几乎看不见）。红线表示我们认为在LD中的两个变体之间的最小相关性，= 0：05，校正样本相关系数（方法S1）。请注意，在块之间的相关性中存在可忽略的变异性（几乎不可见的SD须）。(C) LD区块之间（右，红紫色）和区块内（左，天蓝色，几乎不可见）边界处的重组率箱形图方框跨越重组率每个分布的四分位数范围（中间50%）;须状线延伸到第5和第95个四分位数。在LD区块之间的边界处，与区块内相比，蒸发率明显较高。(D) 欧洲人LD区组大小的分布遵循指数分布，速率参数l=2：3，与随机（泊松分布）发生一致基因组中的重组热点前0.5%的块大小已被删除。(E) 从（D）修剪的块大小作为它们到着丝粒的距离的函数最大的块倾向于位于着丝粒附近，在那里重组被抑制。48基因关联（PPA）：即基因被致病变体靶向的概率。为了在全基因组范围内应用精细映射方程，我们将人类基因组的最佳划分引入到相互不相关的LD块中。因此，对于给定的复杂性状，我们可以计算基因组中每个基因的关联概率，从而有可能识别与亚GWS关联有关的疾病基因。结果人类基因组为了以计算上易于处理的形式表达全基因组精细映射方程，我们利用LD的空间我们将人类基因组划分为连续的、非重叠的、相互不相关的LD块，这些LD块共同跨越基因组。每个区块限定了一组相互关联的等位基因，这些等位基因与其他区块中的位点不相关。找到这样一个分区可以用数学公式表示，其精确解由图聚类问题的全局最优解给出（图S1）。我们提出了一个算法，以有效地获得解决这个LD划分问题（方法S1）。在全局最优情况下，如果并且只有当它们的样本相关性通过了c2统计检验，其显著性水平取决于用于测量相关性的样本大小（方法S1）。LD块包含相关性并反映潜在的分子机制。为了描绘LD区块，我们首先从1000个基因组计划（1 KGP;第3阶段）下载分阶段基因型数据。47该版本包括来自五个大陆超级种群的2，504个个体基因组：非洲（AFR），东亚（EAS），欧洲（EUR），南亚（SAS）和混合美洲（AMR）。我们分别计算LD分区在每个超级人口，通过应用图聚类算法的样本相关性测量在每个祖先。我们总结了来自EUR人群的结果（图1），这是我们在本研究中分析的GWAS队列的祖先。一2Cell Genomics3，100264，2023年3月8日3CVCVCVCVCV2文章会开放获取工作我们还提供了其他未混合超级种群的相应结果（图S2和S3;表S1）。每个超级种群中LD的空间格局由相关矩阵描述（图S1）。我们的LD块遵循该矩阵的块对角结构，描绘了沿其对角线发生的高相关性的离散区域（图1A）。正如预期的那样，LD块内的相关性比跨块的均匀弱相关性大得多并且变化更大（图1B和S2A）。在所有群体中，相邻区组之间的平均相关性小于我们认为不可忽略的最小值（图1B和S2A，红线;方法S1），小于2个标准差以上。LD区块之间的边界与遵循泊松空间分布（图ID和S3A）的重组热点（图IC和S2B;表S2）重合;区块往往在重组被抑制的地方最大（图IE和S3B）。此外，LD区组反映了长程混合物LD（表S1），并且与群体样本量大致无关（图S4;表S3）。此外，这些区块比先前的LD分区更可靠地包含变体之间的相关性（方法S1;图S5和S6）。通用LD块。群体特异性LD区块使得精细定位模型能够在全基因组范围内应用于同质祖先的队列。为了以相同的方式分析多祖先GWAS数据（方法S1），我们需要在所有研究人群中统计学上不相关的“通用”LD区组。因此，我们开发了一种算法（STAR方法），以确定在超种群中共享的共同LD块边界22，49将该方法应用于四个未混合的超级群体（AFR、EAS、EUR和SAS），我们发现存在普遍有效的LD分割，在这个意义上，通用块跨越基因组并且在所有四个群体中相互不相关（图S7）。我们在所有染色体上共发现了2，326个这样的区块，中值长度约为600 kbp（表S4）。与未混合种群相比，AMR超级种群表现出极长程LD（表S1）。然而，当AMR超级群体被包括在共有序列中时，通用LD划分的存在成立，尽管其长程LD需要更粗糙的划分（表S4）。变异基因图谱LD块使得能够采用分治方法来计算基因组中的每个变体是因果的概率。为了计算所有基因的关联概率，我们还需要从假定的因果变异到它们影响的靶基因的映射。我们从三个数据源的联合建立了这样的映射：（1）Ensembl变体效应预测器（VEP），50（2）基因型-组织表达（GTEx）项目，46和（3）顺式调节元件（启动子和增强子）到其靶基因的综合映射。首先，我们使用来自VEP的功能结果将非翻译区（UTR）、剪接位点或外显子中的变异体连接到相应的基因（方法S1）。其次，GTEx具有引脚-由于GTEx eQTL并不全面，我们建立了整个基因组中所有增强子和启动子的机器学习（ML）模型。从这些模型中推断的增强子-启动子相互作用构成了组合图谱中变体-基因链接的大部分（88%）（见下文）。增强子-启动子相互作用的ML。考虑开放染色质中的DNA片段（即，DNA酶-I超敏位点[DHS]），其包含潜在的顺式调节元件。如果DHS是特定启动子的增强子，则其活性（染色质可及性）应增加启动子活性，并且其应与启动子物理相互作用（方法S1）。因此，通过发现最能预测启动子活性的物理相互作用调控元件，应该可以鉴定启动子的增强子。为了测试该假设，我们为基因组中的每个启动子构建了ML模型，以预测跨细胞类型的启动子活性，作为附近调控元件活性的函数（方法S1;图S8和S9;数据S1和S2）。该模型识别每个启动子的预测增强子的小集合，受到它们在三维空间中接触启动子的约束。我们推断这些模型所选择的调控元件是相应启动子的增强子。反过来，落入（或非常接近）增强子的遗传变异与该增强子的靶基因相关联ML模型识别准确预测促动剂活性的增强子。为了建立每个启动子的ML模型，我们首先确定了一组2 Mbp内的推定增强子。这些是DHS，其可访问性（即，活性）与启动子和其它潜在增强子的活性在不同细胞类型之间存在协变。以这种方式鉴定的推定增强子得到表观遗传组蛋白标记、增强子RNA、GTEx eQTL和GWAS因果变体的支持（方法S1;图S10）。每个启动子模型的目标是选择这些推定的增强子的子集，其实际上调节启动子处的转录（方法S1）。如果选择的增强子是正确的，那么模型应该基于这些增强子准确地预测启动子活性，即使在未用于训练模型的数据中。为了验证启动子模型，我们因此使用三个数据折叠来计算它们的交叉验证的决定系数ΔR2Δ（图2A）。R在所有启动子模型上的分布MYC基因的启动子证实了这些模型的预测性能（图2B）。在染色质可及性的整个范围内和在针对开放染色质测定的人类细胞类型的范围内准确预测启动子的活性，包括具有显著高启动子活性的离群值观察。变体-基因图谱整合仅从前80%的启动子模型中预测增强子，按预测性能排序，从而包括R2R0：4的模型。我们对随机选取的150个启动子模型进行排列检验（方法S1），发现所有R2>0的模型都有统计学意义。虽然这表明即使是很小但积极的价值，点变异（表达数量性状基因座[eQTL]），关于R2很可能是重要的，我们只包括子模型，介导特定组织中特定基因的表达;我们将这些变体与基因的关联包括在地图中最后，显著（而不仅仅是统计上显著）的预测能力。4Cell Genomics3，100264，2023会开放获取文章CVA B EC图2.增强子-基因图谱将非编码DNA连接到靶基因(A) 启动子处染色质可及性的ML模型的交叉验证预测能力所有启动子模型的R2直方图（交叉验证倍数模型解释的启动子可及性的方差该模型是基于染色质可及性在增强子内的启动子2 Mbp。(B) MYC基因启动子的单一模型的预测性能在MYC启动子处预测的染色质可及性与观察到的染色质可及性，在数百个ENCODE（DNA元件百科全书）样品中，在来自开放染色质测序测定的RPKM（顺式调节元件的每个酶的读数/映射的百万个读数）中测量（方法S1）。(C) 预测的增强子与基因相互作用的数量的分布作为增强子和启动子之间距离的函数(D) MYC启动子和每个候选增强子DHS之间的标准化接触频率在2Mbp内。蓝色点表示通过启动子模型选择的MYC增强子(E) 我们的增强子-基因图谱（ML图谱）和替代方案的验证率针对：（顶部）已经实验验证的增强子-基因相互作用的概要（主要来自高通量CRISPR筛选）;和（底部）位于可能增强子的300 bp内的一组介导基因表达的因果变体（eQTL）（关于所有eQTL的验证率，参见图S12召回率被绘制为地图密度的函数，即，预测调节给定靶基因表达的增强子DNA的平均长度误差条显示735（顶部）或4，882（底部）验证的增强子-基因对的SEM。紫色箭头表示我们配置变体-基因图谱时的密度。增强子-启动子相互作用反映染色质接触。远端顺式调节相互作用被认为是由染色质环介导的，染色质环使增强子与启动子接触。因此，我们证实了ML模型预测的增强子-启动子距离的分布与实验观察到的染色质接触频率相匹配，我们将其作为先验信息包含在模型中。正如预期的那样，我们发现增强子-启动子相互作用的数量作为增强子与启动子的距离的函数衰减，其速率与染色质接触频率随距离的衰减相似（图2C）。预测的调控相互作用也可能反映了染色质接触发生在相同拓扑学相关结构域（ESTs）51内的偏好（图S11）。53%的增强子调节其最近的基因，但这些相互作用占所有顺式调节相互作用的不到30%（方法S1）。在单个启动子的水平上，我们发现预测的增强子出现在染色质接触频率的局部最大值中（图2D）。回到MYC启动子，我们发现染色质环使特异性增强子（距离基因高达2 Mbp）接近启动子，并且这些特定的增强子被ML模型鉴定为预测性的在整个基因组中，考虑到位点之间的基因组距离，预测的增强子-启动子对比未连接的对更可能发生在具有高于预期的接触频率的位点之间（优势比= 4.46，来自Fisher精确检验的p值<已知变异体与基因相互作用的验证。最后，ML模型的最强测试是确定它们如何预测实验观察到的增强子-基因相互作用，作为其密度（与每个启动子连接的增强子数量）的函数。因此，我们编制了一个数据库，DCell Genomics3，100264，2023年3月8日5文章会开放获取使用一系列技术测量增强子-基因相互作用的功能基因组学测定（方法S1;数据S3;表S5），产生735个独特的增强子-基因对。这些中的大多数来源于K562细胞系中的高通量CRISPR（规律间隔的成簇短回文重复序列）筛选。我们计算了ML模型恢复（回忆）的已知交互的比例。由于增强子-基因预测的数量可以用单个参数调整，我们测试了通过改变调整参数获得的一系列预测密度（图2E）的结果图的召回率。在我们选择用于本工作分析的密度（#增强子/基因）下（图2E中的紫色箭头），ML图谱回忆起73%的已知增强子-基因相互作用。接下来，我们在GTExConsortium发现的eQTL上评估了我们的增强子-基因图谱。46我们仅考虑了GTEx精细定位到可能增强子中/附近的单一致病变体的eQTL（方法S1），导致4，882个变体-基因关联（数据S4）。在这里，我们恢复了76%的相互作用（另见图S12）。我们测试了ML映射的简化实现，发现需要完整的模型才能达到这一性能水平（方法S1;图S13）。请注意，我们从开放的染色质图谱和染色质接触频率（STAR方法）构建了ML模型。另一方面，验证数据来自不同的模态（例如，CRISPR筛选和人类遗传变异）和人类细胞类型/组织的不同为了进行比较，我们评估了来自文献的几种替代方法的性能，这些方法也将增强子与靶基因联系起来：FOCS（具有交叉验证和收缩的FDR校正的OLS），52JEME（多个增强子的联合效应），53PEGASUS（使用同线性预测增强子基因关联），54EpiMap（跨多个注释项目的表观基因组整合），55和ABC（接触活性）。[56]如果有两种图谱可以预测相同数量的增强子-基因，我们应该选择预测已知相互作用比例更大通过绘制这个召回率与预测总数（通过连接到每个基因的增强子核苷酸的平均数量来量化）的关系，我们发现ML图优于其他方法。对于通过每种方法进行的任何给定数量的增强子-基因预测（图2E的横坐标），与替代方案相比，来自ML模型的预测的更大部分通过实验验证（如果我们假设验证数据是无偏的，则该结果意味着ML图在任何给定密度下都达到最佳精度。）虽然最近发表的ABC方法与ML图谱在功能基因组学测定上的性能相匹配，但其性能在GTEx eQTL 上下降，而GTEx eQTL更能代表介导疾病风险的GWAS变体。与ABC相比，ML图谱能够更好地预测在训练数据中不显示高DHS活性的增强子的靶基因（图S14）。完整的变体-基因图谱的组成将ML图谱与VEP和GTEx相结合，得到了完整的变体-基因图谱，我们将其纳入到精细映射模型中（见下文）。完整图谱将60%的基因组与生化特征相关联，41%与至少一个基因相关联（方法S1）。统计精细映射模型配备了一个分区的基因组到LD块，和一个全面的地图的变体靶基因，我们扩展了统计精细映射的方程计算PPA的所有基因。(We在图S15中示意性地解释该方法，并在方法S1中正式解释。）我们的目标是计算任何特定基因被因果变异靶向的概率。因此，我们考虑了所有可能的因果变异组合，这些组合可以合理地解释性状的遗传结构。我们评估每个组合的概率，并将包括与基因相关的因果变异的所有组合的概率相加。正如我们在下面所展示的，使用这种方法，有可能自信地识别出由因果变异体靶向的基因，而无需实际确定因果变异体本身！解释不同后果的先验知识。为了计算贝叶斯关联概率，我们必须在实际测试变量的关联性之前，指定我们的先验信念（编码为先验概率），即任何特定的变量都是性状的因果关系我们推断，任何变异是因果关系的先验概率应该取决于其生化后果：即变异是否以及如何改变基因的功能或表达。这些概率很难从第一原理中推导出来，但我们可以直接从GWAS数据中了解它们。我们首先根据其最严重的生化后果（例如，变体是否落入活性增强子或剪接位点），与指示每个变体是否存在于保守DNA中的指示物组合（表S6）。为了根据变异最严重的后果对其进行分类，我们利用了变异-基因图谱。然后，我们将期望最大化（EM）算法57、58应用于GWAS的概要（表S7），以学习每个生物化学类别中的变体的关联的先验概率（方法S1）。EM算法发现最大化获得我们实际观察到的GWAS数据的概率的先验。我们称之为“生物化学先验”的结果统计精细映射的验证。为了验证统计学精细作图计算，我们首先计算基因组中每个变体是突变的概率，即，PPA的变体。对于任何变体，PPA通过对包括该变体的因果多态性的所有合理组合的概率求和来获得。请注意，这是对我们用来计算基因概率的同一概率分布的求和。变异和基因PPA只是使用完全相同的统计模型对因果变异的不同组合进行求和（边际因此，我们可以使用变异概率来验证基因概率下的核心统计计算。如果我们的计算是正确的，那么具有高PPA（强有力的因果关系证据）的变体通常应该具有合理的作用机制（MOA）：即，它们应该靶向具有已知或预测的生物化学功能的DNA。为了验证这一点，在不通过在模型中包含生化知识来偏倚结果的情况下，我们计算了具有“统一先验”的变异PPA6Cell Genomics3，100264，2023会开放获取文章图3. 因果变量的统计精细映射(A) 预测变异的生化后果，作为其与GWAS编译中的性状的后验关联概率（PPA）的函数使用均匀先验（左）或生物化学先验（右）计算变体PPATSS表示落在转录起始位点附近的变体;CRM表示与顺式调控图谱中的至少一个基因连接的增强子中/附近的变体;VEP变体可以通过VEP结果与基因连接;DHS表示通过增强子-基因图谱不与任何基因连接的DHS中/附近的变体(B) 可能的因果变异的GWAS p值分布（即，PPA > 0.5的变体），从>40个GWAS的集合中发现。红线标志着全基因组显著性的阈值为10 - 5 - 3- 10 -8。从均匀先验获得的分布以蓝色绘制;生化先验以透明的橙红色绘制。两个分布重叠的区域显示为紫色。具有小于13 10-50的p值的变体已经从直方图的右边缘被剪切只有0.5%的PPA > 0.5（生化优先级）的变异具有非常弱的性状关联（p > 0.01）。在PPA > 0.75的更有可能是因果关系的变体中，这一比例仅为0.16%（图S16）。如果没有基于插补的质量控制（QC）程序来去除具有不可信关联信号的变体（图S16和S17;方法S1），则没有强关联信号的看似因果性变体的比例将大一个数量级（图S16）。先验。因此，我们评估了GWAS纲要中的变体PPA，通过每个GWAS中的推断因果概率对变体进行分层，并在每个PPA箱中记录变体结果（图3A，左）。正如预期的那样，我们观察到变异是因果关系的概率与其靶向功能相似的DNA的可能性之间存在变异越有可能是因果关系，它们就越频繁地落入外显子、UTR、增强子或其他功能性DNA元件，这些元件必须是GWAS关联的来源。然后，当我们将变体注释编码到完整模型中，并使用EM学习真实的先验概率时，几乎所有潜在的因果变体都具有合理的MOA（图3A，右）。通过完整模型计算的大约90%的潜在因果变异，具有“生物化学先验”，可以通过我们的变异基因图谱与基因联系起来。此外，生化模型揭示了不同类型的变异体之间的相对频率的因果GWAS多态性。概括以前的结果，我们发现大多数致病性GWAS变体靶向启动子和增强子（或分别为- ange和blue，在图3A中）。检测sub-GWS因果变异的能力。我们在全基因组范围内应用了精细定位算法，期望即使它们的GWAS p值不满足严格的GWS阈值，也能发现因果变异为了验证该方法在整个GWAS信号范围内检测因果变异的能力，我们收集了所有可能的因果变异。(PPA> 0.5），并绘制其GWAS p值的分布（图3B）。分布的峰值正如预期的那样，当GWAS p值接近1时，可能的因果变体的频率衰减到几乎为零（即，当关联信号趋于零时），结果取决于GWAS汇总统计量的基于插补的质量控制（QC）（图S16和S17;方法S1）。此外，在先验中并入变异注释使可以检测到的可能的因果变异的数量加倍。正如预期的那样，优势在GWS阈值附近最为突出：当数据本身不确定时，先验知识具有更大的影响基因概率分布。有了前面提到的精细映射模型的验证，我们最终评估了基因概率。基因的PPA是其被至少一种致病变体靶向的概率，其在致病变体的所有可能组合上被整合（方法S1）。给定一个多基因性状的足够功率的GWAS，基因概率遵循双峰分布，在其极端具有不对称峰。考虑蛋白质编码基因在体重性状的三个GWAS中的概率分布（图4A;每个GWAS的分布相似）。在零处的主峰包括与体重指数（BMI）或体脂百分比/分布几乎没有关联的基因;在1处的较小峰包括我们预测的基因，几乎可以肯定，这些基因是这些性状的因果变异体的峰之间的概率质量反映了我们鉴定性状相关基因的不确定性（即，致病变异体靶向的基因），这是由于不确定哪些变异体是致病的。理论上，作为一B会开放获取文章Cell Genomics3，100264，2023年3月8日7A B图4.性状相关基因(A) 所有蛋白质编码基因的PPA分布，取每个基因在BMI、59体脂百分比、60和调整BMI后的腰臀比的GWAS上的最大PPA。在均匀先验下计算的61个基因PPA以蓝色绘制。生化先验下的PPA以透明的橙红色覆盖。两个分布之间的重叠区域显示为紫色。(B) 一个密度散点图，显示了生物化学与均匀先验计算的基因PPA的差异，对于不同性状的蛋白质编码基因随着GWAS样本量的增加，分布中间的概率质量在统计模型中对先验知识进行编码，将概率质量从分布的左侧移动到右侧，使高置信度性状相关基因的数量大约增加一倍。在一系列不同的特征中，结合先验知识会产生更大的概率，约90%的合理疾病基因，其中许多基因相对于不知情模型的概率发生了实质性变化（图4B）。基因簇。我们强调，一个单一的致病变异可能会针对多个基因，当一个变异改变了一个增强子，调节几个基因的表达。因此，并非所有被致病变体靶向的基因（即，具有高PPA的基因）本身必然是因果关系。我们推测，致病变异介导的疾病风险失调至少一个基因，但干扰其他基因的目标相同的变异可能是无害的。因此，我们引入了“基因簇”的概念每个基因簇是由相同的因果变异所涉及的基因的集合。我们并没有假设PPA高的基因是因果关系，而是将它们与自己基因簇中的其他基因进行在生物学原理和支持证据的基础上，我们从每个基因簇中手动筛选出最合理的因果基因在每个GWAS中，我们将由相同的因果变体所涉及的基因聚类（方法S1）。考虑到在我们分析的性状中获得的基因簇，大多数簇都很小：中值（平均）簇大小仅为1（2.6），SD为3.1个基因（图S18A）。我们说明了如何从基因簇的组成中优先考虑可能的因果基因进行实验验证（图S18B）。检测性状相关基因的能力我们测量了我们的方法的灵敏度，以发现由因果变异体失调的基因。我们首先计算了基因组中的致病变体，仅考虑GWAS p值小于阈值的推定致病变体（例如，10-3;方法SI）。该计算对所有可检测的CARBON变体进行计数，按p值分层，而不管它们是否可以被精细映射;它代表了可能与基因相关的独立关联信号的最大数量然后，我们将性状相关基因和基因簇的数量，以及精细定位变体的数量与该上限进行比较（图5）。出于该分析的目的，我们认为PPA > 0.5的基因是性状相关的，而PPA > 0.5的变体可能是因果的（即，精细映射）。性状相关基因簇包含至少一个性状相关基因。在具有代表性的性状样本中，统计框架通常识别出比GWAS数据中的GWS因果变异更多的性状相关基因簇这种敏感性源于两个关键现象。首先，在生物化学先验下，因果变异体可能存在于我们可以与基因连接的DNA中（图3A）;先验使从因果变异体吸收大量概率质量的基因数量加倍（图S19），包括具有亚GWS关联的变异体。第二，许多性状相关基因将其PPA整合到多个潜在的致病变体上。通常不需要精确定位致病变异，因为不同的候选致病变异通常涉及相同的基因。（如果两个潜在的因果变异涉及同一个基因，那么为了计算基因PPA，这并不重要-这是因果变异。因此，性状相关基因簇的数量超过了可以精细定位的因果变异体的数量几倍（图5，绿色与红紫色条）。对已知疾病基因的验证。接下来，我们验证了该平台重新发现了已知的基因-疾病关联。我们认为炎症性肠病（IBD）是一种遗传学研究充分的多基因疾病继纳赛尔等人之后，18我们从最近的综述中获得了一组83个已知的IBD基因68为了衡量平台对已知疾病基因组的性能，我们必须首先选择一个会开放获取文章8Cell Genomics3，100264，2023图5.性状相关基因和基因簇的鉴定从8个代表性性状中发现的性状相关基因和基因簇的数量，与每个性状的因果变异总数和精细定位变异的数量进行比较。所有概率均采用生物化学先验进行计算。特征：BMI，体重指数60; SCZ，精神分裂症62; IBD，炎症性肠病63; BPD，双相情感障碍64; DEP，抑郁症65; PD，帕金森对于每个性状，最左边的条表示因果变体的数量的期望值（即，GWAS中独立可检测信号的总数），仅考虑GWAS p值小于10-3的推定的致病变体。根据每个变体的p值，将因果变体的总数划分为3个箱全基因组显著性（GWS）因果变体具有p值% 53 10-8。超过这个概率阈值我们就认为基因与此有关。自然地，我们选择基因PPA阈值为0.5（即，50%），超过这个范围，基因更有可能被致病变异体靶向。将该平台应用于IBD的GWAS，63因此我们回忆起83个IBD基因中的70%。我们的平台只能检测由诱导GWAS信号的变异体靶向的疾病基因。因此，我们考虑了83个IBD基因的一个子集，由非编码DNA中GWS结合信号的1 Mbp内的26个基因组成[18]在这个子集上，平台可以回忆起77%的基因。我们将该性能与用于鉴定致病变体靶向基因的替代方法进行了比较;即基于总和的孟德尔随机化（SMR）， 14Coloc， 10和Nasser等人介绍的ABC方法。[18]这里描述的方法比以前的算法召回了大约两倍的已知IBD基因（表1）。召回率名义上甚至超过了Summary-MultiXcan，16一种全转录组关联研究（TWAS）方法。S-MultiXcan能够很好地检测受近端eQTL影响的基因。与其他方法不同，它不会特异性地识别致病变异体直接靶向的基因;它与疾病相关的许多基因可能被具有致病多态性的LD中的乘客变异体靶向。在IBD中，S-MultiXcan涉及的基因数量是我们识别的不同基因簇数量的四倍，而没有任何方法来识别哪些基因应该优先考虑。同样，我们验证了该平台捕获了先前由外显子组研究涉及的疾病基因。我们将BMI70和71中蛋白质改变变体的两项研究结果合并为27个独特的BMI相关基因。对于每个基因，我们计算了其在BMI ， 59 体脂百分比（ BFP ）， 60 和 BMI 调整的腰臀比（WHRadjBMI）的GWAS中的最大PPA。61该平台召回了78%（21/27）的BMI基因（表S8），这大大超过了以前的方法（表1）。最接近的对应物，SMR和S-MultiXcan，回忆48%，尽管涉及更多的基因。此外，该平台避免了（很少）由于对外显子组的独家关注而引起的解释或疾病基因确定中的使用该平台，我们发现该方法未暗示的一个假定的BMI相关基因（HIP1R，PPA：40%）实际上是从外显子组中错误鉴定的（图S20）。用新的遗传学证据发现疾病基因即使对于研究最充分的复杂疾病，经过充分验证的基因也只占遗传性的一小部分。一个强大的方法应该从GWAS中发现许多新的疾病基因。我们的框架涉及大量具有新的遗传关联的基因，实例包括肥胖症中的GLP 1 R（84%PPA）和CCK（> 99%PPA）;IBD和克罗恩病中的TLR 1（84%PPA）和PPIF这些基因与具有不同生物化学后果的变体有关，包括靶向疾病相关细胞类型中的远端增强子的变体（图S21讨论以前的GWAS方法已经探索了不同的解决方案来寻找性状相关基因，通过巧妙地规避在开始时描述的主要挑战。5该平台需要将LD模块应用于统计精细定位，从染色质可及性发现增强子与基因的相互作用，并将生化知识纳入精细定位模型。所有这些想法以前都以某种形式介绍过。18，24， 33，34，37-39 ， 41 ， 52 ，53 ，55 ，56 这部著作的主要贡献是扩展了原始思想，并以新的方式将它们结合起来。结果是一个计算，会开放获取文章Cell Genomics3，100264，2023年3月8日9表1.已知疾病基因的比较回忆方法IBD基因回忆IBD子集回忆IBD基因肥胖基因回忆肥胖基因这项工作70%（1.00）77%（1.00）739 [297]78%（1.00）四千八百九十四[二千一百六十二]SMR42%（0.45）27%（0.23）1 169（0.12）48%（0.42）7，851（0.20）S-MultiXcan67%（0.70）69%（0.73）1 190（0.21）48%（0.55）4，969（0.30）Coloc30%（0.36）19%（0.19）N/A19%（0.24）N/AABC-全部25%（0.32）54%（0.62）378（0.13）19%（0.19）691（0.06）ABC-Max20%（0.27）54%（0.62）58（0.04）4%（0.05）157（0.02）从这项工作和替代方法中召回IBD和肥胖症中的已知疾病基因对于这两种疾病，每种方法都是根据从相关GWAS中发现的基因的结合进行评估的对于IBD，我们聚集了与IBD或其亚型（克罗恩病和溃疡性结肠炎）相关的基因 68类似地，总IBD/肥胖基因表示通过每种方法与每种性状相关的基因的总数在括号中，我们注意到通过我们的方法回忆的验证基因与替代方案之间的Jaccard指数括号中：我们在每种疾病中鉴定的不同基因簇的数量（方法S1）。这些想法的综合产生了这些想法，但不能单独从各个组成部分获得。也就是说，我们计算任何基因被因果变异体靶向的概率（因此具有介导变异体的生理效应的潜力我们在不需要eQTL数据或关于疾病组织的假设的情况下我们只是假设变异-基因图谱是正确的。（放松这一假设只是限定了对基因PPA的解释，其含义变成了“根据变异到基因图谱，基因被因果变异靶向的概率”）我们将此范例与最近的方法18进行比较，该方法将精细映射的变体与靶基因联系起来（方法S1）。我们期望这种新范式的力量及其对生物发现的影响能够与可用的GWAS数据相匹配。对大型疾病队列的新研究，以及相关的长期临床数据，将扩大适用于遗传分析的疾病谱。此外，随着GWAS样本量的增加，统计计算中的不确定性将减少。不仅可检测到的关联信号的数量会增加，而且这些信号中可以精细映射到因果变异和性状相关基因的比例也会增加。此外，随着测序成本的持续下降，大型全基因组测序（WGS）研究变得可行。增强子-基因图谱（如本文介绍的图谱）可能有助于发现和解释超罕见变异体在顺式调控元件中的富集。该研究我们介绍的计算基因PPA的方法有几个局限性。首先，基因PPA是基因被致病变体靶向的概率，而不是基因本身是致病的概率。具有高PPA的基因是潜在的致病基因，但它们必须优先于（为了实验验证）由相同致病变体靶向的其他基因（即，相对于相同基因簇中的基因第二，我们的方程假设变体-基因图谱是正确的;图谱中的不确定性不被纳入所得的基因PPA中。第三，我们假设存在于增强子中的任何变体都会影响该增强子调控的所有基因有可能，然而，一些增强子变体仅干扰增强子的基因调控相互作用的子集。我们的研究的另一个局限性是缺乏合适的验证数据来计算变体-基因预测或疾病-基因关联的假阳性率（FPR）相反，我们表明，我们的FPRs几乎肯定低于其他方法在相同的灵敏度水平。最后，该平台依赖于统计精细映射的基本假设（方法S1）。至少大致上不满足这些假设的全球水资产系统可能不适合平台。STAR+方法本文件的在线版本提供了详细的方法，包括以下内容：d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本补充信息补充信息可以在 www.example.com 上找到 https://doi.org/10.1016/j 。xgen.2023.100264。致谢我们感谢dr.Tom Maniatis博士西蒙·塔瓦雷和博士。查尔斯·祖克对手稿的这项研究是使用英国生物库资源进行的，申请号为41018。图形摘要是通过BioRender.com创建的

下载后可阅读完整内容，剩余1页未读，立即下载