荟萃分析中关联校准误差及其影响

27 浏览量更新于2023-12-06 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

文章在单变量分辨率下，荟萃分析精细映射经常被错误校准图形摘要亮点d荟萃分析的广泛模拟，以显示大量的精细标测误差dSLALOM，一种识别用于荟萃分析精细定位的d在SLAL0M预测的可疑基因座d当前Meta分析汇总统计中用于精细定位的广泛可疑基因座作者Masahiro Kanai，Roy Elzur，WeiZhou，Global Biobank Meta-analysisInitiative，Mark J.作者：HilaryK.Finucane通信mkanai@broadinstitute.org（M.K.），finucane@broadinstitute.org（香港）简言之全基因组关联研究（GWAS），通常作为Meta分析进行，已经确定了成千上万的疾病相关基因座。Kanai等人通过大规模模拟和真实数据分析证明，用于确定这些关联背后的因果变异的标准工具在应用于GWAS荟萃分析时可能会产生不可靠的结果。Kanai等人，2022，细胞基因组学2，1002102022年12月14日-作者。https://doi.org/10.1016/j.xgen.2022.100210跨异质队列的精细标测中的实质性校准错误激流回旋可疑位点分析荟萃分析汇总统计基于局部LD关联统计的离群点检测基因座R2log10（P）2会会开放获取文章在单变量分辨率下，荟萃分析精细映射经常被Masahiro Kanai，1，2，3，4，5，7，*Roy Elzur，1，2，3Wei Zhou，1，2，3Global Biobank Meta analysis Initiative，Mark J.Daly，1，2，3，6和Hilary K.Finucane1，2，3，*1分析和转化遗传学单位，马萨诸塞州总医院，波士顿，MA 02142，美国2麻省理工学院和哈佛大学布罗德研究所医学和群体遗传学项目，剑桥，MA 02142，美国3麻省理工学院和哈佛大学布罗德研究所斯坦利精神病学研究中心，剑桥，MA 02142，美国4哈佛医学院生物医学信息学系，波士顿，MA 02115，美国5大坂大学医学研究生院统计遗传学系，Suita 565-0871，日本6芬兰赫尔辛基大学分子医学研究所（FIMM），芬兰7引线触点* 通信：mkanai@broadinstitute.org（M.K.），finucane@broadinstitute.org（香港）https://doi.org/10.1016/j.xgen.2022.100210总结荟萃分析被广泛用于结合多个全基因组关联研究（GWAS）。荟萃分析研究的精细映射通常在单队列研究中进行。在这里，我们首先证明异质性（例如，样本量、表型、插补）损害了荟萃分析精细映射的校准。我们提出了一种基于汇总统计学的质量控制（ QC ）方法，荟萃分析汇总统计的可疑位点分析（SLALOM），通过检测关联统计中的离群值来识别荟萃分析精细映射的可疑位点我们在模拟和GWAS目录中验证SLALOM。将SLALOM应用于全球生物库荟萃分析倡议（GBMI）的14项荟萃分析，我们发现67%的基因座显示出可疑的模式，这对精细定位的准确性提出了质疑。这些预测的可疑基因座由于具有非同义变体作为前导变体而被显著耗尽（2.73; Fisher我们发现，与单个生物库相比，GBMI荟萃分析中的精细映射改善的证据有限。我们敦促在解释异质性队列荟萃分析的精细映射结果时要格外谨慎。介绍荟萃分析广泛用于组合来自不同队列的多个全基因组关联研究（GWAS）1先前的GWAS荟萃分析已经确定了数千个与复杂疾病和特征相关的基因座，如2型糖尿病、2，3精神分裂症、4，5类风湿性关节炎、6，7体重指数、8和血脂水平。9这些荟萃分析通常在大型联盟中进行（例如，精神病学基因组学联盟[PGC]和人类测量特征的遗传调查[GIANT]联盟）来增加样本量，同时在每个可能的方面协调参与组群的分析计划表型定义、质量控制[QC]标准、统计模型和分析软件），通过共享汇总统计数据而不是个人层面的数据，从而避免数据保护问题和世界各地管理个人基因组和医学数据全球生物库荟萃分析倡议（GBMI）10就是这样一个大规模的国际努力，旨在建立一个跨越四大洲23个生物库（总计n = 220万）的协作网络，用于协调GWAS荟萃分析，同时强调荟萃分析和后续下游分析的诸多益处和挑战一个这样的具有挑战性的下游分析是统计精细映射。11-从GWAS关联中识别因果变体由于广泛的连锁不平衡（LD，遗传变体之间的相关性）、多种因果变体的存在和有限的样本量，精细定位）是具有挑战性的，但是由于最近开发的大规模生物库17-19和可扩展的精细定位方法20-22，其使得能够使用来自大规模个体水平数据的样本内LD进行良好的、准确的精细定位，在个体群组14-在进行GWAS荟萃分析后，先前的研究2、7、9、23-近似贝叶斯因子[ABF]，30，31CAVIAR，32PAINTOR，33，34FINEMAP，20，21和SuSiE22），就像它们应用于单队列研究一样，没有考虑或解释队列之间不可避免的异质性（例如，样品大小、表型、基因型或插补的差异这种异质性可能导致荟萃分析精细定位中的假阳性和错误校准（图1）。例如，病例-对照研究中有更严重的病例，或者确定了不同的CellGenomics 2，100210，December 14，2022 <$2022作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。会开放获取文章2细胞基因组学2，100210，2022荟萃分析效应模型：• 固定效应• 随机效应职位：• 单祖• 多祖先精细映射基于汇总统计的方法包括：• ABF• 鱼子酱• 画家• FINEMAP• 苏茜每个位点通常，荟萃分析前和后QC均应用于汇总统计（数据S1）。标准输出：• 后验包含概率（PIP）• 95%可信集有时采用附加图1.荟萃分析精细映射的示意图概述表型标准可能不成比例地有助于遗传发现，即使在这些研究和不太严重或不确定的研究之间，遗传易感性的真正因果效应完全相同生物标志物等数量性状可能具有表型异质性，这是由于研究中的不同测量方法和误差造成的也可能有真正的生物学机制，如基因-基因（GxG）和基因-环境（GxE）相互作用和（种群特异性）显性变异（例如， rs671和酒精依赖35），这在研究中引入了额外的异质性。36，37除了表型，基因分型和插补的差异可能会极大地破坏单变量分辨率下的精细映射校准和回忆，因为不同样本量的组成队列之间的缺失和插补质量的差异模式可能会不恰当地减少潜在因果变量的关联统计。最后，尽管比表型和基因型数据更容易协调，但QC标准和分析软件的细微差异可能进一步加剧异质性对精细图谱的影响在COVID-19宿主遗传学倡议（COVID-19 HGI;图S1）最近的荟萃分析中，可以在TYK 2基因座（19p13.2）中观察到此类问题的说明性例子38该基因座已知与自身免疫性疾病的保护性相关，6，23而TYK 2功能的完全丧失导致原发性免疫缺陷。39.尽管在基因座（rs74956615;p = 9.7 3 10 - 12），降低TYK2功能的已知功能性错义变体rs34536443（p.Pro1104Ala）40，41没有实现全基因组显著性，并且在精细作图中被分配了非常低的后验包含概率（PIP）（p = 7.5 3 10 - 7; PIP = 9.5 3 10 -4），主要是由于其在比rs74956615多两个群组中的缺失。这只是在单变量分辨率下进行荟萃分析精细映射的主要困难的一个例子事实上，COVID-19HGI谨慎地避免在旗舰中进行计算机精细映射，以防止虚假结果。38只有少数研究在其下游分析中认真解决了这些问题例如，PGC的精神分裂症工作组最近更新了他们最大的精神分裂症荟萃分析 5（69，369例病例和236，642例对照），随后使用FINEMAP进行了下游精细映射分析。20与许多其他GWAS联盟不同，由于PGC可以获得大多数样本的个体水平基因型，因此他们能够应用标准化样本和变体QC标准，并使用相同的参考面板插补变体42该协调程序对于适当控制队列间异质性至关重要，因此允许在单变量分辨率下进行更稳健的Meta分析精细映射。此外，PGC对个体水平数据的直接访问使他们能够计算用于多因果变量精细映射的样本内LD矩阵，这防止了使用外部LD导致的显著误校准。2017年的一项炎症性肠病精细定位研究也受益于获得个体水平的基因型和仔细的精细定位前后QC。[43]然而，对于典型的荟萃分析联盟，由于无法获得所有队列的完整基因型数据，因此这些步骤中的许多步骤都是不可行的对于这样的研究，需要一种新的方法来荟萃分析精细映射的存在下，许多类型在开发出这样的方法之前，荟萃分析精细映射结果的质量控制值得更多的关注。虽然现有的变量级QC程序对于限制GWAS中的虚假关联是有效的（数据S1），44但它们不足以确保高质量的精细映射结果。在某些情况下，它们甚至会损害精细映射的质量，因为它们可能（1）导致或加剧队列中缺失变异的差异模式，以及（2）删除真正的因果变异，GWAS队列队列1在各组成队列中，队列间异质性可能源于：队列2队列N• 真正的生物机制• 人群特异性变异• GxG和GxE相互作用• 表型• 不同诊断标准• 不同亚型• 不同的测量协议• 基因分型和插补• 不同基因分型阵列• 不同插补参考组• 不同插补质量• 质量控制（QC）• MAF、插补质量等的不同阈值• GWAS• 不同的统计模型和软件...细胞基因组学2，100210，2022年12月14日3文章会开放获取以及可疑的变种。因此，需要额外的QC程序例如，最近提出的一种称为DENTIST的方法45通过基于汇总统计和参考LD之间的估计异质性去除变体，执行汇总统计QC以改善GWAS下游分析，例如条件和联合分析（GCTA-COJO46虽然在精细定位（FINEMAP20）之前也应用了DENTIST，但模拟仅证明它可以提高检测基因座中正确数量的因果变异的能力，而不是真正的因果变异。这促使我们开发一种新的精细映射QC方法，以在单变量分辨率下实现更好的校准和召回，并在大规模荟萃分析中展示其性能。在这里，我们首先通过多个异质性队列的真实模拟，证明了队列间异质性在荟萃分析精细映射中的作用，每个队列都有不同的基因分型平台、插补参考面板和遗传祖先的组合。我们提出了一种基于汇总统计学的QC方法，荟萃分析汇总统计量的可疑位点分析（SLALOM），该方法通过检测基于局部LD结构的关联统计异常值来识别荟萃分析精细定位的可疑位点将SLALOM应用于GBMI10中的14个疾病终点以及GWAS目录中的467个荟萃分析汇总统计量，我们证明了用于精细定位的可疑位点在荟萃分析中广泛存在，并敦促在解释荟萃分析的精细定位结果时要格外谨慎结果大规模模拟显示荟萃分析精细映射中的错误校准现有的精细映射方法20、22、30假设所有关联统计量均来源于单队列研究，因此无法对荟萃分析多个队列时出现的效应量和样本量的每变量异质性进行建模（图1）。为了评估荟萃分析中一致性队列的不同特征如何影响精细映射校准和回忆，我们进行了一系列大规模GWAS荟萃分析和精细映射模拟（表S1简言之，我们模拟了不同祖先的多个GWAS队列（10个欧洲祖先、1个非洲祖先和1个东亚祖先队列;每个队列n = 10，000），使用不同的基因分型阵列（Illu- mina Omni2.5、多种族全球阵列[MEGA]和全球筛选阵列[GSA]）和插补参考组（1000个基因组计划第3期[1000 GP 3]、48单倍型参考联盟[HRC]、49和TOPMed50）对这些队列对于队列、基因分型阵列和插补面板的每种组合，我们用随机模拟的因果变量进行了300次GWAS，这些变量类似于典型复杂性状的遗传结构，包括次要等位基因频率（MAF）依赖的因果效应大小、51个总SNP遗传力、52个因果变量的功能后果、16和跨队列的遗传相关性水平（即，真实效应量异质性;rg= 1、0.9和0.5;STAR方法）。然后，我们对单队列进行了荟萃分析，基于多种配置（每个队列的基因分型阵列和插补组的不同组合）的10个独立队列的GWAS结果，以类似于多个异质队列的现实Meta分析（表S4）。我们应用ABF精细映射来计算每个变体的PIP，并获得95%和99%可信集（CS），其中包含覆盖95%和99%因果关系概率的最小变体集我们评估了错误发现率（FDR，定义为PIP > 0.9的非因果性变体的比例），并与非因果性变体的预期比例进行比较，如果基于PIP校准荟萃分析精细映射方法。我们的模拟管道的更多细节在STAR方法中进行了描述，并在图S2中进行了直观总结。我们发现，FDR在不同配置上变化很大，对于最异构的配置，FDR高达37%（图2）。我们描述了导致误校准的因素。我们首先发现，较低的真实效应大小相关性rg（即，较大的表型异质性）总是导致较高的误校和较低的回忆。其次，当使用相同的插补组（1000 GP3）时，使用密度较低的阵列（MEGA或GSA）导致FDR适度膨胀（高达FDR = 11%，而预期为1%），而使用多基因分型阵列不会导致FDR进一步膨胀（图2C）。第三，当使用相同的基因分型阵列（Omni2.5）时，使用与我们的模拟参考不匹配的插补组（HRC或TOPMed）会显著影响误校准（高达FDR = 17%，而预期为1%），使用多个插补组会进一步增加误校准（高达FDR = 35%，而预期为2%;图2 C）;该设置与使用多个基因分型阵列和插补组的最异质配置（FDR = 37%）一样糟糕。当TOPMed插补的变异体从GRCh38提升到GRCh37时，我们观察到FDR增加高达10%，可能是由于基因组构建转换失败（数据S1）。53第四，回忆不受异质性基因分型阵列或插补组的显著影响（图2B和2D）。第五，当使用相同的基因分型阵列和插补组时，包括多个遗传祖先不影响校准（Omni 2.5和1000 GP3;图2 E），但如果包括非洲祖先，则显著改善回忆（图2F）。这是预期的，因为与其他人群相比，非洲人群的LD长度较短，这提高了精细绘图分辨率。54最后，在存在多个基因分型阵列和插补组的最异质性配置中，我们观察到欧洲和多祖先荟萃分析的FDR分别高达37%和28%（而预期两者均为2%），这表明队列间异质性可能大大低于荟萃分析精细映射（图2G和2H）。为了进一步表征荟萃分析精细定位中观察到的误校准，我们研究了GWAS变体在祖先、基因分型阵列和插补组的每种组合中的可用性（图S3在3号染色体上的3，285，617个变体中，在至少一个组合中通过变体QC（每组合MAF >0.001且Rsq >0.6;STAR方法），574，261个变体（17%）在我们模拟的每个祖先（非洲人、东亚人和欧洲人）中显示群体水平的 gnomADMAF >0.001。因为我们使用了各种各样的4细胞基因组学2，100210，2022会开放获取文章- --- - -- - -- -异质环境混合阵列面板（欧元）混合阵列面板（多祖先）-- - -一种-- - -一种一0.60.4C插补小组1000GP3（匹配参考）HRCTopMedTopMed-liftover混合E货币：EUR数组：Omni25G阵列：Omni25插补：1000GP3EUREAS + EURAFR + EURAFR + EAS + EUR0.20.0B0.6--D------F---H0.40.20.0基因型定型阵列插补小组遗传祖先异质环境图2.荟萃分析精细映射模拟中FDR和召回的评价我们使用（A-H）不同的基因分型阵列（A和B）、插补参考面板（C和D）、遗传祖先（E和F）以及通过组合这些（G和H）的更多异质性设置，在荟萃分析精细映射中评估FDR和回忆如右上方灰色标签所示，除非另有说明，否则使用EUR祖先、Omni2.5基因分型阵列和/或1000 GP 3参考FDR定义为PIP> 0.9的非因果性变体的比例水平灰线表示1预期FDR是校准的方法回忆被定义为前1% PIP箱中真实因果变体的比例Rg对应于代表表型异质性参数的队列间真实效应量相关性rg（rg越低，表型异质性越高误差线对应于95%置信区间。插补面板中，我们从gno-mAD检索群体水平MAF。在这574，261个变体中，389，219个变体（68%）在每个组合中可用（图S3A）。当我们将gnomAD MAF阈值分别增加至>0.005、0.01和0.05时，该分数从68%增加至73%、74%和76%，但从未达到100%（图S5）。值得注意的是，我们观察到对于特定基因分型阵列和插补组而言独特的大量变体，即使当我们在每个祖先中限于344，497个常见变体（gnomAD MAF >0.05）时也是如此（图S3B）。例如，有34，317个变体（10%）在1000GP3和TOPM参比品中进行了插补，但在HRC中未进行插补同样，我们观察到33，106个变异体（10%）对1000 GP3参考特异，甚至3，066个变异体（1%）在每个组合中插补，除了东亚血统与GSA阵列和TOPM参考。当使用gnomAD MAF阈值的不同组合（每个祖先中>0.001、0.005、0.01或0.05）时，Rsq 阈值（ >0.2 、 0.4 、 0.6 或 0.8 ），我们观察到 gnomADMAF>0.01和Rsq>0.2时获得的共享变体比例最大（78%），而gnomAD MAF获得的共享变体数量最多（427，494个>0.001和Rsq >0.2，这使得不清楚在精细映射的情况下哪个阈值是优选的（图S5）。在我们的模拟中，剩余的2，711，356个通过QC的变体（至少一个祖先中的gnomADMAF% 0.001）进一步加剧可用变体的可变覆盖（图S4A）。其中，最大比例的变体（39%）仅在非洲血统中可用，其次是非洲和欧洲（但不在东亚）可用的变体（7%），欧洲特异性变体（6%）和东亚特异性变体（5%）。此外，类似于上述常见的变体，我们发现了大量的变体，这些变体对于特定的组合是独特的。总之，我们观察到，在所有通过QC的3，285，617种变体中，只有393，471种变体（12%）在每个组合中可用（图S4B）。这些观察结果概括了遗传祖先、基因分型阵列、插补组和QC阈值的不同组合实质上影响了用于关联检验的常见、良好插补变体的可用性55因此，基因分型和插补的不同组合导致荟萃分析中的每个队列具有不同的变体集，因此变体可以具有非常不同的总体样本量。在我们使用最异质配置的模拟中，我们发现66%的假阳性基因座（其中非因果[假阳性]变体被指定PIP > 0.9）对于真因果和假阳性变体具有不同的样本量（中值最大/最小样本量比率= 1.4;图S6）。在分析上，我们发现，在常见的荟萃分析样本量和全基因组显著效应量制度下，当两个变体具有相似的- - -- - -- - -基因型定型阵列货币：EUR插补：1000 GP3Omni25MEGAGSA混合效应量rg10.90.5- - -错误发现率召回Omni25MegaGSA混合1000GP3（matchingref）HRCTopMedTopMed-liftover混合EUREAS +欧元非洲法郎+AFR + EAS + EUR混合阵列面板（欧元）遗传祖先混合阵列面板（多祖先）细胞基因组学2，100210，2022年12月14日5R210.80.60.40.20文章会开放获取A B501210 4086420基因座30201000.25 0.5 0.751r2到铅变体输出：用于精细定位C10.75D0.3log10P牙科医生-S0 1 2 34E100%百分之七十五0.50.2百分之五十0.250.1百分之二十五00.25 0.5 0.7511 -特异性00 0.10.25 0.5 0.751PIP阈值0%的百分比0 0.10.250.5PIP阈值0.75 1图3. SLALOM方法（A和B）SLALOM应用的说明性示例（A）在示例基因座中，描绘了两个独立的关联信号：（1）最显著的信号，其包含前导变体（紫色菱形）和与前导变体处于强LD（r2> 0.9）的五个另外的变体，以及（2）另外的独立信号（r2>0.05）。在第一个信号中有一个离群变量（橙色菱形），偏离了基于LD的预期关联（B）SLALOM方法的逐步程序对于一个基因座中的异常变异检测，显示了先导变异的r2值与边际c2的诊断图，以帮助解释。背景颜色表示-点表示示例基因座（A）中描绘的变体，其中突出显示前导变体（紫色菱形）和异常值变体（白色菱形）。对角线表示预期的边际关联。水平虚线代表全基因组显著性阈值（第5.0310- 8页）。（C）. SLALOM预测的受试者工作特征（ROC）曲线用于识别模拟中的可疑基因座阳性条件定义为基因座中的真正因果变异是否为（1）前导PIP变异，（2）在95% CS中，以及（3）在99% CS中。AUROC值显示在标签中黑点表示我们采用的度量的性能;即，一个基因座是否包含至少一个异常变异（PDENTIST-S1.0310- 4和r2> 0.6）。(D) 不同PIP阈值下模拟中的校准图校准被测量为平均PIP减去高于阈值的变体中的真实因果变体的分数线周围的阴影表示95%置信区间。(E) 在不同PIP阈值下预测的可疑和非可疑基因座中的变异分数。图（D和E）中的灰色阴影表示PIP% 0.1区域，因为我们在基于这些图的实际SLALOM分析中排除了具有最大PIP%0.1的基因座。在边际效应方面，样本量较大的一方通常会实现更高的ABF PIP（数据S2;图S7这阐明了样本量不平衡可能导致误校准的机制。SLALOM方法为了解决上述荟萃分析精细定位中的挑战，我们开发了SLALOM，这是一种通过基于与预期的偏差检测关联统计中的离群值来标记荟萃分析精细定位的可疑基因座的方法用局部LD结构（STAR方法）估计。SLALOM由三个步骤组成：（1）基于1 Mb窗口定义基因座和前导变异，（2）使用荟萃分析汇总统计量和外部LD参考面板检测每个基因座中的离群变异，以及（3）识别可疑基因座以进行荟萃分析精细定位（图3A和3B）。为了检测离群变异，我们首先假设每个相关位点有一个单一的因果变异。那么，变量i的边际Z分数zi应该近似等于ri，c zc，其中zc是因果变量c的Z分数，并且ri，c是变量i和变量c之间的相关性。附加独立信号SLALOM可疑基因座分析荟萃分析汇总统计输入：汇总统计和LD参考1. 基于导联变体周围的1 Mb窗口定义基因座。2. 对于每个基因座，使用DENTIST-S统计量基于LD检测离群变异3.在具有先导变异的LD中识别具有离群变异的可疑基因座以进行精细定位（P#离群变量> 0导联PIP变体（AUROC =0.74）在95% CS中（AUROC =0.76）在99%的CS中（AUROC =0.80）预测可疑基因座完美校准log10（P）灵敏度2平均PIP -真实因果关系%变体6细胞基因组学2，100210，2022会开放获取文章我变式i和c。对于荟萃分析汇总统计中的每个变量，我们首先使用简化版的DENTIST统计（45DENTIST-S）基于单个因果变量的假设来检验这种关系。给定变体i的DENTIST-S统计量写为2荟萃分析在来自96个样本的467个汇总统计中，我们确定了28，925个最大PIP >0.1的基因座（基于先导变体周围的1 Mb窗口定义的35，864个全基因组显著基因座;STAR方法）用于SLALOM分析，其中8，137个基因座（28%）被预测为可疑（表S7）。T=zi-ri;c·zci; c（等式1）为了验证SLALOM在真实数据中的性能，我们将我们的分析限制在6，065个基因座，这些基因座具有最大PIP >0.1，并且在LD中含有非同义编码变体（预测的功能丧失 [pLoF]和错义它近似遵循一个1度的分布，自由45由于真实的因果变异和LD结构在真实数据中是未知的，我们将因果变异近似为基因座中的主导PIP变异（具有最高PIP的变异），并使用来自gnomAD的大规模外部LD参考，56对于单祖先荟萃分析，使用祖先匹配的LD，或者对于多祖先荟萃分析，使用按祖先的样本量加权LD（STAR方法）。我们注意到，在一个基因座中存在多个独立的因果变异不会影响SLALOM精确度，但会降低召回率（见"讨论“部分SLALOM然后评估每个位点是否是“可疑的”;也就是说，具有荟萃分析统计的模式，LD看起来不一致，因此引起质疑精细映射的准确性。通过在模拟中对最大PIP >0.9的基因座进行训练，我们确定了将基因座分类为真阳性或假阳性的最佳执行标准是一个基因座是否具有与前导序列的r2> 0.6且DENTIST-S p值1.03 10- 4的变异（STAR方法）。使用该标准，我们分别在95%CS和99%CS中实现了0.74、0.76和0.80的受试者操作特征曲线下面积（AUROC），用于鉴定真正的因果变异体是否是前导PIP变异体（图3C）。使用不同的阈值，我们观察到SLALOM性能对我们选择的阈值附近的阈值不是很敏感（图S10）。我们使用模拟中的所有基因座进一步验证了SLAL 0 M的准确性，并且观察到预测的可疑基因座中的错误校准显著高于非可疑基因座（在PIP >0.9时FDR差异高达16%;图3D）。我们发现SLALOM预测的可疑基因座倾向于来自更异质的构型，并且SLALOM灵敏度和特异性取决于异质性水平（表S5）。考虑到在低PIP阈值下较低的误校准和特异性（图3D和3E），在随后的实际数据分析中，我们将 SLAL0M 的应用限制于最大 PIP >0.1 的基因座（STAR方法）。现有荟萃分析中广泛存在用于精细定位的可疑位点总结统计学在模拟中评估了SLALOM的性能后，我们将SLALOM应用于GWAS目录47中的467个荟萃分析汇总统计量，这些汇总统计量是公开可用的，具有足够的分布样本量（N > 10，000;表S6; STAR方法）以量化现有研究中可疑基因座的流行率。这些汇总统计主要是仅欧洲血统的荟萃分析（63%），其次是多血统（31%），仅东亚血统（3%）和仅非洲血统（2%）（r2> 0.6）。考虑到先前的证据16，43，57，这些非同义变体高度富集为因果性的，我们通过它们是否在基因座中实现最高PIP来测试我们方法的有效性（即，成功的精细定位）在可疑与非可疑基因座中的比较（STAR方法）。虽然40%（3，860个中的1，557个）的非可疑基因座成功地精细定位了非同义变体，但只有17%（2，205个中的384个）的可疑基因座成功地精细定位了非同义变体，这表明在可疑基因座中成功完全精细定位的非同义变体的显著耗尽（2.33）我们还测试了非同义变体是否属于95%和99% CS，并再次观察到显著的耗竭（分别为1.43和1.33此外，当我们使用更严格的r2阈值（>0.8）来选择含有非同义变体的基因座时，我们也证实了显著的富集（Fisher为了量化GWAS目录中潜在的精细映射错误校准，我们研究了前导变体的平均PIP与非同义前导变体的分数之间的差异;假设这些位点中的非同义变体是真正的因果关系，该差异等于真实和报告的因果前导PIP变体的分数之间的差异。我们在可疑和非可疑基因座中分别观察到不同PIP阈值下26%-51%和10%-18%之间的差异我们通过利用高PIP（>0.9）复杂性状和顺式eQTL变体在GWAS Cata-log荟萃分析中进一步评估了SLAL 0 M性能，所述变体在大规模生物库（日本生物库[BBJ]、58FinnGen，19和英国生物库 [UKBB]18 ）和 eQTL 资源（ GTEx59 v8 和 eQTL Cata-log60）中被严格精细定位16在通过SLAL 0 M（最大PIP>0.1）分析的27，713个基因座（其含有包括在生物库精细作图中的前导变体）中，17%（19，692个中的3，266个）的非可疑基因座成功地在生物库精细作图中精细作图高PIP GWAS变体之一，而7%（8，021个中的589个）的可疑基因座成功地精细作图，显示可疑基因座中高PIP复杂性状变体的显著耗尽（2.33类似地，在通过SLAL 0 M分析的包含cis-eQTL精细定位中包括的前导变体的26，901个基因座中，我们发现可疑基因座中的高PIPcis-eQTL变体的显著耗尽（1.93），其中7%（18，976个中的1，247个）的非可疑基因座对4%（7，925个中的281个）的可疑基因座成功地精细定位了高PIPcis-eQTL变体之一（Fisher我们在属于95%和99%CS集的可疑基因座中观察到高PIP复合性状和顺式eQTL变体的相同显著消耗（图4C和4D）。1 -R2会开放获取文章细胞基因组学2，100210，2022年12月14日7非同义编码变体1.4x****1.3x****2.3x****预测可疑基因座高PIP（> 0.9）复杂性状变异在生物库精细绘图中2.3x****2.0x****1.9x****一百分百百分之七十五百分之五十百分之二十五0%的百分比C百分百百分之七十五百分之五十百分之二十五0%的百分比在99% CS中，在95% CS中的导联PIP在99% CS中，在95% CS中的导联PIPB0.80.60.40.200.1 0.25 0.5 0.75 1PIP阈值D在99% CS中，在95% CS中的导联PIP图4.GWAS目录汇总统计中SLALOM性能的评估(A) 在预测的可疑基因座中排除可能的致病变异。我们评估了在可疑与非可疑基因座中，非同义编码变体（pLoF和错义）在95% CS或99% CS中是否是前导PIP变体。根据相对风险计算消耗（即，比例的比率;STAR方法）。误差线，不可见，由于其尺寸小，对应于95%的置信区间，使用自举。显著性代表Fisher精确检验p值（*p 0.05，**p 0.01，*p 0.001，*p 10- 4）。(B) 在不同PIP阈值下，GWAS目录中标记非同义变体的基因座中因果变体的真实和报告比例之间的估计差异图（与前导变体的r2类似于图3D，假设这些基因座中的非同义变体是真正的因果性的，前导变体的平均PIP减去高于阈值的非同义前导变体的分数等于因果变体的真实比例线周围的阴影表示95%置信区间。（C和D）类似于（A），我们评估了是否(C) 生物库精细作图中高PIP（>0.9）复杂性状变异体和GTEx v8和eQTL目录中的（D）高PIP（>0.9）顺式eQTL变异体是可疑与非可疑基因座中95%CS或99%CS中的主要PIP变异体。从多血统、大规模荟萃分析中产生的中位样本量1.4 600万人在六个时期-尝试，而63%的467个汇总统计-GBMI汇总统计量中用于精细定位的可疑基因座接下来，我们将SLALOM应用于GBMI的14个疾病终点的荟萃分析汇总统计量。10这些汇总统计数据来自对18个生物库中总计多达180万个体的荟萃分析，代表6个不同的遗传祖先群体，约33，000名非洲人、18，000名美洲混血、31，000名中亚和南亚人、341，000名东亚人、140万名欧洲人和1，600名中东人（表S8）。在14个性状的489个全基因组显著基因座中（不包括主要组织相容性复合体[MHC]区域;STAR方法），我们发现82个基因座（17%）显示最大PIP 0.1，因此SLALOM未进一步考虑。在最大PIP >0.1的其余407个基因座中，SLAL 0 M鉴定出272个基因座（67%）是用于精细作图的可疑基因座（图5A;表S9）。可疑基因座的分数及其最大PIP因性状而异，反映了不同水平的统计能力（例如，样本量、遗传力和局部LD结构）以及组群间异质性（图5B-5 O）。虽然GBMI Meta分析中可疑基因座的比例（67%）高于GWAS目录（28%），但这种差异可能有多种原因，包括关联显著性、样本量、祖先多样性和研究特定的QC标准。例如，GBMI汇总统计量为GWAS目录中的抽搐仅在欧洲血统研究中，83%的发现样本少于50万。尽管如此，预测的可疑基因座的精细定位是普遍的GWAS目录和GBMI。使用非同义（pLoF和错义）和高PIP（>0.9）复杂性状和顺式eQTL变体，我们概括了预测的可疑基因座中这些可能的因果变体的显著消耗（对于非同义、高PIP复杂性状和高PIP顺式eQTL变体，分别为2.73、5.23和5.13在23个含有非同义变异的非可疑位点中，有15个这些包括已知的错义变体，例如用于特发性肺纤维化（IPF）的SPDL 1中的rs116483731（p.Arg20Gln）61、62和用于慢性阻塞性肺病（COPD）的SERPINA1中的rs28929474（p.Glu366Lys）63，64此外，我们在两个新的哮喘基因座中观察到令人惊讶的精细定位：（1）RTL 1中的rs 41286560（p.Pro558Thr），一种已知降低身高的错义变体65，66;和（2）ZSCAN 5A中的rs34187696（p.Gly337Val），一种已知增加单核细胞计数的错义变体29为了表征可疑位点的精细定位失败，我们检查了其中非同义变体未达到最高PIP的可疑位点。例如，FCGR 2A/FCGR 3A预测可疑基因座完美校准GTEx和eQTL目录1.5x****1.9x****1.4x****% GWAS目录位置(with标记非同步。&最大PIP > 0.1）% GWAS目录基因座（最大PIP > 0.1）平均PIP -非同义导联%会开放获取文章8细胞基因组学2，100210，2022HF百分百分之三十五百分之十五IPF百分百分之三十六百分之二十一中风百分之五百分之三十六百分之九UTC百分之四十五27% 27%AcApp百分之五十百分之十二一300250200150100500I12SL NSLNAB120100806040200JSL NSLNAC403020100SL NSLNAKD403020100SL NSLNAL6E2520151050SL NSLNAMF20151050SL NSLNANG151050SL NSLNAOH151050SL NSL NA10 6 6 58 44 46 3阑尾切除百分之六十4 3 2322 1最大PIP仓【0，0.1】(0.1，0.5](0.5，0.9](0.9，1]4 22 22 11百分之二十1百分之二十0SL NSLNA0SL NSLNA0SL NSLNA0SL NSLNA0SL NSLNA0SL NSLNA0SL NSL NA图5.激流回旋预测结果在的GBMI总结统计（

下载后可阅读完整内容，剩余1页未读，立即下载