没有合适的资源?快使用搜索试试~ 我知道了~
短文多祖先、荟萃分析转录组关联研究的最佳实践:来自全球生物库荟萃分析倡议的图形摘要亮点d表达预测和基因-性状关联不跨祖先群体d建议对血统和研究进行荟萃分析,以减少检验统计量膨胀d详细的机械测试,以将TWAS的结果置于背景中作者Arjun Bhattacharya,Jibril B.赫伯,周丹,...,作者:Eric R.南希·加马松Cox对应abtbhatt@ucla.edu简言之Bhattacharya和Hirbo等人描述了一个框架,通过使用全转录组关联研究(TWAS)对来自生物库的多祖先数据集进行荟萃分析,确定基因水平与复杂性状的遗传关联。他们展示了TWAS的陷阱,并回顾了开放的方法学挑战,包括缺乏表达预测的可移植性和结果的组织特异性。Bhattacharya等人,2022,细胞基因组学2,1001802022年10月12日-作者。https://doi.org/10.1016/j.xgen.2022.100180会会开放获取短文多祖先、荟萃分析转录组关联研究的最佳实践:来自全球生物库荟萃分析倡议的Arjun Bhattacharya,1,2,14,15,*Jibril B.Hirbo,3,4,14Dan Zhou,3,4Wei Zhou,5,6,7Jie Zheng,8MasahiroKanai,5,6,7,9,10the Global Biobank Meta analysis Initiative,Bogdan Pasaniuc,1,11,12,14Eric R.Gamazon,3,4,13,14和Nancy J.考克斯34141加州大学洛杉矶分校大卫格芬医学院病理学和实验室医学系,美国2美国加州大学洛杉矶分校David Geffen医学院定量与计算生物科学研究所3美国田纳西州纳什维尔范德比尔特大学医学院遗传医学部医学系4美国田纳西州纳什维尔范德比尔特大学医学中心范德比尔特遗传学研究所5分析和转化遗传学单位,马萨诸塞州总医院,波士顿,MA,美国6医学和人口遗传学方案,哈佛大学和麻省理工学院布罗德研究所,美国7斯坦利中心为精神病研究,广泛研究所的哈佛和麻省理工学院,剑桥,MA,美国8英国布里斯托尔大学布里斯托尔医学院MRC综合流行病学单位(IEU),地址:英国布里斯托尔奥克菲尔德格罗夫奥克菲尔德楼BS8 2BN 9美国马萨诸塞州波士顿哈佛医学院生物医学信息学系10大坂大学医学研究生院统计遗传学系,Suita 565-0871,日本11美国加州大学洛杉矶分校大卫格芬医学院人类遗传学系12美国加州大学洛杉矶分校大卫格芬医学院计算医学系13英国剑桥大学剑桥分校MRC流行病学单位14、作者贡献相等15引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2022.100180abtbhatt@ucla.edu总结全球生物库荟萃分析倡议(GBMI),通过其多样性,提供了一个宝贵的机会,研究整个人口和祖先特定的遗传关联。然而,由于生物库中存在多种确定策略和多祖先研究人群,GBMI在实施统计遗传学方法方面存在独特的挑战。全转录组关联研究(TWAS)通过整合来自全基因组关联研究(GWAS)的遗传变异-性状关联与基因表达的预测模型,提高了对遗传关联的检测能力并为遗传关联提供了生物学背景TWAS提出了超越GWAS的独特挑战,特别是在多生物库,荟萃分析环境中。在这里,我们介绍了GBMI TWAS管道,概述了祖先和组织特异性,荟萃分析策略的实际考虑,以及框架每一步的开放挑战。我们建议使用祖先特异性表达模型进行祖先分层TWAS,并使用逆方差加权进行荟萃分析结果,显示最小的检验统计膨胀。我们的工作为将转录组背景添加到生物库关联的GWAS提供了基础,从而允许祖先意识的发现来加速基因组医学。介绍基于人群或基于临床病例的生物库是精准医学工作的关键,并为基因组研究提供了机会, 1为大规模部署全基因组关联研究(GWAS)提供了背景。多生物库合作,如全球生物库荟萃分析倡议(GBMI),通过计算机纵向遗传研究和多效性检查,促进了有力的多血统遗传研究,并加速了对疾病生物学机制的理解。二、三GWAS中的一个关键挑战是使用诸如共定位、6-9孟德尔随机化(MR)、10-12和全转录组关联研究(TWAS)等方法来解释具有生物学机制的性状相关基因座4,5TWAS将GWAS与表达数量性状基因座(eQTL)整合,以使用介导分析13,14或MR对基因-性状关联(GTA)进行优先排序。15TWAS涉及三个步骤。首先,在eQTL数据集中训练基因表达的遗传预测模型。然后,在具 有 个 体 水 平 基 因 型 的 GWAS 队 列 中 插 补 遗 传 调 节 表 达(GReX)。最后,估计GReX和性状之间的13细胞基因组学2,100180,2022年10月12日,2022年作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取短文2Cell Genomics2,100180,2022图1.挑战在多祖先,荟萃分析TWAS TWAS中的每一级数据都引入了一系列挑战:(1)遗传学数据包括遗传祖先、群体结构和相关性以及复杂的连锁不平衡模式的混杂,(2)基因表达数据引入了特定于背景的因素,如组织、细胞类型或细胞状态特异性表达,以及(3)表型数据涉及获取和聚集表型、正确定义表型对照以及非随机抽样的确定和选择偏倚方面的挑战。通过使用适当的连锁不平衡(LD)参考组估计TWAS关联的检验统计量,用GWAS汇总统计量是可行的。14传统的TWAS方法使用基因体1 Mb内的SNP预测表达。最近,包括强远端eQTL信号的方法已经显示出改进的17,18尽管如此,通过TWAS准确确定GTA优先级的实际和统计考虑仍然需要改进方法。与GWAS一起,TWAS通过引入基因表达引入了新的挑战19(图1)。 在遗传水平上,如在GWAS中,从复杂的LD结构、相关性和祖先中解开信号需要仔细的建模考虑。20,21LD参考的选择在多祖先环境中特别重要,如GBMI,因为不同祖先群体的LD结构差异很大。22不匹配的LD可能导致基因表达模型的预测能力降低,检测GTA的能力降低,假阳性增加。此外,表型获取和聚集在具有不同医疗保健、电子健康记录和病例对照定义的多个生物库中具有挑战性。然而,TWAS特有的挑战是基因表达与GWAS信号的整合。目前不仅不清楚如何选择一组最佳的基因和组织,最好地解释SNP-性状关联,上下文特异性表达的作用仍在评估中。例如,由于不同的细胞类型和细胞状态导致的大量组织表达的动态差异可以促进细胞增殖。vide粒度to GTA.这些挑战在元分析框架中的影响尚未得到探讨。在这里,我们概述了一个TWAS框架,用于分析跨多个生物库的多祖先、元分析GWAS。我们探索TWAS框架的所有三个步骤的实际考虑(图1和S1):表达模型和LD参考面板的祖先特异性鉴于目前的TWAS框架和使用GWAS汇总统计量的分析,我们建议训练基因表达的祖先特异性遗传学预测模型,并通过使用逆方差加权荟萃分析进行荟萃分析效应量来进行我们的框架可以广泛应用于研究人群范围和祖先特异性遗传关联与潜在的转录组学机制。结果GBMI祖先范围内,荟萃分析Twas我们概述了使用GBMI中的GWAS汇总统计进行分析时使用的TWAS框架(图S1; STAR方法中的详细信息)。3首先,使用联合组织插补(JTI)26和TWAS的多组学策略(MOSTWAS)17,我们训练了基因表达的祖先特异性预测模型。接下来,我们使用这些模型和GWAS汇总统计数据,通过多工具变量因果推断或具有祖先匹配LD的加权负担检验来Cell Genomics2,100180,2022年10月12日3短文会开放获取JTI和MOSTWAS模型的参考面板。对每个祖先组和每个生物库进行关联测试。最后,我们使用逆方差加权对每个生物库和每个祖先组的效应量进行荟萃分析。最后,我们将GTA与多个后续分析结合起来。表达式模型不能跨祖先组移植GBMI然而,最佳TWAS需要遗传学和组织特异性基因表达数据的有效训练数据集,这对于非欧洲人群仍然缺乏。在TWAS中检测GTA的能力取决于表达遗传力和表达模型的预测能力。27因此,准确预测不同人群的表达是必要的,以确保TWAS关联不限于欧洲人群。对于第一个GBMI TWAS,我们将分析限制在欧洲血统群体,因为eQTL参考组中的非欧洲血统个体数量较少。28随着非欧洲人群中eQTL数据集的样本量增加,TWAS管道将包括这些人群的表达模型(STAR方法)。我们举例说明了在构建这些跨祖先群体的表达模型时的一些挑战。在GTEx中的五个组织中,具有来自欧洲(EUR)和非洲(AFR)血统的>70个样本,我们使用弹性网络正则化回归训练EUR和AFR特异性模型,并将表达插补到对齐的(即,训练和插补样本具有相似的祖先)和未对齐(即,训练和插补样本具有不同的祖先)组。29,30对于背景,我们还建立了祖先未知的模型,将EUR和AFR样本合并在一起。预测性能采用调整后的5倍交叉验证R2计算,以考虑样本量(STAR方法)。对于该分析,我们不使用JTI或MOSTWAS模型,因为它们分别需要多组织样本或比AFR祖先个体更大的样本量。这两种方法都借用了弹性网络回归,从这个分析的结果是适用于这两种方法。在这些组织中,与在AFR样本中训练的模型相比,在EUR样本中训练的模型在AFR样本中的表现平均差3超过80%的基因模型在AFR样本中训练时具有更强的性能。祖先对齐和未对齐的调整R2和百分比差异的分布(图S2)强调,0.020.04 预测R2的增加是明显的。类似的趋势适用于插补到下采样EUR插补样本中的祖先特定模型(图S3和S4;表S1-事实上,我们观察到,与祖先不知情(训练样本中有EUR和AFR祖先的个体)模型相比,祖先特异性模型在具有一致祖先的样本中表现出更大的预测R2(图1)。图2B;表S4),尽管样本量增加如果我们通过包括其他祖先(亚洲人、美洲印第安人和所谓的未知祖先)的个体来进一步增加训练样本量,这一观察结果也成立(图S5)。这一观察结果不仅与Patel等人最近的结果一致,这些结果显示了不同祖先群体之间基因表达的因果效应大小的差异,31还强调了在表达预测中进行祖先匹配的必要性,以及在eQTL研究中招募更多的非欧洲祖先患者。祖先未知模型可能在AFR样本中表现不佳的一个原因是由于EUR 和 AFR 祖 先 群 体 之 间 预 测 SNP 的 次 要 等 位 基 因 频 率(MAF)的差异重要的是,这种差异通常不是特定于任何一个祖先。相反,由于MAF差异,训练或参考数据集中的祖先不平衡为了在AFR和EUR祖先群体中结合常见的SNP,我们使用在AFR和EUR样本中MAF超过各种阈值的SNP训练祖先未知和祖先特异性模型。排除MAF 0.01的SNP改善了所有组织中祖先未知模型的预测性能(图S6;表S5)。然而,当MAF截止值增加时,祖先特异性模型和祖先未知模型之间的预测性能差距并未减小(图2B;表S4)。这一观察结果可能反映了丢弃祖先特异性的稀有SNP忽略了对基因表达具有大的祖先特异性影响的变体。此外,排除罕见的祖先特异性SNP并不能解决EUR和AFR样本中LD的差异,这些差异导致不同的正则化路径,从而导致SNP基因权重。解决表达模型的可移植性仍然是一个开放的研究方向;从功能注释或跨不同细胞类型或细胞状态特异性背景借用信息的方法可以弥补预测性能的这一差距,类似于多基因评分(PGS)32或多基因转录组风险评分的最新发展,这是一种使用基因表达的多SNP预测因子构建的PGS类似物。三十三,三十四荟萃分析战略必须被GBMI的另一个关键考虑因素涉及使用GWAS汇总统计量的荟萃分析。TWAS通过用来自表达模型的SNP-基因权重对来自GWAS汇总统计的标准化SNP-性状效应大小进行加权来估计GTA。为了解释SNP之间的相关性,外部LD参考面板,如1000个基因组计划,35用于估计TWAS关联的标准误差。因此,GWAS队列中参考和样本内LD的差异影响了基于统计学的汇总TWAS关联和直接插补到个体水平基因型的TWAS关联理想情况下,样本内LD将给出TWAS标准误差的最佳估计,但根据特定的遗传数据共享和隐私政策,一些生物库无法提供此信息。甚至欧元血统人群亚组之间LD的偏离此外,由于SNP-基因权重的估计值受到eQTL组中LD的影响,因此eQTL和GWAS组之间LD的差异也将影响TWAS效应大小的估计。4Cell Genomics2,100180,2022会开放获取短文的0.40.20.0−0.2B0.03ADIP动脉肌肉皮肤血液组织EUR:EUR −(EUR+AFR):EUR AFR:AFR −(EUR+AFR):AFR0.020.010.10.000.0−0.01−0.02ADIP动脉MUSC皮肤MAF血液0−0.1组织0.01ADIP0.05动脉MUSC皮肤血液图2.跨祖先的表达预测模型的预测性能比较(A) 当预测在EUR中训练的模型和跨组织的AFR训练样本(x轴)之间的AFR插补样本中的表达时,调整的R2差异(y轴)。使用祖先对齐模型与祖先不匹配模型具有改进的R2的模型的比例被标记。(B) 调整后的R2差异之间的祖先特异性和祖先不知道模型输入到欧元(左)和AFR(右)样本。由于LD模式在祖先群体之间不同,TWAS中的22个汇集祖先群体可能导致功率降低我们使用祖先未知和EUR和AFR特异性全血表达模型(4,782个基因;参见STAR方法)推导哮喘风险的TWAS。在EUR和AFR祖先组中,家族特异性TWASZ评分没有强相关性(r= 0:11),可能是因为样品大小和eQTL和GWAS结构的差异(图3A、S7和S8)。对于EUR或AFR祖先组中具有p2: 53 10-6的基因,来自祖先特异性荟萃分析GWAS的这些SNP的SNP基因效应和相应的标准化效应大小均显示出非常低的相关性(图S9)。这些结果强化了TWASZ分数的低跨祖先组相关性的教训,并建议模型训练和关联测试应在祖先组内进行。事实上,我们只检测到两个基因,有一个显着的关联与哮喘在欧元和AFR祖先组与p2: 53 10-6。其中一个基因DFFA,通过GWAS和以欧元共定位来评估哮喘风险。[38]然而,使用血液组织时,欧洲和非洲血统群体之间的TWAS关联却走向了相反的方向在探索的其他四种组织中,DFFATWAS关联未达到全转录组显著性,但效应方向总体一致(图S10)。在血液中,DFFA的主要局部eQTL(1 Mb以内)方向相反,但仅在p 0.05时具有名义显著性(图S11)。AFR(rs 263526)和EUR(rs903916)两个家系的DFFA的主效eQTLs均在60 kb以内,但不在LD家系中(AFR的R2= 3310- 4DFFA局部SNP的GWAS效应量在效应方向上未显示出大的偏差,并且仅在名义上具有显著性(图S11)。TWAS在不同血统之间的关联性差异促使我们仔细考虑元分析策略,以避免将跨血统关联性偏向于样本量较大的队列,这些队列仍倾向于以欧元血统为主。我们研究了五种荟萃分析策略:跨特定祖先的荟萃分析,每个生物库的GWAS汇总统计百分之七十七点六百分之七十八点三百分之七十七点四百分之七十八点二百分之七十九点四调整后的R2差R2调整后(AFR:AFR−EUR:Cell Genomics2,100180,2022年10月12日5C短文会开放获取一图3.多生物库、多祖先TWAS的荟萃分析策略比较(A) 按血统荟萃分析了EUR(x轴)与AFR血统(y轴)的TWAS评分虚线表示p 2.53 10-6,45度线作为参考。根据TWAS关联符合p2.53 10-6的祖先人群对点进行着色。(B) TWASZ评分的QQ图,由荟萃分析策略着色每祖先是指跨荟萃分析的特定祖先GWAS汇总统计量的TWAS荟萃分析每个库/每个祖先是指使用所有生物库和祖先特异性GWAS汇总统计量的TWAS荟萃分析。(C) TWAS关联的效应量和Bonferroni校正的置信区间(CI)在17个个体生物库(EUR为青色,AFR为红色)和两个IVW荟萃分析策略(黄色)中针对五个代表性基因。Higgins-ThompsonI2统计量。使 用 ( 1 ) 逆 方 差 加 权 ( IVW ) 和 ( 2 ) 有 效 样 本 量 加 权(SSW),使用(3)IVW和(4)SSW对祖先特异性荟萃分析的GWAS汇总统计量进行荟萃分析,以及(5)使用祖先未知模型和对EUR和AFR祖先组进行荟萃分析的GWAS汇总统计量进行TWAS(STAR方法)。图3B中的QQ图显示了SSW荟萃分析的Z评分和祖先未知策略的Z评分较早偏离QQ线,表明I型错误膨胀。这一观察结果得到了检验统计偏差和通货膨胀估计的支持,最大的估计是这些SSW和祖先未知方法的配对偏差和膨胀。39种IVW策略显示出相似的膨胀水平,跨特定祖先荟萃分析的GWAS汇总统计量的IVW荟萃分析显示出最小偏倚(图S12)。更简单的SSW荟萃分析和祖先未知方法偏向较大的EUR队列,而IVW方法的Z评分与AFR队列的Z评分呈正相关(图S8)。然而,尚不清楚是否有必要在每个生物样本库水平进行祖先特异性所示B6Cell Genomics2,100180,2022会开放获取短文图S13,来自这两种IVW方法的Z评分中度正相关(在4,152次测试中r=0:51),当我们考虑两种策略具有名义上显著的Z评分的基因时,这种相关性增加(r=0: 70,564次测试)。我们观察到,通过Higgins-Thompson I2统计量40测量,这些IVW荟萃分析中的顶级关联在生物库中的效应大小通常具有高度异质性(图3C和S14)。当使用加权负荷检验时,标准误和置信区间宽度仅为SNP基因权重和参考LD矩阵的函数; GWAS样本量对标准误没有影响。一个基因A1BG在两种IVW策略中显示出定向一致性关联,在参与队列中具有较大的异质性(I2= 0.77)。事实上,A1BG的TWAS关联的跨生物库异质性通常大于跨祖先异质性。ZNF 665是另一个在IVW策略中具有一致关联的基因,在每个生物库效应量中显示出低异质性(I2= 0.26)。然而,在IVW策略中具有不一致关联的基因表现出不同的模式。MLNR和MYOZ3是两个说明性的例子,两者都具有很大程度的检验统计异质性(I2分别为0.91和0.82)。在两种IVW策略中,效应量处于相反的方向,可能是由于各生物库关联的祖先特异性标准误差异通过模拟对这些元分析策略的功效和错误发现率进行彻底的研究必须探索纳入每个生物样本库不确定性的方法,以增加功效并适当利用GBMI的大样本量。41-44除了多祖先群体,分析混合祖先个体的遗传数据也是一个开放的研究领域。在该分析中,我们使用1000个基因组AFR LD参考组作为来自每个生物库的AFR祖先样本的LD估计值。然而,大多数GBMI的AFR祖先群体是混合祖先(例如,非裔美国人或非裔英国人)。AFR血统的单一LD参考组可能不能反映AFR和EUR血统的这些混合群体中的遗传多样性。45在混合群体中,使用当地祖先估计有助于更好地表征复杂性状的遗传力,并更准确地绘制遗传关联,特别是eQTL。[46]将祖先特异性等位基因对基因表达的影响(根据分相基因型和当地祖先推断进行估计)纳入TWAS可能会增加功效,应进行探索。然而,祖先推断的错误和祖先特异性效应的异质性可能会对这些方法的扩展提出挑战。后续测试为TWAS GTA提供生物学和临床背景使用GWAS汇总统计量识别的TWAS GTA受到可能导致误报的几个因素的影响我们实施了几项后续测试,以提供TWAS识别的背景,fied GTA.首先,TWAS GTA可以获得的意义,由于为了量化GTA的显着性的SNP-性状的影响在基因座的条件,我们进行了置换测试,通过置换的SNP-基因的权重从表达模型生成一个空分布(STAR方法)。将原始TWASZ评分与该空分布进行比较,评估在给定基因座的特定GWAS架构的情况下,表达增加了多少信号。该排列检验是高度保守的,并且仅优先考虑在标准TWAS GTA检测中已经显著的关联。14接下来,可以从重叠SNP或强LD中的SNPs构建相邻基因组窗口中的基因的基因表达模型。当TWAS在重叠的基因组区域中检测到GTA时,我们使用FOCUS47应用概率精细映射来估计90%可信的基因集,以解释在给定组织中观察到的关联信号(STAR方法)。然而,目前的FOCUS迭代有其局限性。重叠基因的GReX之间的相关性的先验依赖于SNP LD参考组。因此,在跨祖先背景下进行精细定位是困难的,尽管最近增加的FOCUS框架,称为多祖先FOCUS(MA-FOCUS),解释了研究样本中遗传结构的差异。48多组织TWAS中基因水平精细定位的另一个挑战是区分跨组织的重叠信号首先,由于表达水平和eQTL结构的跨细胞类型变异,TWAS可以优先考虑多个组织中被相同的潜在因果细胞类型过度代表的基因。19这种多组织基因优先化扩展到跨组织精细映射重叠TWAS信号,因为FOCUS的先验不是组织依赖性的;提取生物学上一致且有意义的后验信号而不允许先验占主导地位是具有挑战性的。GBMI TWAS管道使用MOSTWAS整合了基因表达模型,MOSTWAS通过局部分子特征(STAR方法)测试远端eQTL的介导效应来优先考虑远端eQTL。对于具有用MOSTWAS训练的模型并且与全转录组显著性的性状相关联的基因,我们使用最后添加检验(added-last test)来测试来自远端SNP的额外关联信号,类似于线性回归中的最后添加组检验。17该测试优先考虑介导预测的远端eQTL的基因组或表观基因组特征集,用于随后研究GTA的上游、组织特异性调节。在MOSTWAS的一个应用中,一个优先的功能假设在体外得到了实验验证。 49As远端eQTL更有可能为了是组织或细胞类型特异性的,50来自这些远端eQTL的关联信号也可以在跨组织精细定位策略中被利用。最后,TWAS在SNP水平多效性的存在下遭受严重降低的功率和放大的假阳性。 [51]我们鼓励使用LDA-MR-Egger[52]或PMR-Egger [53]估计SNP多效性的程度并解释SNP多效性,特别是在具有个体水平GWAS基因型的环境使用GWAS汇总统计量的这些方法的应用表明标准误差有所膨胀,54表明需要进一步评估和开发基于汇总统计量的方法。会开放获取短文Cell Genomics2,100180,2022年10月12日7生物库使GReX-PheWAS能够用于生物学背景GBMI中聚集的生物库提供了用于分析的表型的丰富目录,其中表型代码(phecode)从分类为临床相关类别的ICD代码聚集。55该表型目录使全表型关联研究(PheWAS)能够作为GWAS的补充,既复制了GWAS关联,又提供了更大的一组与GWAS变体的性状关联。为了跟踪新的TWAS优先化基因,PheWAS框架可以在类似的分析中扩展到GReX水平:GReX水平全表型关联研究(GReX-PheWAS),类似于PredixVU数据库。56-我们简要说明了使用三种基因的GReX-PheWAS的实例(图4、S15和S16;表S6):TAF 7,我们的TWAS中的新基因,以及ILRAP 18和TMEM 258,先前通过GWAS涉及的两种基因。60-针对哮喘的欧洲特异性TWAS荟萃分析检测到与TAF 7 cis-GReX的负相关性,TAF 7cis-GReX是一种不与GWAS显著位点相交的基因。在TWAS后续测试中,TAF7通过了排列测试,并通过FOCUS在基因组基因座处的90%可信集中进行了估计,后包含概率为1。由于TAF 7肺GReX的临床相关性尚未表征,我们采用了UKBB欧洲血统GWAS中的GReX-PheWAS汇总统计,涵盖731种性状和疾病,样本量大于100,000,分为9类(图4和STAR方法)。我们看到造血和肌肉骨骼组的表型富集(图4A),甲状腺功能减退和慢性喉炎是最常见的表型关联(图4B;表S6)。图4和S14中迈阿密曲线图的曲线性质只是因为我们绘制了在phecode组内,Z分数的绝对值递减。这些表型包括器官的多种炎症(例如,喉炎、骨炎、脑膜炎等)。我们还发现了与相关呼吸系统疾病和特征的几种关联。类似地,对于两个先前涉及的基因,我们发现IL-RAP 18的呼吸和造血GTA的富集以及TMEM 258的跨多个类别的富集,与这些基因的分类功能和关联一致(图S15和S16;表S6)。GBMI的广泛名册表型的改变使得GReX-PheWAS能够为新的TWAS关联增加生物学和临床背景尽管GReX-PheWAS具有实用性,但它也面临PheWAS的挑战。组内和组间的表型可能是相关的,导致一系列依赖性测试。因此,简单地调整多个测试负担可能是不合适的,而解释表型之间相关性的方法,如排列测试,可能更适用。55,65-67此外,为疾病特异性分析构建的表达模型中的协变量调整可能无法推广到多种表型。大多数基于人群的临床生物库缺乏由于电子健康记录的空白,个人的全面临床和生活方式信息。表型分组也可能具有欺骗性:由于大多数生物库遵循ICD编码,即按身体系统对性状和疾病进行分组,因此给定组的GReX-PheWAS富集可能无法反映整个身体系统的共享遗传途径。此外,由于排除标准的不同,病例对照选择可能不是最佳的。68尽管在表型获取中存在这些限制,但最近专注于在全表型方法中鉴定多种表型之间共享的遗传结构的方法突出了GReX-PheWAS的优点。68讨论在这里,我们提供了一个框架,TWAS在一个多生物库设置在许多祖先群体。一般来说,对于使用GWAS汇总统计的TWAS,我们建议在祖先群体和个体队列中采用荟萃分析方法。随着多组织转录组参考组和eQTL资源增加非欧洲血统群体的样本量非洲人、西班牙裔/拉丁美洲人以及东亚和南亚人的祖先(GBMI广泛代表),我们将扩展我们的TWAS分析,以询问GBMI研究的复杂性状的潜在我们概述了未来需要解决的几个方法上的差距:(1)训练跨祖先组可移植的表达模型,(2)通过适当地建模跨祖先组的LD差异来限制TWAS中的错误发现,(3)将生物库内的不确定性和跨生物库的异质性结合起来以提高TWAS元分析能力,以及(4)通过后续测试使TWAS GTA情境化,跨祖先组和表达上下文以及GReX-PheWAS的概率精细映射。与当前TWAS方法学讨论的问题一起,组织特异性表达可能无法提供发现性状相关生物学机制所需的足够的特异性最近研究SNP-性状关系通过细胞类型异质性介导的方法表明,细胞类型和细胞状态受遗传学影响并预测复杂性状,直接建模可能会提高检测性状关联的能力单细胞eQTL数据集可以与GWAS整合,以鉴定与疾病相关的背景特异性将单细胞表达数据转化为预测模型将需要改进的方法学,该方法学将细胞身份建模为光谱。73,74将功能数据与TWAS相结合的多组学方法可以以生物学可解释的方式更好地模拟生物信息的流动。十七、七十五、七十六尽管这套方法的局限性,TWAS仍然是一个有用的工具,解释GWAS协会和独立发现基因表达介导的遗传协会。需要开发更复杂的综合计算和实验工具来补充改进的TWAS和GWAS,以了解健康和疾病的生物学基础。最重要的是,来自非欧洲血统个体的参考eQTL数据会开放获取短文8Cell Genomics2,100180,2022一6420Phecode集团BPhecode集团皮肤病消化内分泌/代谢泌尿生殖系统造血系统肌肉骨骼肿瘤神经系统呼吸系统肿瘤50−5−10菲科德图4.GReX-PheWAS用于对UKBB中TAF 7基因调控表达的全表型关联进行分类(A) -log 10 Benjamini-Hochberg FDR调整的9个表型组(x轴)中GTA的p值(y轴)。虚线显示FDR调整的p = 0.05。(B) 表型(x轴)间TWASZ评分(y轴)的Miami图,按phecode组着色。虚线显示Benjamini-Hochberg FDR校正的显著性,如果关联通过Bonferroni校正,则标记表型。慢性喉炎腹疝腹疝变形性骨炎[佩吉特骨病]牙龈和牙周疾病其他非恶性乳腺疾病端病大细胞淋巴瘤面/颈蜂窝织炎和脓肿腹股沟疝其他免疫学结果病理性、发育性或复发性脱位偏头痛鼻息肉荨麻疹下尿路结石椎间盘退变脑/脊柱继发性恶性肿瘤食物或呕吐物吸入性胆石症结肠癌内生甲功能亢进胆管炎凝血缺陷白血病神经丛病变手指/脚趾蜂窝织炎和脓肿肾绞痛语音障碍疼痛脊椎病伴脊髓病慢性皮肤慢性咽炎和鼻咽炎红斑痤疮、瘙痒症和苔藓其他血糖异常淋巴腺炎继发性皮肤恶性肿瘤肝癌和肝内胆管癌脑膜炎单纯性和未特别指明的甲状腺肿其他遗传性溶血性贫血扁平足表现不确定的肿瘤其他脑部疾病(未特指)眼球突出非特异性骨髓炎骨髓炎、骨膜炎和其他骨感染多发性骨髓瘤骨髓炎急性髓样白血病继发性甲减log10 FDR−调整PTWAS Z评分会开放获取短文Cell Genomics2,100180,2022年10月12日9该研究我们的结论与我们的评估TWAS的一些限制我们使用来自GTEx的eQTL数据来评估表达预测模型的可移植性这些分析也应该在更大的非欧洲人群队列中进行,即使我们的结果反映了以前的评估。此外,我们只评估传统的TWAS方法。虽然其他方法与这些第一个TWAS方法相似,但其他框架可能更适合协调跨祖先群体的表达预测和GTA映射最后,我们仅提供固定效应荟萃分析。使用随机效应模型的荟萃分析可能更有效。财团关 汉 Wu , Humaira Rasheed , Kristin Tsuo , Ying Wang ,Huiling Zhao,Shinichi Namba,Ida Surakka,Brooke N.放大图片作者:A.Lopera-Maya,Kristi Lall,Marie-Julie Fave ',Sine' ad B.放大图片作者:J. J.放大图片作者:Brumpton,Sameer Chavan,Tzu-Ting Chen,Michelle Daya,Yi Ding,Yen-Chen A. 作 者 : Christopher R. 作 者 : Sarah E. 作 者 :Whitney E. Hornsby , Nathan Ingold , Ruth Johnson , TriinLaisk,Kuang Lin,Jun Lv,Iona Y.放大图片作者:MichaelH.Pre- uss , Unnur Thorsteinsdottir , Jasmina Uzunovic ,Matthew Zawis- towski,Xue Zhong,Archie Campbell,KristyCrooks,GeertruidaH.放大图片创作者:Michael D.放大图片作者:Christopher J.Griffiths , Yu Guo , Karen A. 放 大 图 片 作 者 : Ko- numaTakahiro.放大图片作者:Marioni,Jansonius Nomdo,SnehalPatil,Nicholas Rafaels,Anne Richmond,Jonathan A.放大图片 作 者 : Peter Straub , Ran Tao , Brett Vanderwerff ,Kathleen C. 放 大 图 片 作 者 : Barnes , Marike Boezen ,Zhengming Chen , Chia-Yen Chen , Judy Cho , GeorgeDavey Smith,Hilary K.放大图片作者:Andrea Ganna,Tom R.冈特、田歌、黄海亮、詹妮弗·霍夫曼、朱卡T. 放大图片作者:John H.李黎明,罗M. 作者声明:J.F.放大图片创作者:Michael M.作者:David J.乔 丹 · 波 蒂 厄 斯 放 大 图 片 作 者 : Richard C. 作 者 : JudithM.Vonk , David Whiteman , Stephen J. Wicks , CiscaWijmenga , John Wright , Xiang Zhou , Philip Awadalla ,Michael Boehnke,Daniel H.我是格什温德,卡洛-莱恩·海沃德,克里斯蒂安·赫维姆,艾菲。放大图片作者:Kenny,Yen-Feng Lin,Reedik Magi,Hilary C.作者:Sarah E.放大图片作者 : Medland , Yukinori Okada , Aarno V. Palotie , SerenaSanna,Jordan W.放大图片作者:David A.作者声明:RobinG.Walters、Sebastian Zo?llner、日本生物银行、BioMe、BioVU、加拿大未来健康伙伴关系Martin,Cristen J. Willer,Mark J. Daly,and Benjamin M. 尼尔STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d实验模型和子系统d方法样本BGBMI TWAS管道B祖先特异性和无意识模型的分析d量化和统计分析B荟萃分析策略BGReX水平全表型关联研究(GReX-PheWAS)补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2022.100180。致谢我们感谢Mark Daly在内部修订过程中提出的有益意见和建议,感谢NicholasMancuso、Michael Love、Yun Li和Achal Patel在研究过程中进行的深思熟虑的讨论我们要感谢国际常见病联盟的组织委员会对建立GBMI作为更大努力的一项新生活动所做的明智贡献。我们要感谢Hail团队的Daniel King和BroadInstitute斯坦利中心数据管理团队的Sam Bryant,感谢他们帮助Google bucket设置和数据共享,感谢B.P. 部分得到NIH奖励R01 HG 009120、R01 MH115676 、 R01 CA 251555 、 R01 AI 153827 、 R01 HG 006399 、 R01 CA244670的支持和 U01HG011715 。 E.R. G 由 美 国 国 立 卫 生 研 究 院 ( NIH ) 资 助 NHGRIR35HG 010718 、 NHGRI R01HG 011138 、 NIA AG 068026 和 NIGMSR01GM 140287支持。新泽西州由U01HG009086支持W.Z.公司由国家卫生研究院的国家人类基因组研究所资助,资助号为T32 HG 010464和K99 HG 012222 -01。作者贡献概念化,A.B. J. H.;方法学,A.B.,约翰·H D.Z. E.R. G 血压,和N.J.C.;软件,A.B.,约翰·H D.Z. E.R. G 血压,和N.J.C.;验证,A.B.,约翰·H D. Z.;形式分析,A.B. J. H.;调查,所有作者;资源,所有作者;数据策展,W.Z.M. K.; 写作A.B. J. H.;写作J. H.;监督,例如,血压,和N.J.C.;项目管理,A.B.,约翰·HE.R. G血压,和N.J.C.;资金收购,所有作者。申报利益作者声明没有竞争利益。包容性和多样性我们努力确保招募人类受试者时的性别平衡我们努力确保招募人类受试者时的种族或其他类型的多样性本文的一位或多位作者自我认同为科学界代表性不足的少数民族。本文的一位或多位作者自我认同为LGBTQ+社区的成员本文的一位或多位在引用与这项工作相关的科学参考文献的同时,我们还积极努力促进参考文献列表中的性别平衡。本文的作者名单包括来自会开放获取短文10Cell Genomics2,100180,2022参与数据收集、设计、分析和/或工作解释的研究进行地点。投稿时间:2021 - 11 -修订日期:2022受理时间:20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功