基于测序的全基因组关联研究报告标准与建议

93 浏览量更新于2023-12-09 收藏 874KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

短文基于测序的全基因组关联研究报告标准图形摘要亮点d提高基于测序的GWASd为了便于查找，我们建议使用基于测序的GWAS（seqGWAS）d为了改进访问和标准，GWAS目录将支持seqGWASd为了提高效用，我们建议采用单一和综合分析作者Aoife McMahon，Elizabeth Lewis，Annalisa Buniello，.，露西娅作者：Laura W. 哈里斯，Jacqueline A.L. 麦克阿瑟通信aoifem@ebi.ac.uk（上午），parkinson@ebi.ac.uk（惠普）简言之McMahon等人报告了对基于测序的GWAS文献的分析我们为基于测序的GWAS的报告和共享提供了建议，以提高这些有价值数据集的公平性。McMahon等人，2021，细胞基因组学1，1000052021年10月13日？2021作者。https://doi.org/10.1016/j.xgen.2021.100005会会开放获取短文基于测序的全基因组关联研究报告标准Aoife McMahon，1，4，*伊丽莎白刘易斯，1安娜丽莎Buniello，1玛丽亚Cerezo，1佩吉霍尔，2埃利奥特索利斯，1海伦帕金森，1，*露西娅A。Hindorff，2Laura W.哈里斯，1和杰奎琳A.L. 麦克阿瑟1，31欧洲分子生物学实验室，欧洲生物信息学研究所，Wellcome Genome Campus，Hinxton，英国2美国国立卫生研究院国家人类基因组研究所基因组医学部，Bethesda，MD 20892，USA3BHF数据科学中心，英国健康数据研究中心，英国4引线触点* 通信：aoifem@ebi.ac.uk（上午），parkinson@ebi.ac.uk（惠普）https://doi.org/10.1016/j.xgen.2021.100005总结基因组测序最近已成为用于全基因组关联研究（GWAS）的可行基因分型技术，提供了分析更广泛的全基因组变异（包括罕见变异）的潜力为了调查当前的标准，我们评估了2014年至2020年发表的167篇基于外显子组或全基因组测序的GWAS文献中统计方法、分析、结果和数据集报告的内容和质量;81%的出版物包括多个变异体之间的聚合关联测试我们观察到缺乏标准化的术语和数据集的不完整报告，特别是在聚合测试中分析的变体我们还发现，与基于阵列的GWAS相比，共享汇总统计数据的频率较需要报告标准和增加数据共享，以确保基于测序的关联研究数据可查找、可互操作、可访问和可重复使用（FAIR）。为了支持这一点，我们建议采用基于测序的GWAS（seqGWAS）的标准此外，我们建议按照与基于阵列的标准GWAS相同的标准和约定报告单变量分析，并在GWAS目录中共享。我们还为汇总分析、元数据和汇总统计提供初步建议标准。介绍人类遗传学领域的巨大进步可以归功于15年前全基因组关联研究（GWAS）的出现。近年来，分析方法的成本降低和进步使得高通量全基因组测序（WGS）和全外显子组测序（WES）成为GWAS中基于阵列的基因分型的可行替代方案。3，4测序提供了优于基于阵列的方法的显著优势，具有检测和分型样品中存在的所有变体的潜力，而不仅仅是阵列或插补参考面板上存在的那些大多数阵列被设计用于测定常见变体（次要等位基因频率[MAF] > 5%），省略罕见（MAF 1%）和低频（MAF 1%-5%）变体。对这些罕见变异的分析可以解释额外的疾病风险或性状变异性，并有助于克服“缺失遗传力”的问题。5，6此外，大多数阵列历来偏向于欧洲人群的变异覆盖。测序可能提供对研究人群中变异的无偏评估，这一事实对于非欧洲人群的研究尤其重要。八、九分析更多和更罕见的变体存在挑战单变量测试，用作基于数组的GWAS在应用于低频或罕见变异时通常动力不足，除非样本量或效应非常大。当统计测试的数量非常大时，也存在校正多个测试的问题。为了解决这些问题，已经专门设计了用于稀有变体关联测试的统计方法，其评估基因组区域中多个变体的聚集关联（这里称为“聚集测试”）。变体通常在生物学功能区域（例如，基因）与基于注释的或预测的功能效应富集了可能具有较大效应大小的那些变体（例如，位于剪接点或预测的功能丧失一个特定的聚合测试检测关联的能力将取决于模型的假设和贡献变量在每个位点代表真实疾病机制的程度科学数据的储存库在支持研究和通过标准格式促进数据集的可互换性和集成方面是不可或缺的国家人类基因组研究所-欧洲生物信息学研究所（NHGRI-EBI）GWAS目录11是大规模遗传关联研究的卓越数据资源，使研究能够识别因果变异，了解疾病机制，并建立新疗法的靶点。GWAS Cata-log基础设施、数据内容和标准格式CellGenomics 1，100005，October 13，2021 <$2021作者。1这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。会开放获取短文2Cell Genomics1，100005，2021A B两者均为48%合计33%单一变量19%总体%分析类型%图1.基于测序的GWAS样本、数量、测序覆盖率和分析类型(A) 从2014年至2020年9月，每年确定的基于测序的关联出版物数量，n = 167。仅包括全基因组（不限于特定区域或基因子集）和基于人群的研究（更多信息见STAR方法2020年最后一个季度是根据2019年最后一个季度的增长率预测的（预测数据以每种颜色的浅阴影表示(B) 这些说明中包含的分析类型。 ‘‘Aggregate’’refers to multi-variant旨在支持基于阵列的GWAS。由于需要为方法差异、表示方法所需的元数据以及结果格式（特别是聚合分析）制定新标准，因此，试图扩大目录范围以纳入基于测序的关联研究的努力受到阻碍。在这里，我们分析了目前已发表的基于测序的关联研究的现状，以确定在GWAS目录中托管和共享这些数据集的要求，并推荐报告的最佳实践。首先，我们全面回顾了报告基于测序的关联研究的出版物，评估了实验设计和统计方法的范围，以及出版物中包含的分析、方法和数据集的报告内容和我们希望这次审查将成为一个凝聚点，以建立社会对标准的共识。这项工作还为GWAS目录基础设施和数据表示模式的开发提供了信息，以支持纳入基于测序的关联研究，这些研究现已被GWAS目录接受提交。我们在GWAS目录的工作重点是实现广泛的数据共享和定义标准，以确保基于测序的关联研究数据是可查找的，可互操作的，可访问的和可重用的（FAIR）。13结果寻找基于测序的关联研究在我们对研究出版物（STAR方法）的回顾中，我们观察到广泛的术语用于描述基于测序的基因组或外显子组范围的关联研究。术语使用术语组合罕见变异关联分析、罕见变异聚集关联分析、关联检验和全基因组显著关联），（2）所分析的变异的等位基因频率（例如，常见变体和罕见变体），（3）分析类型，单一变体（例如，单个变体和变体水平）或与多个变体聚集（例如，基于基因、基于区域、聚集、基因负荷、崩溃分析、基因水平关联、基因水平信号和变异检验）。我们确定了167篇报道基于全基因组测序的关联分析的出版物符合我们的选择标准（STAR方法;表S1和S2）。第一项研究于2014年发表，到2020年，出版物数量逐年增加（图1A）。由于这些研究没有采用标准术语，我们无法有区别地搜索符合我们标准的基于测序的关联研究，并且允许搜索（例如，对于大多数出版物仅分析了WES数据（68%），约三分之一分析了WGS数据（30%），一些出版物包括两种覆盖类型（2%）（图1A）。许多使用WES和WGS测序数据的出版物将其分析限制在预先指定的感兴趣区域;这些靶向分析不是这项工作的重点，因此被排除在分析之外。关联测试和限定变体我们调查了这些出版物中包含的关联测试类型。最常见的是同时纳入单变量和汇总分析（48%），其次是仅汇总分析（33%），少数出版物（19%）仅纳入单变量分析（图1B）。在包括汇总检验在内的文献中，使用了广泛的统计模型和工具，出版物通常使用多种模型。例如，在使用三种最常见的聚合方法之一的出版物10（负担/折叠、方差分量[SKAT]和组合负担和方差分量[SKAT-O]检验）中，40%（n = 65）使用至少两种方法（图2A）。用于描述这些方法的语言是多种多样的;例如，SKAT被称为基于内核的，基于分散的或基于方差分量的（图S3）。我们还研究了变量过滤或“掩蔽”方法。在72%的单一变异体和84%的聚合分析出版物中报告了次要等位基因频率阈值，其余的未报告任何MAF阈值或使用所有变异体（26%的单一变异体/16% 的聚合）（图 S4 ）。 ‘‘Greater than’’ thresholds weretypically used for single-variant analysis,0.01或更高，将这些分析限制在共同变异空间（图2B）（n =30/53阈值分析，来自51篇出版物）。与此相反，通常采用的汇总分析百分之二百分之三十百分之六十八Cell Genomics1，100005，2021年10月13日3会开放获取短文A BSkat百分百百分百百分占百分SKAT-O负担或倒塌次等位基因频率阈值大于（>）小于（）图2.基于测序的GWAS出版物(A) 综合分析出版物中使用的方法之间的重叠。在使用SKAT、SKAT-O或负荷试验的65篇出版物中，40%使用至少两种方法。与研究设计相关的文本由经验丰富的策展人提取，并检索术语(B) 用于单变量和聚合分析的次要等位基因频率阈值。‘‘Greater than or equal在x轴下方。从提供了一个或两个阈值的出版物中提取保留值（单一变量：51篇出版物中n = 53个阈值;汇总：77篇出版物中n = 86个阈值）。有关MAF阈值报告的更多详细信息，请参见图S4‘‘less than’’ thresholds, to include only low-frequency (大多数综合分析使用0.01或0.05阈值（78%，n = 67/86，来自77篇出版物的阈值分析）。许多出版物（63%，n = 75/120）还对具有预测生物学效应的变体进行了分析。作者基于转录本注释（例如，使用变体效应预测器14）或蛋白质结构（例如，使用从耐受性中分选不耐受性[SIFT]、15多态性Phe分型v2 [PolyPhen] 16和组合的注释依赖性耗竭[CADD] 17）或基于进化一致性或变异不耐受性的测量。18、19对用于描述过滤过程的文本的分析强调，最常用的术语是通常通过注释/预测效应和MAF阈值过滤变体，每份出版物使用多种不同的过滤标准（示例见表S3）。WES单变异分析中分析的变异数量远少于基于阵列的GWAS中通常分析的变异数量（中位数，158，091;对比5，554，549），而在WGS单变异分析中，数量更多（中位数，12，210，410）（表1）。在聚合分析中进行的统计检验的中位数为18，360，接近具有一致CDS的蛋白质编码基因的数量（19，033;编码DNA序列）20，因为变异体聚集的最常见单位是蛋白质编码基因。检验次数大于四分位数范围的分析是指分析单位为非基因的分析我们观察到的最常见的非基因聚集单位是调节区18、19、21、22或不可知滑动窗口。23-词典保守区域或路径。19、27各种不同的过滤器或“掩码”的结果，即，列表在我们分析的167篇出版物中，没有任何一篇提供然而，一些出版物确实规定了每个聚合单位包含的合格变体的数量。二十八，二十九样本特性接下来，我们调查了seqGWAS中研究的样本的特征（样本量、祖先和性状）我们比较了seqGWAS的样本量，因为这是统计功效的关键我们根据出版物中的个体数量将出版物分类到箱中（图S6）。最常见的样本量是300- 3，000人（占出版物的43%），但在过去几年中，从小到大的样本量几乎均匀分布。2019年，最小（300人）和最大（> 10，000人）样本量箱分别用于约四分之一的出版物（分别为23%和26%;图S6）。病例数量也是统计功效的一个组成部分，不平衡的病例/对照比率可能会增加1型错误。30我们观察到10篇出版物（6%）不平衡，晚期病例/对照比率（病例%15%样本），大多数高度不平衡的（n = 7，4%）（例数占样本的4%）（表S4）。31-33在基因组学研究中纳入不同的祖先背景被认为是重要的，34，35但基于阵列的GWAS分析突出了对欧洲起源样本的极端偏见36，37我们评估并比较了seqGWAS中的祖先。遵循GWAS目录祖先框架（表示祖先的标准方法），36我们展示了出版物级别的广泛祖先类别的样本。与基于阵列的GWAS在其他地方所观察到的相似，所有出版物中有71%（n = 85/120）包括欧洲血统个体，40%不包括任何其他血统（n = 48/120）（图3A;表S5）。第二个最常检查的祖先群体是非洲裔美国人（28%的受试者，n =33/120），大多数出版物（21%）还包括其他祖先（图3B和S7）。这一特征可能部分是由于存在大型跨血统联合体，如精准医学的Trans-Omics（TOPMed）计划，这是最常见的联合体或队列（表S7）。我们还检查了在报告的关联研究中分析的性状数量大多数出版物检查了一个或两个性状（76%，n = 89），而少数（4%，n =5）检查了55-75个性状作为大规模研究的一部分。18，22，39-分析多个性状的非英国生物库出版物主要集中在定量生物标志物或代谢物水平类型性状，18，21，41，45如炎症生物标志物，血液代谢物水平，血液蛋白水平。研究分析较少出现单变量集合会开放获取短文4Cell Genomics1，100005，2021报告91（5，817）74（61）81（84）表1.在测序与基于阵列的GWAS中进行的汇总统计量和统计检验数量可以在公共存储库中不受限制。基于测序的单变异汇总统计量的共享（5%的出版物，n = 4/79，2014 -2019）远低于基于测序的单变异汇总统计量的共享（5%的单变量数组，%（n）测试次数（报告）单变体测序，%（n）聚合物测序，%（n）中的GWAS目录中的基于阵列的发布同期（12%的出版物，n = 300/2，571，2014近年来，阵列GWAS汇总统计数据的共享更大（2019年GWAS目录出版物的19%，n = 101/527），但seqGWAS汇总统计数据仍然滞后（9%，n = 3/ 32）。另有2.5%的测序出版物（n = 3/120，2014-相比之下，24%的出版物（n = 29/120）未报告数量的测试九（六百一十）整体二十六（二十一）整体十九（二十）整体在受控访问存储库中存储个人级别的排序数据，数据库（dbGAP或欧洲基因组-表型组档案[EGA]）（分发）（表S6），对于某些摘要级数据，最小12,03326,011339与这些数据共同提交或捆绑在一起，但没有具体说明Q1899,892144,47716,788作者说中值5,554,549548,88918,665单变量汇总统计量的数据内容Q39,334,5858,752,59620,843seqGWAS与标准阵列GWAS的性能相当并且可以符合新兴标准。11，50然而，总和-seqGWAS中用于聚集分析的统计量通常仅由基因名称（或其他范围规定的染色体坐标）、p值和通常贡献变体的数量组成附带材料。讨论推荐性标准Q3–29,880,4791,082,577根据我们的审查和分析，我们建议标准，最大–32,503,121129,820,320改进seqGWAS的报告和可访问性首先，在-声明公开分享汇总统计数据的出版物（不包括限制查阅的出版物）。报告/未报告是指出版物中是否详细说明了进行的统计检验次数。在基于测序的研究中进行的统计学检验的数量是基于提供一个“统计学检验数量”的出版物（对于单变量分析，n = 51/79，n = 56/101，用于聚集分析）。提供了一系列统计检验数量的出版物被纳入“报告”类别基于阵列的GWAS的数据来自GWAS目录（2020年12月2日发布）中的2014性状更可能是病例/对照研究。46-数据可用性来自GWAS的完整汇总统计数据的公开可用性具有极大的潜力，可以通过使社区能够重新分析、荟萃分析和执行后续分析来扩展初始研究的力量，同时对参与者的风险最小。11，50我们评估了除了个体水平的基因分型结果外，这些出版物中报告的汇总统计是否有用，在提及研究设计时增加透明度，为了更好地识别，我们建议社区采用“基于测序的GWAS”的名称其次，为了能够准确解释和比较研究和基因座之间的结果，必须一致地报告描述每项相关性试验（包括统计学试验和贡献变量）的详细信息（框1，建议2和3）。这些建议是基于我们对现场状况的观察，并旨在解决这些问题。意见我们分析的出版物中基于测序的关联研究包括单一或聚合多变量分析。单变量分析仅限于常见变量，这使得这些研究在很大程度上与基于阵列的GWAS具有可比性（图2），对数据内容和报告具有相似的影响（方框1，建议2），并且在重复使用方面具有相似的效用，例如，在推导多基因评分或孟德尔随机化方面。相比之下，在大多数（81%）出版物中出现的多个变体之间进行聚合关联测试的研究集中在“低频”，“罕见”和“超罕见”变体上。同一出版物中经常使用多种聚集关联汇总统计12（300）不加限制可用的第五章（四）第七章中值–158,09118,360巨魔关键是，我们没有观察到任何出版物重新-Q3–235,13320,000移植了每个聚合单元中包含的变量列表，最大–1,810,19888,183是解释数据的关键，无论是在正文中还是在仅WGS仅WGS最小–658,234339Q1–7,666,13419,903中值–12,210,41032,316最大90,000,00032,503,121129,820,320仅WES仅WES最小–26,011735Q1–81,84316,751会开放获取短文Cell Genomics1，100005，2021年10月13日5A B亚洲8.47%西班牙裔或拉丁美洲人2.54%0.85%0.85%3.39%0.85%∅百分之十七点八6.78%非洲0.85%中东∅百分之四十0.86%1.72%其他混合4.24%0.85%6.8%NR其他0.85%0.85%美洲土著欧洲图3.在基于测序的GWAS出版物中使用的个体的分类根据GWAS目录祖先框架定义的广泛祖先类别的发布级细分[36]为便于显示，部分类别被折叠(A) 仅包含一个或多个祖先类别的出版物百分比概览(B) 包括特定的大祖先类别的出版物的比例。重叠表明一个出版物中包含多个祖先;表示空集合。使用DeepVenn创建Venn图38注意，这种尺寸的维恩图不能完全成比例（完整数据见图S7和表S5因为每个测试的功效取决于模型的假设与每个位点的真实疾病病因学的匹配程度。因此，在基因座和性状之间不存在最佳模型（包括统计检验和变异过滤策略），也不存在先验必然可知的最佳模型。因此，为了能够准确解释和比较研究和基因座之间的结果，必须一致地报告描述每个关联检验（包括统计检验和贡献变量）的详细信息（方框1，建议2和3）。基于测序的关联研究与基于标准阵列的GWAS最大的不同在于聚合关联测试的性能和报告。我们观察到，为聚集体试验提供的实验信息不足以促进彻底检查或复制。变体被过滤（通常通过MAF和功能注释/预测结果）并组合在不同的聚合单元中。重要的是，这些出版物没有提供有助于每个测试的变体列表。这些数据的可用性将有助于复制的尝试，并使进一步的分析和功能研究成为可能51（方框1，建议3b）。鉴于这些变体的罕见性，关于去识别的隐私问题可能是共享它们的障碍。我们建议社区关注罕见变异临床基因组学领域，在该领域，人们越来越多地接受共享的潜在益处远远超过感知的风险。[52]自2018年以来，ClinVar中临床实验室来源的变异数量增加了一倍多。53、54我们请注意，个体遗传变异，即使是非常罕见的变异，也不是唯一的识别，需要深入了解个体的基因型才能将个体与表型联系起来。从理论上讲，可以概括合格变体的列表，但作者提供的过滤信息也是多种多样的，而且往往模糊不清，总体而言，不足以独立得出这些列表。社区应该考虑标准化的方式来传达变体过滤器或掩码（例如，使用序列本体来描述功能注释/预测功能效应过滤器55）。聚集的单位，包括每个测试中包含的变体（通常是基因），必须明确定义。这应包括区域坐标和基因组组装或注释发布，以及任何其他变异筛选信息（框1，建议3a）。我们观察到，与基于阵列的GWAS（12%）相比，seqGWAS（5%）中公开提供的完整摘要统计数据比例较小。尽管有指导和越来越多的社区共识支持共享（网络资源），这两种类型的研究的百分比都很低。[50]测序的全面和公开数据共享可能少于基于阵列的研究，原因有很多。关于基于测序的汇总统计中存在的罕见变异，可能存在额外的感知隐私问题。汇总统计也可能与个体水平的基因分型数据捆绑在一起，24%的出版物存放在受控访问存储库（dbGAP/EGA）中。单变量汇总统计量可以符合所提出的基于数组的百分之八百分之四十会开放获取短文6Cell Genomics1，100005，2021基于阵列的GWAS（49%仅欧洲人，74%包括欧洲人）仍在测序出版物中（40%仅欧洲人，71%包括欧洲人）。此外，我们注意到，基于欧洲测序的分析的百分比可能更大;包含多个GWAS的出版物更可能来自具有深度表型数据的大型队列，这些队列主要是欧洲人（例如，UK Biobank）。考虑到测序在分析非欧盟国家中的优势，我们质疑为什么它没有被进一步使用。那里这有许多可能的原因，包括成本增加、传统队列缺乏多样性、预先存在的同意协议、与稀有变异分析相关的隐私问题以及分析方法复杂。GWAS目录重申了其鼓励对不同人群进行分析的立场，并鼓励研究人员利用这些机会提供通过测序（b）在不同祖先之间进行无偏见的基因分型的技术（框1，建议4）。标准（方框1，建议2）11，并且已经可以提交给GWAS目录。然而，聚合分析汇总统计量在共享时通常仅是基因名称和p值（有时包括合格变体的数量）。考虑到人类基因的数量只有大约20，000个，这些文件并不庞大或繁琐，并且易于共享，例如，作为补充表格。如上所述，我们建议作者提供有助于每个测试的合格变体的完整列表（方框1，建议3b）。我们希望这些标准的开发和采用将简化并鼓励seqGWAS汇总统计数据的共享测序对队列中存在的所有变体进行基因分型的能力为克服基于阵列的基因分型中固有的偏差提供了重要机会，并有可能减少祖先群体之间的差异。尽管如此，对欧洲血统人口的偏见，该研究缺乏标准化术语来引用seqGWAS为使用基于术语的文献检索方法可靠识别这些出版物因此，我们确定的167篇出版物肯定低估了出版物的数量，我们并不认为这项工作是对所有已发表的seqGWAS的全面分析为了保持一致性并使研究之间具有可比性，我们决定将我们的分析限制在对与性状相关的基因座进行无偏倚、全基因组或全外显子组评估的出版物上我们筛选并认为不合格的许多出版物都是基于先验知识的靶向分析，例如特定位点、基因或途径，是科学有效的研究，但不在本手稿的范围内。在我们对术语“seqGWAS”的建议然而，我们观察到术语“GWAS”通常用于指全基因组和外显子组范围的基于阵列的关联研究。我们提出独特命名法（基于测序的GWAS/seqGWAS）的动机是促进这些研究类型的“发现能力”（分析分布在基因组中的变体的大规模关联研究（例如，覆盖所有常染色体）。这项工作的一个必要限制是，它限于一个特定的时间段（2014预计该领域将在不久的将来显著增长，WES和WGS研究的比例可能会发生变化。然而，我们的工作结果，在如何描述和报告研究方面，不受它们是否是WES或WGS或研究总数的影响。这些建议同样适用于这两种保险类型。此外，我们认为这是一个适当的时间来发表一项研究，如我们这样的标准可以建立更快，从而使未来的出版物坚持公平的原则。我们建议制定和采用报告标准，以提高基于测序的GWAS的可用性、可访问性和实用性。GWAS目录将支持这些数据集的存放，促进这些标准的采用，并继续讨论，以就汇总分析的报告达成共识。1. WGS和WES关联研究被称为2. 单变量分析汇总统计量a. 使用与基于单变量阵列的GWAS相同的标准进行报告11、50b. 通过提交GWAS目录3. 综合分析：a. 应报告元数据，以便进行解释并帮助再现，包括i. 统计检验的足够详细信息，以允许重复结果ii. 使用的次要等位基因频率阈值iii. 用于功能注释/后果预测的工具的详细信息（例如，VEP版本103）和用于描述结果的本体术语（例如，序列本体论）b. 社区就聚合seqGWAS汇总统计报告的标准内容和格式达成共识这应包括i. 有助于每个测试的ii. 聚合单元的染色体坐标（包括基因组组装构建或基因注释发布版本，例如，GENCODE版本37，GRCh38）iii. 聚合单元的标准标识符，例如，HGNC基因名称或符号（如适用）iv. p值4. SeqGWAS研究将在包括更多样化祖先的人群中进行框1.基于测序的GWAS报告标准会开放获取短文Cell Genomics1，100005，2021年10月13日7确保seqGWAS是FAIR只有当数据是FAIR（可查找、可访问、可互操作和可重复使用）时，才能实现科学研究的最大效益，正如FAIR良好科学数据管理指导原则所描述的那样。13我们的分析强调了seqGWAS实施这些原则的几个障碍，包括缺乏适当的资源或存储库来存储和传播数据，在不使用结构化词汇表的情况下元数据报告的一致性GWAS目录的主要目的是提供所有大规模基因组关联研究的综合资源和存储库，因此，已将其范围扩展到包括seqGWAS，最初侧重于单变异分析。我们将支持社区就聚合seqGWAS的报告达成共识，包括创建元数据和摘要格式和内容的标准。50报告标准的制定和采用将增加seqGWAS的可用性、可访问性和实用性。我们在报告中概述了我们的建议（方框1），并欢迎社会各界提供进一步的意见。STAR+方法本文件的在线版本提供了详细的方法，包括以下内容：d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本d量化和统计分析补充信息补充信息可以在 www.example.com 上找到 https://doi.org/10.1016/j 。xgen.2021.100005。致谢本出版物中报告的研究得到了美国国立卫生研究院国家人类基因组研究所的支持，U41 HG 007823和EMBL-EBI核心基金。洛杉矶和PH。是国家人类基因组研究所的雇员内容完全由作者负责，不一定代表美国国立卫生研究院此外，我们感谢欧洲分子生物学实验室的资助。我们感谢Kalliope Panout-sopoulou和Aimee Deaton对手稿的评论。作者贡献概念化，上午，惠普，洛杉矶，和J.A.L.M.方法论，上午;形式分析，A.M.;调查，A.M.和J.A.L.M.;数据策展（GWAS目录），上午，E.L.，A.B. 医学博士，P.H.，E.S.，L.W.H.，和J.A.L.M.数据策展（测序论文），上午E. L.; 写作和J.A.L.M.写作J.A.L.M.，L. H.，和L.W.H.;可视化，上午;监督，J.A.L.M.和L.W.H.;项目管理，惠普，J.A.L.M.，和L.W.H.;融资收购，惠普。申报利益J.A.L.M.的直系亲属是Illumina的员工和股东。投稿时间：2021 - 03 - 24修订日期：2021受理时间：2021发布时间：2021WEB资源GWAS目录资格标准，https://www.ebi.ac.uk/gwas/docs/方法/标准更新NIH基因组总结结果访问管理，datascience.nih.gov/foa/更新-NIH-管理-基因组-摘要-结果-访问引用1. Klein，R.J.，徐，X.，Mukherjee，S.，Willis，J.，Hayes，J.（2010）.全基因组关联研究的成功。Cell 142，350-351，author reply 353-355.2. Wellcome Trust Case Control Consortium（2007）.对14,000例7种常见疾病和3,000例共享对照的全基因组关联研究。Nature 447，661-678.3. DePristo，M.A.，班克斯，E.，波普林河，Garimella，K.V.，Maguire，J.R.，Hartl，C.，Philippakis，A.A.，del Angel，G.，里瓦斯，硕士，汉娜，M.，等人（2011年）。使用下一代DNA测序数据进行变异发现和基因分型的框架。Nat. Genet. 43，491-498.4. Pasaniuc ， B. ， Rohland ， N. ，麦克拉伦， P.J. ， Garimella ， K. ，Zaitlen，N.，Li，H.，古普塔，N.，尼尔，B.M.，戴利，M.J.，Sklar，P.，等（2012年）。极低覆盖率的测序和插补增加了全基因组关联研究的能力。Nat. Genet. 44，631-635.5. Eichler ， E.E. ， Flint ， J. ，吉布森， G. ， Kong ， A. ，Leal ， S. M. ，Moore，J.H.，和Nadeau，J.H.（2010年）。缺乏遗传性和寻找复杂疾病的潜在原因的策略。遗传学国家牧师11，446-450。6. Zuk，O.，Hechter，E.，Sunyaev，S.R.，和Lander，E.S.（2012年）。遗传力缺失之谜：遗传相互作用创造了幻影遗传力。Proc. Natl. Acad. Sci.USA 109，1193-1198.7. 马丁，A.R.，Gignoux，C.R.，沃尔特斯，R.K.，Wojcik，G.L.，尼尔，B.M.，Gravel，S.，戴利，M.J.，哥伦比亚特区布斯塔曼特还有肯尼，E.E.（2017年）。人类人口统计学史影响不同人群的遗传风险预测。Am. J.哈姆。Genet. 100，635-649.8. Lachance，J.，和Tishkoff，S.A.（2013年）。《群体遗传分析中的SNP确定偏差：为什么它很重要，以及如何纠正它》，生物论文35，780-786。9. Kim ，医学硕士， Patel ， K.P. ， Teng ， A.K. ， Berens ， A.J. ，和Lachance，J.（2018年）。遗传性疾病的风险在全球人群中可能被错误估计。Genome Biol.19，179.10. 李，S.，Abecasis，G.R.，Boehnke，M.，和Lin，X.（2014年）。稀有变异关联分析：研究设计与统计检验。Am. J. Hum. Genet. 95，5-23。11. Buniello ， A. ，麦克阿瑟， J.A.L. ， Cerezo ， M. ，哈里斯， L.W. ，Hayhurst，J.，马朗贡角，McMahon，A.，Morales，J.，Mountjoy，E.，Sollis，E.，等人（2019年）。已发表的全基因组关联研究，靶向阵列和汇总统计的 NHGRI-EBI GWAS 目录 2019 。 NucleicAcidsRes.47（D1），D1005-D1012。12. Visscher，P.M.，北卡罗来纳州雷，张，Q，Sklar，P.，麦卡锡，MI，布朗，硕士，和Yang，J.（2017年）。 10年GWAS发现：生物学，功能和翻译。Am. J.哈姆。Genet. 101，5-22。13. 威尔金森，医学博士，Dumontier，M.，Aalbersberg，I.J.，阿普尔顿，G.，Axton，M.，Baak，A.，Blomberg，N.，Boiten，J.W.，da SilvaSantos，L.B.，伯恩体育会开放获取短文8Cell Genomics1，100005，2021等（2016）。FAIR科学数据管理和管理指导原则。Sci.数据3，160018。14. 麦克拉伦，W.，吉尔湖，亨特，S. E.，Riat，H.S.，Ritchie，G. R.，Thormann，A.，Fli-cek，P.，和Cunningham，F.（2016年）。Ensembl变量效应预测器。Genome Biol.17，122.15. Sim，N.- L.，库马尔，P.，胡，J，Henikoff，S.，Schneider，G.，及Ng，P.C. （2012年）。SIFT网络服务器：预测氨基酸取代对蛋白质的影响。Nucleic Acids Res.40，W452-W457.16. Adzhubei ， I.A. ， Schmidt ， S. ，佩什金湖 Ramensky ， V.E. ，Gerasimova， A.，Bork， P.，Kondrashov，A.S.，和Sunyaev，S.R.（2010年）。一种用于预测破坏性错义突变的方法和服务器。Nat.Methods 7，248-249.17. Rentzsch，P.，Witten，D.，库珀，通用汽车公司，Shendure，J.，和Kircher，M. （2019年）。CADD：预测整个人类基因组中变异的危险性。Nucleic Acids Res.47（D1），D886-D894.18. Yu，B.，de Vries，P.S.，梅特卡夫，佐治亚州，王志，Feofanova，E.V.，刘，X.，Muzny，D. M.，Wagenknecht，L.E.，吉布斯，R.A.，莫里森，AC，和Boer-winkle，E.（2016年）。血清氨基酸水平的全基因组序列分析。Genome Biol.17，237.19. 金，D.，Basile，A. O.，邦湖，Horgusluoglu，E.，李，S.，里奇医学博士Saykin，A.J.，和Nho，K.（2017年）。罕见变异关联分析的知识驱动分箱方法：应用于阿尔茨海默病的神经成像生物标志物。BMC医学通知。戴西斯麦17（suppl 1），61.20. Pujar，S.， Farrell，C.M.，Loveland，J.E.，Mudge，J.M.，沃林角，Giro 'n，C.G.，Diekhans，M.，巴恩斯岛，贝内特河，等（2018）。共有编码序列（CCDS）数据库：由专家策展支持的人类和小鼠蛋白质编码区的标准化集合。核酸研究46（D1），D221-D228。21. deVries，P.S.，Yu，B.，Feofanova，E.V.，梅特卡夫，佐治亚州，布朗先生，泽伊-阿米，A.L. ，刘，X. ，Muzny，D. M.，吉布斯，R.A.，Boerwinkle，E.，莫里森，A.C.（2017年）。血清肽水平的全基因组测序研究：社区动脉粥样硬化风险研究。Hum.摩尔Genet. 26，3442-3450。22. Gilly，A.，Suveges，D.，Kuchenbaecker，K.，Pollard，M.，索瑟姆湖Hatzi-kotoulas，K.，Farmaki，A.E.，Bjornland，T.，瓦普尔斯河阿佩尔E.V.R.等人（2018年）。全群组深度全基因组测序和复杂性状的等位基因结构。国家通信9，4674。23. 他，Z.，徐，B.，Buxbaum，J.，和Ionita-Laza，I.（2019年）。全基因组序列数据分析的全基因组扫描统计框架。国家通信10，3018。24. Sarnowski，C.，Satizabal，C.L.，DeCarli，C.，Pitsillides，A.N.，洛杉矶的卡普勒斯Vasan，R.S.，威尔逊，J.G.，Bis，J.C.，Fornage，M.，Beiser，A.S.，等; NHLBI精准医学跨组学（TOPMed）联盟; TOPMed神经认知工作组（2018

下载后可阅读完整内容，剩余1页未读，立即下载