没有合适的资源?快使用搜索试试~ 我知道了~
全球WAS汇总统计标准和共享:开放获取透视的讲习班记录
会~~开放获取透视讲习班记录:全球WAS汇总统计标准和共享Jacqueline A.L.MacArthur,1,2,* Annalisa Buniello,1Laura W. 哈里斯,1詹姆斯海赫斯特,1奥伊夫麦克马洪,1埃利奥特索利斯,1玛丽亚塞雷佐,1佩吉霍尔,3伊丽莎白刘易斯,1帕特里夏L。 1OrliG. 1999年,巴考尔(Bahcall),4,巴罗索(Barroso),5,罗伯特J. 卡罗尔,6迈克尔井上,7,8,9泰瑞A。Manolio,3Stephen S. Rich,10Lucia A.欣多夫,3肯威利,3和海伦帕金森1,*1欧洲分子生物学实验室,欧洲生物信息学研究所,Wellcome Genome Campus,Hinxton,英国2BHF数据科学中心,英国健康数据研究中心,英国3美国国立卫生研究院国家人类基因组研究所基因组医学部,Bethesda,MD 20892,USA4细胞基因组学,细胞出版社,50汉普郡街,地址:5th Floor,Cambridge,MA 02139Exeter Centre of Excellence in Diabetes(EXCEED),University of Exeter Medical School,Exeter,UK6美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系7Cambridge Baker Systems Genomics Initiative,Department of Public Health and Primary Care,University of Cambridge,Cambridge CB18RN,UK8Cambridge Baker Systems Genomics Initiative,Baker Heart and Diabetes Institute,75 Commercial Rd.,Melbourne 3004,VIC,澳大利亚9英国伦敦艾伦图灵研究所10弗吉尼亚大学公共卫生基因组学中心,Charlottesville,VA 22908,USA* 通信:jackie. gmail.com(J.A.L.M.),parkinson@ebi.ac.uk(惠普)https://doi.org/10.1016/j.xgen.2021.100004总结全基因组关联研究(GWAS)已经能够对人类的复杂性状进行强大的定位开放共享GWAS汇总统计数据(SumStats)对于促进更大规模的荟萃分析至关重要,这些分析需要提高解决疾病遗传基础的能力然而,大多数GWAS SumStats由于共享有限和缺乏定义的标准而不易访问为了提高GWAS SumStats的可用性,质量和实用性,国家人类基因组研究所-欧洲生物信息学研究所(NHGRI-EBI)GWAS目录组织了一次社区研讨会,以解决促进和实现共享所需的标准,基础设施和激励措施我们评估了SumStats共享的技术和社会障碍,并制定了一项行动计划来应对这些挑战,并确保SumStats和研究元数据可查找、可访问、可互操作和可重用(FAIR)。我们鼓励尽早将数据集存放在GWAS目录中作为公认的中心存储库。我们建议对SumStats的报告元素和格式以及附带的元数据提出标准要求最后,我们提出了一些建议,以促进和激励更广泛的数据共享,标准和公平性,以推进基因组医学。介绍全基因组关联研究(GWAS)在绘制常见疾病或性状的遗传基础方面取得了巨大进展,1,2其中遗传易感性在数千种最常见的变异中共享,对人群风险的影响不大。自2005年以来,3个GWAS已成功鉴定了数千个与常见疾病显著相关的基因组区域,在2型糖尿病(T2D)4和冠状动脉疾病中取得了显著成功。5此方法于二零二零年冠状病毒病(COVID)全球大流行开始时成功应用,新建立的国际合作推动COVID-19全球WAS,并公开所有数据。6GWAS数据集越来越多地公开共享,这些数据集被广泛用于进一步的基础研究以及翻译,包括药物发现管道。7已发表的GWAS数量持续增加,2021年首6个月新增265篇,而2019年同期为209篇。 此外,数据的复杂性和规模也在增长。这包括由前瞻性队列和生物库驱动的更大样本量的询问。研究还越来越多地在单个出版物中包括更广泛的数据类型,具有深度表型或健康信息,包括更新的组学表型(例如,脂质组学、蛋白质组学、代谢组学等)。8-13密集插补面板增加了分析的变体数量,典型的GWAS现在包括超过800万个变体。GWAS分析CellGenomics 1,100004,October 13,2021?2022 The Authors.1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取透视2Cell Genomics1,100004,2021各种方法也开始应用于全基因组测序数据,14有可能大大增加基因组的覆盖范围,并纳入罕见的变异。建立GWAS目录15的目的是为通过GWAS识别的变异-性状关联提供一个中央存储库,作为研究的起点,GWAS数据集由研究社区提交,并通过同行评审文献进行识别,然后由GWAS目录管理员根据透明标准进行管理和注释,并通过用户友好的基于Web的搜索界面提供。截至2021年6月,该目录包含超过5,000种出版物,其中包含超过20,000个单独的GWAS,有超过250,000个顶级协会(p 13 10- 5)。向下-平面文件和一个代表性的状态转移应用程序,远程编程接口(REST API)提供了对数据的灵活访问。来自GWAS目录的数据是开放共享和可重用的,这使得可以集成到许多其他参考数据库中,例如Ensembl和Open Targets资源。GWAS SumStats定义为分析的每个变体的聚合p值和关联数据。GWAS SumStats的公共共享通过2018年国家人类基因组研究所(NHGRI)基因组数据共享政策的更新获得了支持(网络资源)。SumStats共享极大地提高了GWAS数据集的实用性,除了性状多效性、表型组扫描、多基因风险预测和孟德尔随机化之外,还可以对不同的祖先进行更广泛的荟萃分析和优化。十六,十七作为对社区对SumStats需求的回应,2018年,GWAS目录开始识别由其他位置的作者公开和免费提供的SumStats,并托管目录中的SumStats。自2020年6月起,也接受作者的直接提交。SumStats很容易在GWAS目录搜索界面中找到,根据分类、特征或其他搜索术语。文件可以从ftp网站下载我们的标准格式15,也可以通过专用的所有数据都是免费提供的,没有限制或注册要求,与相关资源(如基因型和表型数据库(dbGaP))提供的受控访问相反。在过去的2-3年里,GWAS目录在GWAS SumStats的共享和下载方面都有了急剧的增长SumStats可用于2020年出版的出版物中的22%,并在GWAS目录中表示,而目录出版物的总体比例为9%。2020年前6个月,GWAS Catalog SumStats的下载量是2019年同期的3倍。尽管有这种转变,大多数GWAS出版物仍然没有公开他们的SumStats,无论是在GWAS目录还是其他地方。18有限共享的原因包括技术挑战、对数据滥用的关切、隐私关切, 19以及认为缺乏适当的储存库。此外,对于那些共享GWAS SumStats的人来说,他们通常不会提交到集中的存储库,而是只能在分散的以项目为中心的网站上提供,以一系列不同的格式呈现,并且在很大程度上缺乏丰富的,可搜索的Meta数据。数据缺乏集中的数据库和数据内容和格式的全球标准,给用户带来了挑战,他们必须在分析之前找到、协调、组织和管理数据。我们召开了一次社区研讨会,讨论促进和实现SumStats共享所需的标准、基础设施和激励措施。在研讨会期间,我们评估了SumStats共享的技术和社会障碍,并制定了一项行动计划来应对这些挑战,如下所示:1. 确保SumStats和研究元数据可查找、可访问、可互操作和可重用(FAIR)20,并与用户社区相关2. 建立报告GWAS SumStats和元数据3. 确定鼓励分享SumStats在这里,我们回顾了GWAS SumStats标准和共享研讨会程序和社区讨论。我们报告了我们的建议和计划实施,以实现GWASSumStats的广泛共享并确保其公平性。我们的建议包括及时将数据集存入GWAS目录,作为公认的中央存储库,以及报告元素和格式的标准。车间组织为确保科学界的广泛投入,讲习班与会者的挑选要体现利益攸关方空间和SumStats用户的多样性(图1)。会议主席是根据他们的专长和与研讨会目标相一致的兴趣邀请的。每次会议的目标都由会议主席、GWAS目录和NHGRI计划主任商定。在研讨会之前,与与会者分享了一项在线调查,以评估社区对数据共享和SumStats内容访问、基础设施和激励的阻断剂的需求和意见该研讨会于2020年6月1日和2日通过网络研讨会举行。每天约有50人参加。Teri Manolio以GWAS目录的历史和未来作为研讨会的开幕词。研讨会的其余部分围绕六个主题进行:数据内容,公平,共享激励,基础设施要求,数据更新周期和前瞻性。GWAS目录小组的一名成员在相关会议上介绍了调查结果,以推动讨论并促进决策。研讨会前的简报文件、完整的调查结果、议程 、 与 会 者 和 会 议 视 频 可 在 GWAS 目 录 网 站(www.example.com)上获得 https://www.ebi.ac 。uk/gwas/docs/sharing-standards-workshop)。讲习班记录数据内容本次会议由Ine^sBarroso主持,旨在确定GWASSumStats数据内容和格式的要求,同时考虑利益相关者的需求我们一致认为,数据内容和格式要求必须在获得数据之前就知道Cell Genomics1,100004,2021年10月13日3会开放获取透视图1. 研讨会与会者(A和B)按利益攸关方类别(A)和GWAS SumStats计划使用情况(B)分列的讲习班与会者细目,共有37名讲习班与会者(35名计划使用)完成了讲习班前调查。与会者能够选择多个利益相关者类别和计划用途。收集(最好是研究开始),以确保数据可用并同意共享。这些要求的设计应最大限度地提高内容和实用性,最大限度地减轻数据提供者的负担,并考虑到某些研究类型在获取数据方面缺乏可行性。他们还应该对隐私问题、不同用户和研究参与者的问题敏感。格式应该灵活,以便在同一文件中包含单个或多个GWASSumStats。对于SumStats的首选文件格式(平面文件或变量调用格式[VCF])21存在不同意见,这取决于用例和利益相关者的需求(见方框1,研讨会建议8,“数据内容和格式”工作组)。我们同意GWAS SumStats(表1)的初始标准报告元素集,该元素集基于工作前调查(网络资源)和研讨会讨论的结果强制性报告要素应包括p值和变体ID或基因组位置(加上基因组构建)、15个效应等位基因、其他等位基因、效应大小(比值比或β)和标准误(表1;方框1,研讨会建议5)。讨论了代表变体的替代方式,因为认识到使用参考SNP ID(rsID)或基因组位置并不便于明确鉴定所有变体。与会者还建议,变异体表示应符合全球基因组学与健康联盟(GA4GH)标准(https://vrs.ga4gh.org/en/stable/),并能够表示单倍型。还有人指出,该标准应具体规定每一数值所需的详细程度,例如,有效数字的BER。尽管SumStats的共享对参与者的隐私构成低风险我们一致认为,根据特定研究标准确定潜在风险,并提供如何最大限度降低风险的指导。有人建议,对于已确定敏感数据集的研究,数据共享的要求可能有所不同:例如,通过不要求共享研究特异性次要等位基因频率(MAF)或减少p值所需的小数点,可以减少鉴定。公平在Robert Carroll主持的会议期间,我们确定了FAIR指标,这些指标可用于评估GWAS数据是否符合FAIR指导原则,并考虑到用户的需求(表2)。我们讨论了哪些指标已经得到满足,哪些地方需要改进我们一致认为,在向数据库提交数据集时以及在期刊上发表研究之前,必须为SumStats提供唯一且持久的登录ID。这允许期刊检查数据集是否可访问,以及是否在出版物中包含登录ID对于SumStats的报告,大多数与会者同意以下Meta数据元素应是强制性的:样本量(包括病例/对照数量)、样本血统、插补方法和参考面板、协变量、特质测量(例如,自我报告与临床诊断),样本纳入/排除,额外的群组描述符(例如,群组名称),分析计划(例如,模型和软件)、基因分型/测序技术、次要等位基因频率截止值、性状质量控制和分析的变体与会者讨论到,存在仅满足最低要求的动机;因此,这些要求应包括所有有用的信息;否则,这些数据可能无法共享。对于首选的元数据格式存在不同的意见,要么合并到Sum-Stats文件中,要么合并到一个单独的文件中,这种格式需要进一步讨论。然而,与会者一致认为,使用标准文件表示元数据可能具有挑战性,因此,会非常有益许可证限制和关于限制哪些用途的透明度的缺乏可能是数据共享和可重用性的重大障碍。GWAS目录分析了2019年和2020年的出版物,其中由于某种形式的限制,汇总统计数据没有通过目录无限制地共享。4Cell Genomics1,100004,2021会开放获取透视置信间隔ci下限任择框1.讲习班关于分享全球WAS汇总统计数据的建议我们建议采取这些措施,以实现更广泛的GWAS SumStats共享,并确保SumStats和研究元数据是公平的。这些建议是由组织者和会议主席汇编的,其中包括研讨会期间收集的反馈意见和研讨会前调查中收集的更广泛社区的反馈意见。1. 建立GWAS SumStats的综合性中央资源我们建议为所有GWAS建立一个全面和可持续的资源,并建议将GWAS目录视为所有人类GWAS的中心资源。2. 将所有GWAS SumStats提交到GWAS目录GWAS SumStats和支持元数据应提交给表1. GWAS SumStats推荐的标准报告要素数据元素列标题必需/可选p value p_value必填other allele other_allele必填在 向期 刊和/ 或 预印 本服 务器 提交 稿件 时, GWAS目 录。GWASSumStats的登录ID应在相关手稿和任何其他相关文件中引用。影响(赔率比率或β)odds_ratio或beta强制性材料3. 促进或要求提交GWAS目录置信区间上限ci_upper可选我们呼吁期刊编辑、资助者和队列代表支持或要求尽早提交GWAS目录,向作者指出GWAS目录并期望在期刊提交之前提交(期刊编辑)或作为样本使用的要求(队列代表)或资助(资助者)。4. 确保GWAS SumStats和元数据符合FAIR指标GWAS SumStats 应 遵 循 FAIR 指 标 ( 表 2 ) 。 这 些 FAIR 指 标 将 被GWAS目录采用。5. 采用GWAS Sum- Stats的标准格式和元素GWAS SumStats应包括这些标准元素:变异ID或染色体加碱基对位置、p值、效应等位基因、其他等位基因、效应等位基因频率、效应(比值比或β)和标准误(表1)。6. 数据应进行版本控制并链接到相关资源GWAS SumStats,并应对附带的元数据进行版本控制,以使用户能够识别最新的数据集。GWAS目录将开发数据更新和版本控制策略以满足这些需求。从GWAS SumStats和元数据链接到其他数据库中的相关数据集(例如,dbGaP、EGA、BioData Catalyst和AnVIL)。GWAS目录将改进与相关数据库的交叉链接。供进一步讨论的领域:7. 多样性和隐私为了确保目录能够满足所有研究的需求,包括那些具有更敏感数据集或替代研究设计的研究,我们将召集工作组收集更多证据并确定所需的其他功能。我们建议,在出于隐私或监管原因需要时,对确定为敏感的数据集考虑不同的数据共享要求。我们正在召集一个工作组,就沟通和降低与共享SumStats相关的风险提供指导(“多样性和隐私”工作组)。8. 数据内容和格式为了进一步评估和最终确定元数据内容、变体识别和文件格式要求,包括与一个地区的多个变体进行关联测试,我们正在召集一个工作组如果超过50%的研讨会前调查答复者表示愿意,则建议数据要素为强制性的。a我们同意应支持其他变体ID格式。这些标准的实施将由“数据内容和格式”工作组负责研究或许可证限制。这些限制中有许多是以参与者或队列为中心的,反映了保护研究参与者的尝试,例如,对试图识别参与者的限制,可能导致污名化内部或团体的研究,或将数据用于商业目的。与会者一致认为,有一个“推荐许可证”将是有益的,另一方面,一些数据生成器强加了以发布者为中心的限制,这在本质上限制了重用,例如,通过禁止重新分发。对于不愿意在没有此类限制的情况下进行共享的数据生成者,如何克服这些障碍将在下面的激励共享会议部分中进行更详细的讨论我们还一致认为,需要改进数据库之间的联系,例如,将同一组群或样本集的不同储存库中的不同数据集联系起来(见方框1,研讨会建议6)。激励分享这次会议由Orli Bahcall主持,目的是确定GWAS数据共享的障碍,并确定克服这些障碍的战略,包括确定数据共享的激励措施。根据她在开发数据共享程序和与广泛的GWAS生产者合作的经验,她提出,在想要共享数据集但面临挑战的GWAS生产者和那些从一开始就不愿意共享的GWAS生产者之间,共享的障碍和GWAS生产者所面临的大多数挑战都可以通过数据共享来减少或消除,变量id染色体碱基对位置变量标识染色体碱基对位置一种形式的变体ID是强制性的,rsID或染色体,碱基对位置和基因组构建一个effect allele effect_allele必填效应等位基因频率effect_allele_必填频率标准误差standard_error必需Cell Genomics1,100004,2021年10月13日5会开放获取透视表2.公平指标核心公平原则公平原则FAIR指标可发现F1.(Meta)数据被分配一个全局唯一的,每个GWAS都被分配了一个唯一的标识符,持久标识符通过IDENTIFIERS.org外部解析,全球运动号F2。使用丰富的元数据(由下面的R1定义)描述数据每个GWAS都由“建议的元数据标准报告元素”中列出的元数据元素描述F3.元数据清楚明确地包括元数据包括登录ID,并链接到它所描述他们描述的GWAS SumStatsF4。(Meta)数据在可搜索的GWAS可通过登录资源ID、性状、出版物、作者或基因座(变体、基因、细胞遗传学或chr:bp-bp区域)可访问A1.(Meta)数据可通过其标识符使用可以在GWAS目录Web上轻松查看元数据标准化通信协议接口,每个GWAS都有一个特定的页面,可访问通过包含登录ID的稳定URL,带有SumStats元数据的下载链接,可以从GWAS Catalogwww.ebi.ac.uk/gwas/docs/api)使用登录IDA1.1协议是开放、自由和通用的GWAS目录(https://www.ebi.ac.uk/gwas/)可实施网站和数据集对所有人A1.2协议允许认证,不适用必要时的授权程序A2.元数据是可访问的,即使数据不元数据将通过登录ID保持可访问,即使再使用如果SumStats不再可用。存档版本的GWAS目录元数据可用互操作I1.(Meta)数据使用正式的,可访问的,共享的,元数据可从GWAS Catalog REST广泛适用的知识表示API(https://www.ebi.ac.uk/gwas/docs/api)使用JSON格式I2:(Meta)数据使用遵循FAIR原则使用实验因子本体22术语表示性状,表示使用GWAS目录框架,23和所有变体(dbSNP登录ID),基因(HGNC符号)和染色体位置(基因组参考Consortium genome assembly GRCh38)使用公认的标准、词汇和命名公约I3.(Meta)数据包括对其他数据的限定引用(meta)提供相关外部数据的链接,例如,欧洲数据PMC,以及相关的GWAS目录数据,例如,性状和出版物页可重用R1(Meta)数据用多个准确且相关的属性每个GWAS都由“建议的元数据标准报告元素”中列出的元数据元素描述建议1.1.(Meta)数据以清晰和可访问的方式所有GWAS目录数据都可通过EMBL-数据使用许可证EBIhttps://www.ebi.ac.uk/about/使用条款/),提交的汇总统计数据为根据CC0(https://creativecommons.org/publicdomain/zero/1.0/)的网站上进行了介绍。R1.2.(Meta)数据与详细的出处每个GWAS都链接到一个源发布,通过数字对象标识符(DOI)或ID(PMID)R1.3.(Meta)数据符合领域相关社区标准元数据和SumStats是使用本次研讨会商定的标准提供的a我们为GWAS SumStats推荐的FAIR指标我们列出了每个核心FAIR原则和相关指标,并提供了如何在GWAS目录中实现它们的示例a全球WAS目录目前没有完全达到这一指标在本次研讨会上达成一致的数据标准需要对GWAS目录数据内容或格式进行扩展或修改,我们计划很快实施。6Cell Genomics1,100004,2021会开放获取透视存在一个合适的存储库,该存储库支持子数据集对于“不情愿”的数据共享者来说,原因可能主要与对数据共享的首先,有些人可能会因为高估了与分享SumStats相关的最低风险而望而却步19,24然而,关于隐私和去身份化问题,2018年NIH声明已经解决了这些障碍(见网络资源)。使这一问题更加复杂的是对同意和监管要求的关切;在参与者的同意协议是否允许共享SumStats方面可能缺乏透明度或明确性其次,尽管基因组学为生物科学的数据共享铺平了道路,并且是致力于开放科学的最进步的社区,但广泛的数据所有权文化仍在继续。这些数据生产者为了出版物和其他研究成果的竞争优势,对其数据保持私有或有限的所有权。通常可以通过提供有关社区需求和共享好处的明确指导、所涉及的最小隐私风险以及当前指导方针(网络资源)来增加“不情愿"组中的共享提供关于敏感数据集共享的个性化指导也是有益的,建议如何最大限度地减少这些研究参与者的风险;例如,通过控制访问或限制公共共享中包含的信息(见方框1,研讨会说明7)。‘‘Diversity and privacy’’ working期刊或资助者(NIH资助;网络资源)适用的法规是共享其他类型数据的常见激励措施。为了最有效,这些条例必须要求SumStats在生成后不久或最迟在期刊上发表手稿之前交存(方框1,研讨会建议2和3)。直到最近,这方面的障碍一直是缺乏适当的存储库,可以在出版前接受提交;然而,GWAS目录现在支持 这一点 ,并 在提交 时发布 登录ID 。这 一进展 允许CellGenomics要求自二零二零年五月起向期刊提交第一份手稿时在GWAS目录中存放,作为审查的考虑条件,以便数据集和访问可以在同行评审过程中进行审查25基础设施要求数据管理和存储的基础设施对于实现GWAS数据共享以及支持数据存放、托管和分发至关重要。在由Mike Inouye主持的本次会议中,我们旨在评估利益相关者的基础设施和数据托管需求。研讨会与会者建议建立一个GWAS数据的集中存储库或聚合器(方框1,研讨会说明1),以便于数据的查找、访问、标准化和向下游工具的数据传输(例如,LD集线器26和MR基座)。27在这个模型中,存储库充当中介机构,支持数据生成者提交数据和数据用户访问数据。这就提出了格式化数据的负担应该放在哪里的问题。大多数参与者认为,这一负担应由提交者承担,他们可以促进对提交数据的验证,以支持协调和下游用途。为了减轻这一负担,提交者的格式和验证工具至关重要,同时支持提交大量数据,在提交时提供登录ID,版本支持和免费使用的原型。对SumStats的用户来说,最重要的要求是获得统一的数据。这应该通过访问方法的灵活性来支持,包括跨SumStats的过滤,强大的API和数据集下载。虽然集中式资源有许多优点,特别是对于数据的用户,但由于对隐私或滥用的担忧,一些研究可能更喜欢或需要对数据集进行本地控制。然而,集中式资源内的受控访问也可以满足这些数据管理需求。我们将进一步考虑支持这些需求的最佳方式,并确保数据可供查找和访问,用于批准的用途(方框1,研讨会建议7,数据更新周期在Raymond Walters主持的本次会议上,我们讨论了GWASSumStats数据更新周期的要求,包括何时提交数据集以及如何处理更新和版本控制。我们一致认为,知识库的优先事项应该是处理即将在期刊上发表的研究的提交,包括作为预印本发布的手稿,并应包括提供登录ID,以便这些研究可以被纳入期刊出版物中(框1,研讨会建议2)。此外,共享来自与预印本或期刊出版物无关的GWAS的数据(例如,英国生物库分析由尼尔实验室www.example.com提供http://www.nealelab。()也越来越重要。从我们的一般观察来看,大多数SumStats在研究产生和发表在期刊上之间没有然而,随着时间的推移,可能会有一个初始版本,然后几个版本更新总和统计。这些数据集的提交者需要支持版本控制和添加元数据注释。版本控制需要允许用户识别和访问最新的数据集(SumStats和支持元数据)(方框1,研讨会建议6)。提交者还需要能够在必要时收回数据。撤销后,应保留登录ID和统一资源标识符(URI),并注明数据撤销。研讨会与会者还讨论了由于群组或数据控制者施加的限制而共享部分SumStats的问题。尽管研讨会与会者对队列对数据共享施加限制表示关切,但与会者一致认为,应接受部分共享,因为监管原因不可能完全共享。这些SumStats应标记为部分,除了版本,让用户知道,并鼓励提交完整版本。允许部分共享引起的担忧是,有些人会利用这一点来避免Cell Genomics1,100004,2021年10月13日7会开放获取透视在没有正当理由的情况下完全共享;希望定义共享建议(框1,研讨会建议2和7),包括关于风险和如何减轻风险的指导,将使队列领导者,资助者和期刊编辑能够应用法规(见共享的激励)。向前在StephenRich主持的这一会议中,我们考虑了替代GWAS设计和新兴技术的需求。为确保来自备选GWAS设计的数据具有可解释性,格式和内容共享要求(SumStats和元数据)必须考虑到不同的研究设计和技术(方框1,研讨会建议,第1工作组 对于大多数专注于测试与单一变量关联的GWAS,SumStats数据元素将具有可比性,研究设计的差异将被捕获为元数据。然而,GWAS测试与基因/区域中的多个变体的关联(使用负担/ SKAT-O测试)或SNP与SNP的相互作用将需要在SumStats标准中指定额外的信息。对每个所需数据项指定最低限度可接受的响应也很重要,例如,通过定义通过多项选择提供的结构化数据元素或定义应提供的最小小数位数。全基因组和全外显子组测序现在代表了用于GWAS的基于阵列的基因分型的可行替代方案。为了克服与通过测序鉴定的罕见变体的多次测试相关的降低的功效的问题,已经开发了统计方法来评估与区域中的多种遗传变体的聚集关联基因)。在对来自167篇出版物的GWAS目录数据进行的一项试点研究14中,我们发现汇总关联结果的报告研讨会与会者一致认为,有必要标准化这些聚合关联测试的报告,包括测试的执行方式和结果,包括有助于每个测试的变量集。我们一致认为,需要为来自GWAS的SumStats和元数据定义标准的报告指南,以测试与一个地区多个变体的关联作为“数据内容和格式”工作组的一部分,我们将进一步审查,以确定所需要素和标准格式的明确清单观在这里,我们报告了我们的建议,以实现GWAS SumStats的广泛共享并确保公平性。根据我们的分析、社区调查和研讨会,我们已经解决了实现SumStats共享的主要建议(方框1)。我们对社区采用的建议包括及时将数据集存放在GWAS目录中以及报告元素和格式的标准。我们正在工作组内继续讨论,以探讨和解决悬而未决的问题,并提出更多的建议。我们希望,这一集体工作将使广泛的数据共享不仅是为了GWAS的汇总统计数据,也是为了为其他正在进行的数据标准化和共享工作提供信息,28最终目标是推进基因组医学领域。致谢我们感谢研讨会参与者的参与和贡献,感谢社区成员完成研讨会前的调查,并感谢雷蒙德·沃尔特斯主持“数据更新周期”会议本出版物中报告的研究得到了美国国立卫生研究院国家人类基因组研究所的资助,资助编号为U41 HG007823,并得到了EMBL-EBI核心基金的支持。内容仅由作者负责,不一定代表官方观点美国国立卫生研究院。此外,我们感谢欧洲分子生物学实验室的资助。 讲习班主席 将获得下列 资金:‘‘Expanding excellence in England’’award from NIH奖R01 HL 105756 -08; R.J.C.,NHGRI奖U24HG010262。申报利益J.A.L.M.她的直系亲属是Illu Mina公司的员工和股东。P.L.W.受雇于一家对GWAS感兴趣的SME,但本出版物中描述的工作早于此雇用。WEB资源NHGRI-EBI人类全基因组关联研究目录(GWAS目录),https://www.ebi.ac.uk/gwasGWAS汇总统计标准和共享研讨会,包括研讨会前简报文件、完整调查结果、议程、与会者和会议视频,https://www.ebi.ac.uk/gwas/docs/sharing-standards-研讨会GWAS Catalogwww.ebi.ac.uk/gwas/depositionNIH基因组数据共享政策,https://grants.nih.gov/grants/guide/电子文件/NOT-OD-19 - 023.htmlNIH拨款促进癌症流行病学研究中的数据共享,grants.nih.gov/grants/guide/pa-files/PA-18-748.htmlGA 4GH变异表示规范,https://vrs.ga4gh.org/en/1.0/#:~:text=The%20Variation%20Representation%20Specification%20(VR,improve%20sharing%20of%20genetic%20信息。Ensembl,https://www.ensembl.orgOpen Targets,https://www.opentargets.org国际常见病联盟,https://www.icda.bio/引用1. Visscher,P.M.,北卡罗来纳州雷,张,Q,Sklar,P.,麦卡锡,MI,布朗,硕士,和Yang,J.(2017年)。 10年GWAS发现:生物学,功能和翻译。Am. J.哈姆。Genet. 101,5-22。2. Claussnitzer,M.,周,J.H.,柯林斯河新泽西州考克斯,Dermitzakis,E.T.,赫尔斯法医Kathiresan,S.,肯尼,E. E.,Lindgren,C.M.,D.G.麦克阿瑟等(2020年)。人类疾病遗传学简史。Nature577,179-189.3. Klein,R.J.,蔡司角,咀嚼,E.Y.,蔡俊英,Sackler,R.S.,海恩斯角,Henning,A.K.,SanGiovanni,J.P.,Mane,S.M.,Mayne,S.T.,等人(2005年)。年龄相关性黄斑变性中补体因子H的多态性 Science308,385-389.4. Vujkovic , M. , 基 顿 , J.M. , Lynch , J.A. , 米 勒 , D.R. , 周 杰 ,Tcheandjieu,C.,霍夫曼,J.E.,Assimes,T.L.,Lorenz,K.,Zhu,X.,等; HPAP大会;Regeneron遗传学中心; VA百万退伍军人计划(2020年)。发现318个新的2型糖尿病及其相关危险基因位点8Cell Genomics1,100004,2021会开放获取透视一项多血统荟萃分析中140万参与者的血管结局。Nat. Genet. 52,680-691。5. Koyama,S.,Ito,K.,Terao,C.,Akiyama,M.,Horikoshi,M.,Momozawa,Y.,Matsunaga,H.,Ieki,H.,Ozaki,K.,Onouchi,Y.,等(2020年)。人群特异性和跨祖先全基因组分析确定冠状动脉疾病的独特和共享的遗传风险位点。Nat. Genet. 52,1169-1177。6. COVID-19宿主遗传学倡议(2020年)。COVID-19宿主遗传学倡议是一项全球倡议,旨在阐明宿主遗传因素在SARS-CoV-2病毒大流行的易感性和严重性中的作用。EUR. J. Hum. Genet. 28,715-718。7. 纳尔逊先生Tipney,H.,画家,J.L.,沈,J.,Nicoletti,P.,沈,Y.,Floratos,A.,Sham,P.C.,Li,M.J.,王杰,等(2015年)。人类遗传学证据支持已批准的药物适应症。Nat. Genet. 47,856-860。8. 拜克罗夫特角,弗里曼,C.,Petkova,D.,班德,G.,埃利奥特中尉夏普,K.,Motyer,A.,Vukcevic,D.,Delaneau,O.,O'Connell,J.,等(2018)。英国生物库资源与深表型和基因组数据。Nature562,203-209.9. Gaziano,J.M.,Concato,J.,Brophy,M.,菲奥雷湖Pyarajan,S.,Breeling,J.,Whitbourne,S.,迪恩,J.,香农,C.,Humphries,D.,等人(2016年)。 百万退伍军人计划:一个大型生物银行,研究遗传对健康和疾病的影响。临床流行病学杂志。70,214-223.10. Nagai,A.,Hirata,M.,Kamatani,Y.,Muto,K.,Matsuda,K.,清原,Y., 二宫,T.,Tamakoshi,A.,Yamagata,Z.,Mushiroda,T.,等; BioBank日本合作医院集团(2017)。 BioBank Japan项目概述:研究设计和概况。J. Epidemiol. 27(3S),S2-S8。11. 史密斯,S. M.,Douaud,G.,陈伟,Hanayik,T.,Alfaro-Almagro,F.,夏普,K.,埃利奥特,L.T.(2021年)。英国生物库中脑成像表型的全基因组关联研究的扩展集。自然神经科学24,737-745。12. Sun,B. B.,Maranville,J.C.,彼得斯,J.E.,Stacey,D.,Staley,J.R.,布莱克-肖,J.,伯吉斯,S.,江,T.,佩奇,E.,Surendran,P.,等(2018)。人类血浆蛋白质组基因图谱。Nature 558,73-79.13. Canela-Xandri,O.,Rawlik,K.,和Tenesa,A.(2018年)。英国生物库中的遗传协会地图集。Nat. Genet. 50,1593-1599.14. McMahon,A.,Lewis,E.,Buniello,A.,Cerezo,M.,Hall,P.,Sollis,E., 帕金森,H.,欣多夫,洛杉矶,哈里斯,L.W.,和麦克阿瑟,J.A.L.(2021年)。基于测序的全基因组关联研究(seqGWAS)分析和报告标准建议。细胞基因组学1,100005-1-100005-9。15. Buniello , A. , 麦 克 阿 瑟 , J.A.L. , Cerezo , M. , 哈 里 斯 , L.W. ,Hayhurst,J., 马朗贡角,McMahon,A.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功