会开放获取社论GA4GH标准使人类基因组和生物医学数据全球基因组学与健康联盟(GA4GH)是一个标准制定机构,旨在促进研究和医疗保健领域人类基因组学和健康相关数据的国际共享,以推动基因组学和医学的发展。在细胞基因组学的这个特殊问题上,GA4GH的成员提供了一个全面的指导,他们的工作开发开源互操作的标准和政策框架,并在国际上实施这些计划。这些标准旨在提高数据集的公平性(可查找、可访问、可互操作和可重用),并灵活支持各种负责任的数据共享模型,包括中央或分布式数据库、云平台和联合网络。这是一个重要的里程碑,有助于以推动人类疾病研究、医学变革和确保所有社会受益所需的规模对生物医学数据集进行负责任的共享和综合分析我们采访了GA4GH执行领导团队的成员Ewan Birney,Kathryn North和Heidi Mr.M.,了解他们对GA4GH和全球数据共享的愿景,以推进基因组学和医学(见问答)。我们还参与了更广泛的GA4GH社区,要求来自整个社区的成员反思他们与GA4GH的参与,以及这如何有助于科学进步(见声音)。GA4GH标准已在国际上实施,通常与其他开放科学计划集成在不同的生态系统在预览中,Josh Denny和Chris Lunt提供了关于GA4GH的贡献的观点,以建立可互操作的标准和互惠性,从而能够分析飞地之外的数据集。在GA4GH标记纸中,Alfrem et al.描述组织、战略目标和框架。它们介绍了通过8个工作流程制定的技术标准和政策框架的可交付成果,它们描述了GA4GH如何与其他标准、工具和资源保持一致,以促进互操作性并最大限度地减少冗余。作者为在四个广泛的疾病领域实施基因组学提供了指导最后,作者描述了在现实世界的系统中实施互连标准的进展和计划。在一篇评论中,Thorogood等人提供了联合网络指南,包括在何处以及如何实施联合方法以共享基因组学和相关健康数据的考虑因素。GA4GH支持在有授权和足够资源共享但监管要求或技术障碍阻碍数据流的情况下采用联合方法。特别是,作者主张建立一个联合会,将国家基因组学计划联系起来,以建立全球精准医学资源。Dursi等人报告了加拿大基因组学分布式基础设施(CanDIG),这是一个国家基因组学医学联合数据平台。它们为GA4GH标准的实际实现以及构建联邦系统时的其他设计考虑提供了指南。精简数据在本期的四篇技术文章中,GA4GH成员报告了新的技术标准和实现。其中三项来自GA4GH数据使用和研究人员身份(DURI)工作流程,旨在开发数据授权和访问框架,以简化授予研究人员访问多个生物医学数据集的过程,跨数据库和国际位置,基于他们的凭据和研究目的。在这方面,DURI小组正在制定标准来定义研究人员身份和数据使用限制,这是数据访问审查的主要组成部分。Voisin等人报告了GA4GH护照标准,这是一种定义和传达机器可读数字身份和数据访问权限的标准化方法。护照签证捕获数据用户的身份验证凭证和数据访问权限,这些权限可能基于角色、从属关系或访问状态。护照与GA4GH认证和授权基础设施(AAI)标准一起使用,以验证数据使用者的身份。护照和AAI已在国际项目中实施,简化了数据访问权限的审查过程,实现了联邦系统,并提高了存储库之间的互操作性。访问多个数据集的另一个挑战是缺乏统一的数据使用条件,这往往取决于国家或组织的法规和政策、知情同意和其他数据共享协议。这些条件在数据集之间的高度差异,以及在定义允许的用例和分析方面缺乏标准化,使得识别合适的研究数据集(由研究人员)和监管其访问(由数据管理员或数据访问委员会[DAC])变得复杂Lawson等人报告了数据使用本体(DUO),这是一个标准的、机器可读的数据使用术语词汇表,它一致且明确地表示数据集引入此标准化词汇表可以实现直接匹配Cell Genomics1,100038,November 10,2021<$2021 1 1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放获取社论为数据集指定的数据使用条件与用户的预期研究用途之间的差异。DUO已在全球20多万个数据集的注释中实现,提高了它们的公平性。DUO术语的使用通过为预期的研究目的进行直接搜索来促进数据集的发现DUO还被用于研究项目的早期阶段,用于注释同意书,这对于更清晰地解释用例和更可靠的数据使用管理非常重要。为了使更多的数据访问审查过程自动化并减轻DAC的负担,Cabili et al. 开发了数据使用监督系统(DUOS),这是一个开源软件,利用DUO术语实现用户访问请求与数据集使用条件之间的自动匹配。在试点研究中,他们证明DUOS有效且准确地自动化了这一匹配过程。DUOS目前正在多个项目中实施,并显示出很大的前景,可以简化对数据访问请求的审查,减轻DAC的负担,从而简化和加快研究人员的数据访问程序交流基因组变异为了能够跨资源分析基因组数据,需要在研究人员、临床医生和测试实验室之间使用共享的全球计算标准进行可靠的通信,以描述和识别生物分子变异以及该变异的功能和临床意义。为了应对这一挑战,基因组知识标准(GKS)工作流专注于开发基于标准的组件,以实现参考基因组信息(包括基因组序列、注释和相关元数据)的精确和可靠交换。Wagner等 报告变异表示规范(VRS),这是一种可扩展的规范,提供生物分子变异数据的唯一和精确表示,用于支持计算机系统之间的交换。这补充了现有的变异表示标准,例如人类基因组变异协会(HGVS)或变异调用格式(VCF)的标准,其在变异类型的覆盖方面受到限制VRS也是第一个专注于计算精度而不是人类可读性的标准,因此能够代表更广泛的简单和复杂变化类别,并适应包括新的变化类别。VRS目前支持多种类型的生物分子变异,在分子和系统水平,包括基因组,细胞基因组,转录本和蛋白质序列。VRS还利用规范的计算精度来引入一种新的联邦识别机制这是使VRS变化更公平的关键特性;通过提供变化的值对象表示和用于创建联合标识符的相关方法,变化现在在计算上更可访问和可扩展,而无需资源之间的预先协商VRS是通过社区投入开发的,并继续发展,包括新的变异类别。公平、开放、不断发展这些技术出版物都代表了GA4GH批准的标准的当前版本,并由广泛的用户友好的实施指南和开源材料补充。至于所有GA4GH标准,这些标准是通过开放的开发过程开发的,并得到了Driver Projects和更广泛社区的广泛投入。这些标准仍在继续开发,团队直接在GitHub网站上接受开发请求,并通过参与GA4GH工作流。作者欢迎输入,以不断改进这些标准,以满足全球研究和临床社区的需求,并在更广泛的国际项目中提高生物医学数据集的公平性奥利湾巴赫考尔Cell Genomics主编https://doi.org/10.1016/j.xgen.2021.1000382Cell Genomics1,100038,2021