没有合适的资源?快使用搜索试试~ 我知道了~
技术GA4GH变异表示规范:变异表示和联邦识别图形摘要亮点d引入变化表示规范(VRS;发音为dVRS是一种用于表示生物分子变异的dVRS支持可计算的变化识别,支持联邦数据交换dVRS继续发展为GA4GH的开源、社区驱动的标准作者亚历克斯·H瓦格纳,劳伦斯·巴布,吉尔·阿尔特罗维茨,...,Andrew D.罗伯特·耶茨作者:Freimuth,Reece K. Hart通信alex. nationwidechildrens.org(A.H.W.),lbabb@broadinstitute.org(L.B.),reece@harts.net(R.K.H.)简言之Wagner等人报告了变异表示规范(VRS;发音为VRS是基因组(和其他组学)变异的表达性计算框架。该规范引入了一种用于可计算的变化识别的机制,支持联邦数据交换。Wagner等人,2021,细胞基因组学1,1000272021年11月10日-作者。https://doi.org/10.1016/j.xgen.2021.100027会会开放获取技术GA4GH变异表示规范:变异表示和联邦识别亚历克斯·H瓦格纳,1,2,25,*劳伦斯巴布,3,*吉尔阿尔特罗维茨,4,5迈克尔博迪斯,6马修刷,7丹尼尔L。卡梅隆,8,9梅丽莎克莱恩,10玛拉基格里菲斯,11奥比L。格里菲斯,11莎拉E。亨特,12岁的大卫·克雷达,13岁的詹妮弗·M。李,14斯蒂芬妮李,15哈维尔洛佩兹,16埃里克莫耶,17特里斯坦纳尔逊,18罗纳克Y。帕特尔,19凯文Riehle,19彼得N。罗宾逊,20岁肖恩Rynearson,21海伦Schuilenburg,12基里尔Tsukanov,12布赖恩沃尔什,7梅丽莎Konopko,15海蒂L。Andrew D. 12Robert R. 23岁的Freimuth和Reece K.Hart3,24,*1美国俄亥俄州哥伦布市俄亥俄州立大学医学院儿科2史蒂夫和辛迪·拉斯穆森基因组医学研究所,全国儿童3医学和群体遗传学,麻省理工学院和哈佛大学布罗德研究所,剑桥,MA 02142,美国4哈佛医学院,波士顿,MA 02115,美国5医学部,布里格姆妇女8生物信息学部,Walter和Eliza Hall医学研究所,澳大利亚9澳大利亚维多利亚州墨尔本市墨尔本大学医学生物学系10UC Santa Cruz Genomics Institute,Santa Cruz,CA 95060,USA11华盛顿大学医学院,圣路易斯,MO 63108,美国12欧洲分子生物学实验室,欧洲生物信息学研究所,Wellcome Genome Campus,Hinxton,Cambridge CB10 1SD,UK13哈佛医学院生物医学信息学系,Boston MA 02115,USA14Essex Management LLC和国家癌症研究所,Rockville,MD 20850,美国15基因组学与健康全球联盟,加拿大16Genomics England,London EC1M 6BQ,UK17国家生物技术信息中心,国家医学图书馆国立卫生研究院,Bethesda,MD 20894,美国18Geisinger Health,Danville,PA 17822,USA19Baylor College of Medicine,Houston,TX 77030,USA20Jackson Laboratory for Genomic Medicine,Farmington,CT 06032,USA21犹他州遗传发现中心,犹他大学,盐湖城,UT 84112,美国22基因组医学中心,马萨诸塞州总医院,剑桥,MA 02142,美国23美国明尼苏达州罗切斯特市梅奥诊所人工智能和信息学系个体化医学中心,邮编5590524MyOme,Inc.,Menlo Park,CA 94070,美国25电极导线触点* 通信:alex. nationwidechildrens.org(A.H.W.),lbabb@broadinstitute.org(L.B.),reece@harts.net(R.K.H.)https://doi.org/10.1016/j.xgen.2021.100027总结最大化基因组信息的个人、公共、研究和临床价值将需要遗传变异数据的可靠交换我们在这里报告的变异表示规范(VRS,发音为VRS提供了语义上精确的变异表示,并利用这种设计,使生物分子变异的联合识别与全球一致的和唯一的计算标识符。VRS框架包括术语和信息模型、机器可读模式、数据共享约定和参考实现,其中每一个都旨在广泛有用并可免费供社区使用。VRS由国家信息资源提供商、公共倡议和诊断测试实验室在全球基因组学与健康联盟(GA4GH)的赞助下合作开发介绍精准医学和当代生物医学研究越来越受到大规模、协调的基因组指导工作的推动。1通过基因组引导的诊断和临床决策支持,环境使得医疗保健提供取得了巨大的进步[13-16]然而,许多技术、财政和法律障碍阻碍了基因组科学在全球范围内的应用。为了应对这些挑战,全球促进性别平等联盟CellGenomics 1,100027,November 10,2021 <$2021作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取技术2Cell Genomics1,100027,2021VRS(发音为在这里,我们提出了共同使VRS不同于其他基因组变异规范和工具的关键概念(1) 计算表示:VRS是关于计算机如何描述和交换有关分子变异的数据一个仔细定义的术语和相互连接的数据结构允许计算精确表示的变化是完全可计算的。(2) 联邦识别:VRS被设计为从变异本身的性质中获得标识符;在匹配的RefSeq和Ensembl转录本上的相同变异在人类可读的命名中看起来不同,但在VRS中创建相同的计算标识符!这使得在许多独立的数据库中找到相同的变体变得更容易。(3) 表达性:VRS对象的模块化性质使得它可以直接表示简单和复杂的变化概念。VRS已经支持多种类型的生物分子变异,包括基因组、细胞基因组、转录物和蛋白质序列,并且在分子和系统水平上。这种表达性也使得VRS消息比其他一些变体规范更不适合人们直接阅读。(4) 上下文精度:VRS不会将变异上下文混为一谈或链接在一起;变异只能发生在一个序列上下文上(例如,GRCh38染色体)并且不同于比对序列背景上的类似变化(例如,来自GRCh37染色体的区域这使得VRS非常适合明确的表示,但也留下了连接上下文的开放挑战。框1.GA4GH变量表示规范(VRS)基因组学与健康(GA4GH)是作为一个政策制定和技术标准开发组织而成立的,目前包括医疗保健,研究,患者倡导,生命科学和信息技术领域的600多家领先组织。17,18GA4GH汇集了来自不同国际现实世界的专业知识,基因组数据共享驱动项目。这些驱动项目有助于特定领域的团队或工作流,以促进健康和基因组数 据 的 共 享 , 根 据 可 查 找 , 可 访 问 , 可 互 操 作 和 可 重 用(FAIR)原则。十八,十九确保精确基因组医学对个体和卫生系统有效,需要临床医生、研究人员和检测实验室可靠地交流基因组变异和相关信息。尽管已经存在针对某些类别变异的广泛采用的标准,但其中许多格式是针对特定应用而构建的,包括人类可读标准,例如人类基因组变异学会(HGVS)变异命名法,20国际人类细胞基因组命名法系统(ISCN),21和PharmVar药物遗传学命名法,22以及基因组导向的平面文件格式,例如变异调用格式(VCF),23等(表S1)。所有当前的标准都有设计约束,这些约束排除了对变体类型的全面覆盖和对新类型的可扩展性。为了满足这一需求,GA 4GH基因组知识标准(GKS)工作流领导了变异表示规范(VRS,发音为https://vrs.ga4gh.org在整个说明书和本手稿中,我们使用术语该非常宽泛的定义与常用术语“变体”形成对比,这种区别为VRS设定了范围,VRS补充了现有的变体表示标准,并为变体的计算表示而许多当前标准(例如,HGVS或ISCN命名法)被设计成适合人类的视觉解释因此,VRS比其他当代人类可读的变体表示更冗长,但更适合表达复杂的变体概念和适应新的变体类别。VRS是人类可读命名法的自然补充,用于交换来自数据库、临床报告或科学手稿的基因组信息。VRS目前涵盖了在连续分子上定义的许多种类的变异,例如单核苷酸变异(SNV)、多核苷酸变异(MNV)、插入缺失、重复和单倍型。这些类型的变异统称为此外,VRS提供系统变异概念包括基因产物表达、拷贝数变异和基因型(基因座上的等位基因或单倍型的集合)。VRS的发展集中在对生物医学研究和临床基因组学社区影响最大的变异类型上。VRS中的概念很容易用于描述具有线性染色体装配的生物体的变异(框1)。随着我们走向联合临床基因组学资源,24表达性计算变异表示标准的开发越来越重要。随着描述变化的系统数量的增加,用于描述变化的参考注释和注册标识符的多样性也增加这种增长强调了需要一个描述和识别变异的全球标准。在这里,我们描述了VRS的组成部分,以及它们在实现用于变异的功能和临床注释的资源联合系统中的用途。我们总结了关键组件,使精确和可扩展的表示与VRS的变化,包括底层的术语,信息模型,模式,和约定计算全球一致的标识符。Cell Genomics1,100027,2021年11月10日3会开放获取技术图1. VRS是一个由多层组件(蓝色实线框)组成的规范,每个组件都作为其上组件的基础。VRS提供了一个完整的端到端框架,框架的每个组件都可以由社区扩展成替代形式(灰色虚线框)。例如,VRS提供了基于术语和信息模型的JSON模式实现,但是相同的术语和信息模型可以用于在DTD、XSD、Google Protocol Buffers、Apache Thrift或其他数据验证框架中构建模式。VRS的这种模块化结构鼓励跨许多场景和社区的互操作性。设计为了实现精确且可计算的变化表示,VRS被设计为几个相互依赖的组件,包括术语和信息模型、机器可读模式、共享约定以及全局一致且唯一的计算标识符(图1)。这些组件允许规范解决多个用例并发展以适应社区的需求,并且在https://vrs.ga4gh.org上公开在线维护。总体而言,VRS提供了一个框架,独特的和语义上精确的表征变化。为了实现这一点,VRS对象被设计为序列CCTAC的残基2中的C> T转变)-而不是来自系统标识符的人呈递的记录(例如,clin-var:13961)。这种设计选择对于规范的每个组成部分都是基本的;对象是不可变的,并且具有由它们所包含的属性规定的特定含义。与VRS对象的含义无关的值,例如位置的名称(“chr 7”)或已知变量的标签(“BRAF V600 E”)不会直接在VRS对象中捕获,也不允许作为用户定义的字段添加到对象中。这种设计确保了变异概念在其构造中是一致的,并允许创建全局一致的标识符。VRS和其他GA4GH基因组知识标准的范围在临床实践中,有许多变异形式被分析和注释。这些变异形式由其描述的生物学现象、用于测量这些现象的测定以及用于将测定测量值转换为变异的方法形成(图S1)。VRS的主要目标是提供一个框架,用于可靠地表达关于这些多种形式的变化的信息,以用于计算机系统之间的交换。作为值对象,VRS对象仅包含变异实例的显著信息VRS对象不包含常规的转录物和染色体标识符、HGVS变体描述、基因名称、参考序列(其由变体的位置暗示)、对象间关系或任何其他形式的注释或解释。相反,注释和解释的表示是由实现来决定的。例如,不同的实现可能希望实现Ensembl、LRG和RefSeq转录本的本地偏好。实际上,VRS的一个关键设计目标是将变异的内在表示与关于如何向人类呈现变异的局部决策解耦。为了标准化变异的计算表示和人类表示之间的接口,GKS工作流正在开发用于可 互 操 作 的 多 言 交换 的 VRS 附 加 工 具 ( VRSATILE; 发 音 为https://vrsatile.readthedocs.io/许多公共变体注册表(例如,CIVIC,25ClinGen AlleleRegistry,11COSMIC,6和ClinVar3)在受控标识符下聚集多种不同的变体背景。例如,多个基因组组装体上的基因组变体、相关联的转录物变化和预测的蛋白质变化是每个变体背景,其可以全部在这样的资源中的单个“变体"ID下链接与转录本选择的本地首选项一样,VRSATILE使实现能够应用关于使用和呈现聚合变异集的VRS不支持表征或捕获描述实验条件的属性。这意味着VRS没有规定如何表示检测试剂盒的特征(例如,微阵列,全基因组测序,凝胶电泳),测量(例如,读取计数,信号强度),或样品特性(例如,样品倍性、克隆性、纯度)。为了支持这些病例以及其他生物学和临床证据,GKS工作流正在构建一个更大的框架来支持变异注释。正在开发《变化注释规范》github.com/ga4gh/va-specTILE框架。4Cell Genomics1,100027,2021会开放获取技术文字序列表达式N/Av1.2DerivedSequenceExpressionN/Av1.2重复序列表达式N/Av1.2用于定义特定的文字IUPAC字符用于定义由序列位置用于通过指定子序列的重复次数来定义特定序列细胞带间隔N/Av1.1SequenceIntervalN/Av1.2细胞遗传学间隔,使用细胞带命名法序列上由开始和结束坐标或坐标范围指定的间隔。表1. VRS对象对象类型标识符前缀VRS版本目的变化等位基因VA v1.0在特定位置的文本VT v1.0其他形式的变体(技术兼容性)VariationSet VS v1.1变体集合单倍型VH v1.1阶段性分子变异CopyNumber VCN v1.2绝对系统数量/拷贝数变异基因融合计划的概念,用于表示基因融合基因表达计划的系统变异概念,用于表示基因产物丰度与位置对应的基因型计划变异总结结构变异计划由序列源自非毗连地点位置SequenceLocation VSL v1.0在定义的IUPAC字符序列染色体定位VCL v1.1在定义的细胞遗传学区域上的位置序列表达间隔技术基础和建筑设计为了实现我们的目标,即制定一个精确的规范,以代表支持和计划的变更概念的多样性(表1),我们开发了VRS,通过设计可互换使用的最小标准构建块来进行扩展。例如,可以使用描述等位 基 因 在 序 列 ( SequenceLocation ) 或 染 色 体 区 域(ChromosomeLocation)上的位置的对象,以及用几个替代序列表达式之一描述的分子状态来构建等位基因(图S2)。序列表达也可以用作拷贝数变异的对象。未来的变异形式,如基因融合,可能会在新的构建体中使用这些相同的构建块。序列表达式是可扩展的,将来可能会根据需要扩展到其他形式,以支持社区案例。VRS使用语义版本控制2.0(sem-ver.org)的改编版本来区分包含新的向后版本的版本。包含向后不兼容更改(主要版本)的版本中的兼容特性(次要版本)。VRS的第一个主要版本VRS 1.0支持等位基因变异类和相关类型;随后的次要版本版本引入了其他类型的变异和支持它们的类(表1),所有这些都与以前的版本向后兼容。如果需要向后不兼容的更改来改进规范,则它们将在下一个主要版本中发布(即,版本2.0)以及从1.x版对象转换版本2.0。虽然VRS目前涵盖了许多常见用例,并继续发展(表1),但从业者可能需要VRS(尚未)支持的新类别的变化。为了满足这一需求,VRS提供了一个包罗万象的文本变体类。此类允许实现者使用文本来描述变体并生成计算标识符,从而处理Cell Genomics1,100027,2021年11月10日5会开放获取技术在与所支持的变化类别相同的框架内的新变化形式由于此类可能被滥用或误用,规范不要求实现支持文本变体。对于最终支持的文本变体,VRS将支持将未解析文本变体的特定实例升级为相同变体的结构化形式的概念。结果术语和信息模型由ISCN和序列本体论等社区权威机构提供信息的VRS术语和信息模型26是VRS模式的基础。科学界对生物学术语的定义可能是抽象的或故意模糊的,反映了由于我们对这些概念的理解有限而导致的不精确或不确定的措施有时,这会造成不同社区对术语的不同使用。例如,术语虽然人类可以很容易地从上下文中辨别出这些过载的定义,但抽象和模糊的术语并不容易转换为知识的可计算表示。因此,VRS开始于对生物概念的精确计算定义,这些定义对于表示生物分子变异是必不可少的。VRS信息模型规定了计算定义如何在语义上表示为相互关联的对象,以及值如何在字段中表示。VRS中的一个重要区别是单个所得分子的变异(“分子变异”)与涉及许多分子的聚集观察的变异(“系统变异”)之间的区别分子变异包括取代、插入、重复、串联重复、缺失、单倍型和结构重排。相反,系统变异用于描述基因表达变异、拷贝数增加/丢失变异和可能涉及系统内几个分子的基因型(计划的)基因组)。例如,HGVS 表达式“ N C _ 0 0 0 0 0 1 . 1 0 : g . (?_15764950)(15765020_?)dup’’然而,根据HGVS建议中的定义,重复同步税的使用这两个变异概念--分子上的串联重复和系统拷贝数增加--经常被模糊地描述,导致数据消费者对变异描述的潜在误解重要的是,VRS还保持了这两种语句类型之间的关注点分离;如果数据源打算指定串联复制并指定作为该复制的结果的系统拷贝数增益,则这些被表示为与该源的相应样本相关联的两个不同的变体对象。VRS的广泛采用将使系统能够适当地区分分子和系统拷贝数变化,从中衍生出人类可读形式(例如,CNV表示或HGVS重叠)。VRS使基因组数据提供者能够清楚地描述这两种类型的变异和其他几种常见的变异。概念这通过分子变异(等位基因、单体型)和系统变异(拷贝数)概念的类别的精确技术定义来实现。还定义了其他技术变量概念(变量集、文本)和支持这些变量类型的概念(位置、序列表达式和文本变化作为一个有用的机制,nism的临时表示的变体,否则还没有表示与VRS。我们正在积极开发的计划概念涵盖了其中的一些例子,包括结构变异、基因型和转录本位置(表1)。还提供了支持这些对象的基本概念的技术定义(CURIE[紧凑统一资源标识符]、余数、序列、数、定范围、不定范围)。Variation、Location、Sequence Expression和Interval都是可扩展的抽象基类(图2)。规范的这一特征使得模型能够扩展,例如位置类的重复使用不仅描述序列变异,而且描述由基因概念或细胞带描述的变异。类似地,虽然等位基因通常由序列位置(由残基序列上的间隔限定的位置)和文字序列(IUPAC字符代码27的字符串)组成,但较新的重复序列使得能够组成当表示为重复子序列时可能具有临床意义的等位基因,例如测量亨廷顿氏病中的CAG序列重复28除了文字序列和重复序列表达式之外,等位基因也可以由衍生序列表达式组成。派生序列表达式描述了从位置派生的序列;它们通常意味着被视为这方面的一个例子是描述几个重复酶区域的串联重复;而不是指定被重复的整个精确序列(包括SNV),可以通过使用衍生序列表达来完整地指定该区域的两个拷贝这些类的灵活性允许对许多常见形式的变化进行语义上精确的表示。机读模式为了便于信息交换,信息模型必须以结构化的消息语法实现VRS通过当前在JSON Schema中实现的模式指定其消息语法。然而,VRS信息模型可以容易地转换为其他模式框架(例如,DTD、XSD、Apache Thrift)。例如,VRS信息模型已经被实现为用于protobuf数据流的Google Protocol Buffers(pro-tobuf)消 息 结 构 ( 在 https://github.com/ga4gh/vrs-protobuf ) 。 使 用JSON Schema表示使数据消费者能够验证在系统之间传递的VRS对象。该模式定义了有效VRS对象的属性和相关值类型,并且它还包括相关属性的正则表达式验证(例如,紧凑URI和细胞带描述)。VRS存储库包括与语言无关的测试,用于确保下游实现中的模式遵从性。6Cell Genomics1,100027,2021会开放获取技术图2.信息模型VRS信息模型由几个相互依赖的数据类组成,包括具体类和抽象超类(由头部的abst>>原型这些类别可以大致分类为变异(绿框)、特征(蓝框)、位置(浅蓝框)、序列表达(紫框)和通用类型(灰框)的概念表示通用类型支持主要类,包括间隔、范围、数字和GA4GH序列字符串(未显示)。虽然所有VRS对象都是值对象,但只有一些对象是可识别的(变量、位置和序列)。类之间的概念继承关系由连接线表示。促进可靠数据共享的公约在术语、信息模型和模式的基础上,VRS还提供了关于VRS对象生成的推荐和必需约定,以最大程度地促进数据共享。虽然模式提供了消息的结构,但这些约定有助于评估和选择要在VRS对象中使用的值。VRS使用残基间坐标来指定序列位置,因为它们实现了基于残基的坐标系所不可能实现的概念清晰度。具体而言,残基计数坐标要求仅考虑插入坐标,但包括置换和缺失坐标(图3A)。因此,残基坐标的使用需要操作类型(插入/删除/替换)的知识,以便解释残基计数的通过选择残基间坐标系统,VRS能够构造位置对象,该位置对象具有单一的、不可变的解释,而不管变化上下文如何。术语“残基间坐标”经常与其他术语混淆,例如“基于0的坐标”或“半开坐标”。选择什么来计数-剩余位置与残基间位置对于将坐标的解释与变体类型分离是至关重要的选择一个数字系统是从0开始还是从1开始并不重要,并且将坐标描述为因此,尽管残基间坐标在某些位置上与其他坐标系在数值上等效,但我们强调,VRS严格基于残基间坐标,我们鼓励从业者采用这一术语和概念,以提高数据共享的保真度在表示序列变体时,存在许多模糊性来源。VRS消除了一些模糊性的来源,并最大限度地减少了那些由相互冲突的需求造成的模糊性。例如,虽然VRS消除了由于人类对分配的(而不是计算的)标识符的偏好而导致的歧义,但它不能完全消除由于能够将插入缺失变异和序列重复表示为第一类概念的冲突要求而导致的歧义。虽然这些概念之间存在语义差异,但相同的经验结果序列可以用多个变体表达式表示。Cell Genomics1,100027,2021年11月10日7会开放获取技术图3. VRS公约VRS提供了许多约定来精确描述和标准化分子变异。(A) VRS与其他基因组变体形式(如HGVS20和VCF23)之间的关键区别在于残基间坐标的使用。在该实施例中,相同的残基坐标(灰色阴影)用于模糊地描述发生插入的两个核苷酸之间残基间坐标(蓝色阴影)允许核苷酸或核苷酸间位置的精确表示,而不需要操作知识,将位置表示与变异表示解耦。(B) 在这里,三核苷酸插入(GCA)发生在一个重复的区域中,对于真实事件(第一行)实际发生的位置产生歧义。描述这种变体的三个系统被描述。在HGVS(第二行)中,选择最接近30的位置来表示插入。另一种HGVS表示法具有定义重复单元(这里是“AGC”)的最多30在VCF(第三行)中,选择最左边的插入点,并在前面加上一个“锚基”来描述插入。与这些其他系统相比,VRS(第四行)避免选择任意的过精确表示,而是使用覆盖整个模糊区域的全调整表示。(C) 启用完全对齐等位基因归一化通过指定的归一化算法。在该示例中,未标准化的等位基因只有得到的非空重复序列,然后递增地向右滚动以识别右边界(步骤3)。这些边界用于将模糊区域前置(步骤4,绿色序列)和附加(步骤4,橙色序列)到两个序列,从而产生标准化的、完全合理的等位基因(步骤4,蓝色序列)。规范化是将表示转换为规范形式的过程,11,29VRS采用完全合理的表示法(图3B)作为强烈推荐的惯例,确保重复区域中的插入和缺失不会任意位于序列中的特定位置,而是描述整个模糊区域的改变。这是通过VRS等位基因标准化(图3C;STAR方法)实现的值得注意的是,用于描述重复区域中的模糊插入缺失的标准化方法仅适用于文字序列表达等位基因。VRS和HGVS还提供了替代表示来定义这些区域中的特定重复序列;还指定了用于归一化VRS中的重复序列表达虽然我们强烈建议在大多数情况下使用VRS等位基因标准化(以及未来VRS对象的标准化规则在一些实现中,我们认识到存在一些罕见的情况,其中VRS对象的结构是足够的,但是用于归一化的一般规则不应当应用于变化表示。全局唯一计算标识符VRS提供了一种算法解决方案,用于从VRS对象确定性地生成全局唯一标识符。当对象相同时,VRS计算标识符的所有VRS计算标识符方案适用于VRS中的所有变体子类,并预期用于其他GA4GH规范,如Refget API规范。32除了变量子类之外,位置子类也是可识别的,因此可由全局计算标识符引用,尽管其他VRS类孤立地没有意义,因此不可识别。8Cell Genomics1,100027,2021会开放获取技术图4.计算标识符VRS通过计算标识符算法提供了一种用于联邦变体标识的机制。(A) 计算标识符算法被定义为三个阶段。首先,一个可识别的VRS对象,如等位基因(蓝色框),被转换成一个定义良好的和规范的序列化JSON表示。然后,序列化的二进制大对象(BLOB)通过SHA-512算法进行摘要,截断以仅保留前24个字节,然后使用base64 url进行编码然后将得到的摘要字符串(绿色文本)附加到对象类型标识符;对于等位基因对象,标识符前缀是然后,标识符被组装到ga4gh名称空间(橙色文本)下的紧凑URI(CURIE)中。(B) VRS框架的使用使得能够对具有不同HGVS描述的相同变化概念进行重复数据删除。在此,多个同义HGVS去表达指示基因组构建GRCh37和GRCh38上的变体、相应的转录物变体和预测的蛋白质翻译。这四个上下文(两个基因组组装、转录本和蛋白质)解析为四个不同的标识符,而不管使用哪个同义描述来构建VRS对象。省略号用于对象和字符串中的内容表示为表示简单而省略的内容VRS-Python实现为这里描述的所有操作提供了完全支持,包括HGVS和VRS格式之间的转换有关更多详细信息,请参见https://vrs.ga4gh.org/en/1.2/impl-guide/computed_identifiers.html。用于构建VRS标识符的算法由四个操作组成(图4A;STAR方法)。首先,使用VRS中定义的特定于类型的规则规范化VRS对象;规范化原则上适用于所有对象类型,以便标准化表示。第二,对象被序列化(即,转换为字符串),使用VRS中定义良好的规则,基于规范的JSON格式。第三,使用常见的SHA512散列算法创建序列化数据的摘要,并将输出截断为24个字节,随后使用IETF标准base64url字符集对其进行编码。最后,计算出的前缀由特定于类的标识符前缀(表1)和ga4gh名称空间前缀前置。标识符前缀旨在与底层数据模型和术语保持一致,从而提供对 所 描 述 的 对 象 类 别 的 透 明 性 , 并 且 类 似 于Ensembl/GENCODE转录标识符的ENST前缀的使用。使用24字节的摘要实际上保证了变体标识符的唯一性;例如,在一个假设的1018个对象的集合中,单个冲突的概率小于10- 21。33VRS变异标识符取决于构成变异对象的属性,包括参考序列身份。这与依赖于人类分配的加入物的变异形式形成对比因此,在同义登录上定义的语义上等同的变异对象将产生相同的VRS标识符(图4B)。VRS计算的标识符服从于任意参考序列,包括图谱基因组的专有序列或片段。VRS计算标识符算法通过允许计算流水线高效地且按需地生成可靠的私有标识符来避免对变体标识符命名空间的预先协商。这降低了分布式组共享和整理注释以及将计算标识符作为键的解释的障碍。实施和社区采用我们提供了一个Python包(VRS-Python34),它实现了上述模式 和 算 法 , 并 支 持 VRS 与 HGVS 和 Sequence , Position ,Deletion,Insertion(SPDI)29变体表示方案之间的转换,以促进基因组数据共享的快速采用对VCF翻译的支持VRS已被生物信息学界的几个主要机构采用,并正在进行评估,包括ClinGen等位 基 因 登 记 处 , NCBI , BRCA 交 换 和 VICC MetaKB 。 VRS(https://github.com/ga4gh/vrs)和VRS-Python(https://github.com/ga4gh/vrs-python)都在GitHub上公开提供,并在Apache v2.0许可证下维护。虽然VRS-Python可以用作Python开发的基础,但使用VRS并不需要它。VRS的其他社区实现已在C++中创建(表S2)。欢迎社区对这些存储库的反馈、请求和贡献,Cell Genomics1,100027,2021年11月10日9会开放获取技术鼓 励 。 文 档 是 从 VRS 存 储 库 自 动 生 成 的 , 并 可 在https://vrs.ga4gh.org/上在线查阅。讨论变异表示规范是GA4GH批准的标准,通过来自工业、政府和学术部门的变异表示专家和主要基因组数据提供者它旨在支持计算系统之间的基因组变异数据交换,重点是语义精度、可扩展性和惯例,以促进可靠的联合识别和搜索。VRS在GA4GH的支持下运作,通过广受宣传的开放论坛,包括定期工作组会议、GA4GH会议、邮件列表、GitHub和Slack,能够很好地收集和适应用户的需求。在其基础上,VRS提供了一个独立于消息传递协议或实现语言的技术选择的术语和这些组件的使用和将VRS对象设计为值对象的决定是一种新颖的变体表示方法,该方法为数据消费者提供了必要的工具,以可靠地发送和重构给定变体的不可变和精确的语义含义。重要的是,这只使用VRS对象中提供的最小信息内容来完成遵循语义版本控制使数据使用者相信VRS对象在语义上是一致的,并且与规范的任何未来v1.x扩展完全兼容。在发布VRS的主要版本时,还将发布工具以将VRS对象的先前主要版本转换为新的主要版本。此外,该术语是免费可用的、开源的,并且是许可的,简化了VRS对象的使用和除了信息模型之外,VRS还提供了一个模式和实现指南,以促进实现之间一致的变化消息。与语言无关的测试套件和开源VRS-Python参考实现是社区免费提供的关键工具,可以降低进入门槛。此外,VRS计算标识符算法通过生成唯一的计算标识符来实现用于交换基因组变异的联合网络。该算法由VRS信息模型和标准化约定支持,并且允许基因组数据提供者一致地识别变异,而无需在资源之间进行事先协商。这也使得作为联合网络的一部分的变化数据的自由交换成为可能,并减少了下游数据消费者的标准化负担。VRS的这些功能共同提供了一个互操作性框架,并通过不断增长的服务网络(具有实现的符合VRS的API端点)得到加强。该研究虽然通过VRS实现变异的精确、可计算表示的设计选择为基因组数据共享提供了新的机会,但这些决策也为基因组数据提供者带来了新的考虑,并给基因组数据提供者带来了额外的挑战。需 要 解 决 的 问 题 。 用 于 描 述 序 列 的 标 签 ( 例 如 ,‘‘NC_000001.11,’’ ‘‘chr 1,’’单个变体(例如,“SCV000504256”),或变化的集合(例如,“V C V 0 0 0 0 1 3 9 6 1 . 1 3 ”“ C A 1 2 3 6 4 3 ”“ rs 1 1 3 4 8 8 0 2 2 ”“ de l -taF508“)与用于构造VRS对象的最小信息无关,因此希望为这些概念提供描述器的资源必须将它们与VRS对象或可以检索这些描述的参考端点并行地传输。在实践中,使用VRS的GA4GH驱动程序项目发现,使用VRS对象来精确表示变化并将VRS对象包装在“值对象描述符”中以提供描述VRS对象的各种人类可读标签是可取的一个相关的挑战是,许多基因组变异登记处在单个标识符下聚集若干相关的变异背景。重用这些资源提供的标识符需要下游数据消费者从聚合上下文中分离标识符的意图,这是一个不平凡的工作。当试图整合来自多个来源的信息时,这一挑战变得更加复杂,这些来源为构建不同的上下文集做出了不同的选择。GA4GH GKS工作流正致力于为VRS构建完整的标准,以应对这些挑战。 在与GA 4GH驱动程序项目的密切合作中,我们正在开发一种用于从聚合变异标识符中选择和描述原始上下文的策略 , 该 策 略 类 似 于 其 他 社 区 策 略 , 例 如 NCBI 和 EMBL-EBI(MANE)选择转录本集的匹配注释(https://www.ncbi)。nlm.nih.gov/refseq/MANE/)上提供。我们还开发了一个正式的规范值对象描述符,在密切配合新兴的GA4GH变异注释规范。GKS还在研究在书面作品中附加和引用VRS对象的策略和框架,以使VRS计算变量表示的精确性和可扩展性能够伴随自然语言中的自由形式描述。这些政策以及围绕使用VRS的相关政策和工具正在VRSA-TILE框架中汇编,可在https://vrsatile.readthedocs.io/上查阅。结论作为基因组变异数据联合交换的规范和框架,GA4GH变异表示规范是精确的,可重复的,可扩展到所有形式的生物分子变异。它区分了序列位置和状态的不同关注点,并阐明了变异的分子和系统形式它还提供了一个集成的组件集合,用于描述、表示和验证系统之间的变化概念。最后,它伴随着来自主要基因组数据提供商的多个实现,包括开源和免费提供的参考Python实现。该规范的最新版本可在https://vrs.ga4gh.org/上免费获取以供参考。STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:10Cell Genomics1,100027,2021会开放获取技术d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本B. VRS开发过程B计划功能B项目领导评审B需求收集B需求讨论B功能开发B功能评论B版本审查和发布B领导BVRS等位基因归一化算法BVRS序列化程序d量化和统计分析B哈希冲突分析d额外资源补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2021.100027。致谢作者感谢克里斯托弗·比松(复兴计算研究所)、凯伦·艾尔贝克(犹他大学 ) 、 克 里 斯 蒂 娜 ·Y·Gonzalez , Tim Hefferon ( NCBI ) , Brad Holmes( NCBI ) , Anna Lu ( National Cancer Institute ) , Donna R. Maglott(NCBI),Christa Lese Martin(Geisinger)和Lon Phan(NCBI)进行了重要的讨论和重要的反馈,大大推进了这项工作。作者还感谢Ewan Birney(GA4GH,欧洲分子生物学实验室,欧洲生物信息学研究所),PeterGoodhand(GA4GH)和Angela Page(GA4GH)为这项工作提供的组织支持 。 A.H.W. 得 到 [K99HG010157] 、 [R00HG010157] 、 [R35HG011949] 和[U24CA237719]的支持。L.B.还有H.L.R. 是由[U41HG006834]和[U24HG011025]支持。M.B.由SIB SPHN的BioMedIT网络项目支持。M.C.得到[U01CA242954]的支持。M.G.得到[R00HG007940]的支 持 。 OLG 由 [U24CA237719] 支 持 。 S.E.H. H. S. , K.T. , 还 有 AD Y 由Wellcome Trust [WT 108749/Z/15/Z]和[WT 201535/Z/16/Z]以
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功