没有合适的资源?快使用搜索试试~ 我知道了~
技术日本队列BRCA 1和BRCA 2变异的联合分析图形摘要亮点d联合方法可以对隐私敏感数据联合共现使得能够进行新的BRCA基因型和表型评估d我们的联合方法可推广到其他基因、表型和文件格式d这一方法可应用于其他敏感数据分析,如家庭研究。作者James Casaletto,MichaelParsons,Charles Markello,Yusuke Iwasaki,YukihideMomozawa,Amanda B.梅利莎?克莱恩?斯普德尔对应jcasalet@ucsc.edu简言之Casaletto等人开发了容器化方法来分析敏感数据,而不会损害原始研究参与者的隐私。未分类的变异与已知的致病性变异的共同出现提供了良性的证据。这项研究作为一个概念验证,可推广到其他数据类型,文件格式和生物信息学分析。Casaletto等人,2022,细胞基因组学2,1001092022年3月9日,作者。https://doi.org/10.1016/j.xgen.2022.100109会会开放获取技术日本队列BRCA 1和BRCA 2变异的联合詹姆斯·卡萨莱托,1,4,*迈克尔·帕森斯,2查尔斯·马凯洛,1岩崎雄介,3桃泽幸秀,3阿曼达·B。Spurdle,2岁和MelissaCline1岁1加州大学圣克鲁兹分校基因组学研究所,邮政局:基因组学,加州大学,1156高街,圣克鲁斯,CA 95064,美国2QIMR Berghmann医学研究所,300 Herston Rd.,赫斯顿,昆士兰州4006,澳大利亚3日本横滨市鹤见区末广町1-7-22 RIKEN综合医学中心基因分型开发实验室邮编:230-00454引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2022.100109jcasalet@ucsc.edu总结目前,ClinVar中超过40%的种系变异是意义不确定的变异(VUS)。这些变体仍然未分类,部分原因是解释它们所需的患者水平数据是孤立的。联邦分析可以通过“将代码带到数据中”来克服这个问题我们通过对RIKEN的乳腺癌临床数据进行联合分析来测试这一原则,这些数据来自BioBank Japan存储库。我们能够在RIKEN的安全计算框架内分析这些数据,而无需传输数据,为解释几种这项工作代表了一种帮助实现全球基因组学与健康联盟(GA4GH)核心章程的方法:负责任地共享基因组数据,造福人类健康。介绍遗传变异如何影响人类健康的一个明显且经过充分研究的例子是BRCA1和BRCA2基因中的致病变异所带来的癌症风险致病性BRCA 1/2变异大大增加了女性乳腺癌和卵巢癌的风险(如综述所述)1,并赋予胰腺癌、前列腺癌和男性乳腺癌的显著风险(如综述所述)。1基因检测可以识别这些基因中的致病性变异,使个人及其家人能够更好地了解其遗传性癌症风险,并通过增加筛查、家庭成员级联检测以及降低风险的手术和药物治疗等策略1然而,这些风险降低策略不适用于发现携带不确定意义变异(VUS)的个体,VUS是一种罕见变异,没有足够的虽然个别罕见,这些VUS是集体丰富。截至2021年5月,全球领先的遗传变异临床意义资 源ClinVar 2换句话说,ClinVar 中大约40% 的BRCA 1/2独特变异没有明确的临床解释。与此同时,在个体中观察到了更多的变异,但尚未在ClinVar中观察到:基因组聚合数据库(gnomAD)3包括从基因组数据库中编译的另外35,635个BRCA 1/2变异。测序研究队列。非欧洲血统的患者更有可能收到BRCA 1/2检测的VUS检测报告,4这一差异主要源于遗传学研究中的历史偏倚。第五、六条VUS问题在很大程度上仍然存在,因为VUS是罕见的变异;没有一个机构可以轻易地收集足够的观察结果来进行可靠的变异分类。数据共享似乎是自然的解决方案,但它面临着后勤挑战。变异的解释通常需要一定量的病例来源的信息:患者及其家属的变异的临床观察以及他们的癌症史。然而,案例级数据是敏感和私密的,并且由于监管、法律和道德保护而很少能够直接共享7然而,正如全球基因组学与健康联盟(GA4GH)、8美国分子遗传学家学院(ACMG)、9和威康信托基金会等组织所倡导的那样,共享罕见遗传变异的数据对于推进精准医学至关重要。[10]幸运的是,大多数变异解释本身并不需要病例水平的数据,而是需要从这些数据中得出的变异水平的信息摘要ACMG/AMP变异解释指南11规定了解释遗传变异的证据形式,指出应使用变异水平的总结证据,包括人群频率(BA 1、BS 1、PM 2)、变异和疾病在患者家族中的分离(PP 1、BS 4)、病例对照分析(PS4)以及VUS与已知致病变异的顺式和反式观察(PM 3和BP 2,取决于CellGenomics 2,100109,March 9,2022?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取技术2Cell Genomics2,100109,2022失序)。我们需要的是一种从孤立的案例级数据集中获得这种变量级证据的方法,而不需要直接访问。联邦分析提供了这样一种方法。机构与外部合作者共享其病例级数据该机构在其队列中运行工作流程,生成不太敏感且可以更公开共享的变量级数据。这可以为变异解释提供有价值的证据,而12容器技术通过将软件及其所有依赖项捆绑到单个模块中来支持这种方法,以便在协作者的系统上直接安装和部署13这些技术包括Docker、14Singularity、15和Docker yter。16容器和工作流程可以在Dockstore平台上共享17,以便多个机构可以执行相同的软件,从而提高可重复性。我们开发了分析工作流程,以挖掘RIKEN乳腺癌患者队列中BRCA1和BRCA2的肿瘤病理学、等位基因频率和变异共现数据,这些数据来自BioBank Japan。18,19该分析允许评估来自队列的新变体解释知识,否则将无法获得。除了产生关于这些遗传变异的新知识外,这还产生了关于日本人群遗传学的新知识此外,我们已经推广了我们的容器方法,以处理任何基因型-表型数据组合。设计原则上,可以通过将受保护的基因组数据集传输到可信的第三方(例如安全云)来共享对该数据集的访问事实上,日本生物银行的数据是禁止匿名输出的。联合分析将数据安全地保留在适当的位置,而是将分析软件(其大小往往比研究队列小很多个数量级)移动到数据托管机构。我们将联邦分析软件设计为透明、模块化和可扩展的。分析软件创建多个报告,捕获数据质量、相关表型、等位基因频率和变异共现。任何分析数据集的研究人员都必须首先确保数据值被正确解释;当研究人员无法在本地与数据交互时尤其如此。第一个报告是数据质量报告,它通过提供基本统计数据(如最小值、最大值、平均值、众数和中位数)并报告任何缺失或未预期的数据值来满足这一需求。对于本报告,我们提供了一个JavaScript对象表示法(JSON)配置文件,该文件定义了每个感兴趣的字段,如此处肿瘤病理学文件内容所示该报告可用于检查任何分隔文件的数据质量此数据质量报告代表了一个通用解决方案,可用于其他数据集。文档S1包括数据质量报告的两个完整示例。我们生成的第二个报告是基因型-表型报告。该报告是可选的,仅当存在变体调用格式(VCF)文件和表型制表符分隔值(TSV)文件时才能运行此报告的目的是将样本的基因型和表型直接关联到同一记录中。文件S1包括基因型-表型报告的两个完整示例。第三个报告是变异频率和共现率报告。编写本报告的目的是总结按患者组(受影响组与对照组)分层的变异计数,以估计等位基因频率,并报告与复杂杂合基因型中的已知致病变异或本身为纯合基因型的VUS以反式方式该程序将VCF文件作为输入,并输出包含变体计数和共现变体信息的JSON文件。如果提供了相关的表型数据,那么我们的软件将这些表型数据与VUS报告中的基因型数据交叉。这需要使用制表符分隔的文件,字符串文档S1包括变异频率和共现报告的三个完整为了扩展报告功能和通用性,我们提供了集成和调用定制的、特定于域的报告的能力,该报告可用于识别已知域中的数据异常。此报告是可选的。在我们的研究中,我们利用这一功能来实现肿瘤病理学报告,在该报告中,我们计算了受体状态检测结果可用的所有乳腺癌中三阴性乳腺癌的数量和比例。该病理报告读取由样本标识符索引的制表符分隔的文件。即使这些样本标识符是匿名的,我们也不想冒在结果中暴露任何标识符的风险。我们的肿瘤病理学报告将相同的肿瘤病理学文件作为输入,并针对每个病理学特征输出按致病性变异状态分层的患者数量和比例的总结,以及用于比较的此外,该报告还比较了不同患者组诊断(和入组)时的平均年龄这可以扩展到测量基因和病理学数据的任何分层的统计。重要的是,这个可选的自定义报告可以独立地用于验证研究人员和合作者正在同等地阅读和解释数据。在联邦计算中,研究人员永远无法直接访问数据,因此如果研究人员和合作机构同意独立生成相同的报告,然后比较结果,则可以识别数据中的任何事实上,我们使用这个病理报告来验证我们的联合方法,并验证没有数据异常会妨碍我们的分析。虽然我们的研究重点是BRCA 1和BRCA 2基因中的VUS以及相关的肿瘤病理学,但该软件被编写用于处理任何基因型-表型组合的数据。在文献S1中,我们提供了一个如何通过评估MYH7基因中的VUS以及相关的心脏表型数据来评估心肌病遗传变异的示例。所有配置都作为命令行选项传递给程序,以定义基因名称、数据是否分阶段以及人类基因组版本Cell Genomics2,100109,2022年3月9日3会开放获取技术作为基因组坐标。此外,运行此代码所需的所有Python库都包含在Docker容器中。方法数据集我们的分析围绕着日本血统个体的病例对照关联研究数据。18、19这些数据保存在RIKEN,在该机构之外无法访问该数据集报告了与遗传性乳腺癌、卵巢癌和胰腺癌综合征相关的11个基因编码区的变异,包括BRCA 1和BRCA 2。此外,数据集报告了乳腺癌患者的肿瘤病理学,包括雌激素受体(ER)、孕酮受体(PR)和人表皮生长因子受体2(HER2)状态。该队列中的对照是在测序时至少60岁并且没有个人或家族癌症史的变体数据存储在VCF文件中,相关表型(病理学)数据存储在制表符分隔的文件中。本分析不需要其他文件。变异解释证据我们开发了Docker容器来收集两种形式的证据(括号中指定的ACMG代码)的数据:等位基因频率(BA1,BS 1)和变体共现(BS 2)。此外,我们使用BayesDel方法对预测的错义置换和插入-缺失变化进行了计算机模拟预测,以估计变异致病性(BP4,PP 3)20等位基因频率根据ACMG/AMP标准,在一个大的远交群体中变异的频率可以为变异解释提供三种不同形式的证据。首先,当观察到变异的频率远高于所讨论疾病的预期频率时,这是良性影响的强烈指标(BA1),以至于变异可以被认为是良性的,而无需任何进一步的证据。其次,当变异第三,当对照或参考人群数据集中不存在该变体时,其不存在代表可能有助于致病性解释的中度证据(PM2)11虽然gnomAD通常被用作人口频率的来源3.1 gnomAD 2.1 只 包 含 2,604 个 东 亚 基 因 组 的 数 据 , 而gnomAD2.1包含9,977个外显子组的数据21类似地,gno-mAD 2.1包含76个日本外显子组,而gnomAD 3.1中日本基因组的数量未知。因此,一个拥有数万个样本的日本生物库可能包含通过gno-mAD无法获得的额外证据。在考虑群体频率时,必须考虑样本的来源以及受疾病影响的个体是否可能存在于数据集中。因此,我们评估了gnomAD的非癌症子集和来自日本生物银行的对照样品 。 每 个 ClinGen 变 异 管 理 专 家 小 组 ( VCEP ) 确 定 将ACMG/AMP标准应用于其权限范围内的基因和疾病的精确规则,包括BA 1和BS 1证据的群体频率阈值。根据BRCAClinGenVCEP的拟定规则,BA1证据的阈值为等 位 基 因 频 率 大 于 0.001 , 而 BS 1 频 率 阈 值 为 0.0001 ( A.Spurdle,M.帕森斯,个人通信,2021年3月12日)。计算机模拟预测根据ACMG/AMP标准,如果多行计算证据预测变体将影响蛋白质功能或RNA剪接,则该观察结果可能有助于致病性解释(PP3)。相反,如果多行计算证据预测该变体将没有功能影响,则该观察结果可以有助于良性解释(BP2)。我们用BayesDel估计了该变体影响蛋白质功能的概率,BayesDel是一种元预测因子,已被证明优于大多数其他预测因子。23根据BRCAClinGenVCEP的拟议规则,BayesDel评分小于0.3预测良性解读,而BayesDel评分大于0.3预测良性解读。0.3 预示着一种致病的解释。24在反式共现在具有显性遗传模式的完全外显性疾病中,如果在没有疾病表型的个体中观察到VUS反式(在基因的相反拷贝上)与相同基因中的已知致病性变体,则该观察结果代表良性影响的迹象。对于BRCA 2(以及最近的BRCA 1),同一基因中两种致病性变体的共同出现与范可尼贫血相关,范可尼贫血是一种罕见的衰弱性疾病,其特征在于同源DNA修复活性缺陷、骨髓衰竭、早期癌症发作和预期寿命很少超过40岁。[25]因此,当观察到一个老年个体携带BRCA 1或BRCA 2VUS,无论是纯合基因型还是复合杂合基因型(与同一基因中的致病性变异体反一个警告是,大多数临床测序不报告相位;两个变体的任何单一共同出现可能是反式或顺式。然而,如果VUS与两种不同的致病性变体在两个不同的患者中共同出现,则可以假设这些共同出现中至少有一种是反式的。26基于这些临床观察,在已知或推断为没有范可尼贫血特征的个体中具有已知致病性变体的VUS纯合性或复合杂合性提供了针对致病性的强有力证据(BS 2)。23、25协作细节在开发容器之前,作者进行了通信,以确定哪些数据可用以及数据存储的格式。在我们的研究中,变体数据存储在具有匿名样本标识符的单个VCF文件中,病理学数据存储在由相同样本标识符表示的单个TSV文件中。这些数据已经在最初生成数据的研究中准备在这些文件中,18 , 27因此不需要额外的数据准备步骤。RIKEN提供了一对文件(一个VCF文件和一个肿瘤病理学TSV文件),其中包含伪造数据,以保留隐私,但同时允许加州大学圣克鲁斯分校(UCSC)的研究人员开发他们的容器。如前所述,UCSC团队最初开发容器是为了生成肿瘤病理学报告。当UCSC团队为该报告准备好容器时,他们通知RIKEN的团队下载容器代码并针对数据集运行它。运行说明4Cell Genomics2,100109,2022会开放获取技术容器是直接的,并且在软件存储库中有很好的文档记录。经过几次迭代和电子邮件通信后,发现每个团队生成的报告完全匹配,从而验证了可以使用联合方法对该数据进行准确的分析。随后,UCSC团队开发了容器来创建共现和等位基因频率报告以及交集和数据质量报告。一旦这些报告生成,它们就会被发送到昆士兰医学研究所(QIMR)团队进行分析,以进行变异解释。总的来说,合作所需的互动量很小,部分原因是QIMR团队之前曾使用相同的数据与RIKEN团队合作。18分析方法我们用Python 3.73代码创建了Docker容器,(1)收集关于肿瘤病理学的观察统计数据,(2)收集用于估计等位基因频率的变异计数,和(3)鉴定与相同基因中的已知致病变异共同出现或与自身共同出现的VUS(即,纯合子VUS)。在报告合并症时,我们还报告了患者的年龄,以对照范可尼贫血时的预期年龄审查数据为了识别VUS,我们检查了ClinVar提供的分类,并根据ClinGen批准的循证网络进行了验证,以解释BRCA Exchange中的生殖系突变等位基因(ENIGMA)专家小组。28如果临床意义为“未知”,或者如果该变体未出现在BRCA交换中,则我们将该变体标记为VUS。我们将此容器应用于BioBank Japan样本。我们鉴定了BRCA 1或BRCA 2变异体,这些变异体表现为纯合子和/或与同一基因中的已知致病性变异体共同发生。未对测序数据进行分阶段,但提供了关于共现变体的详细信息,以帮助推断VUS是顺式还是反式。结果我们在这里描述一个联邦分析如何为变量解释添加有价值的信息的示例我们分析了一项病例对照研究,研究对象是病例水平数据来自RIKEN的日本人。18,27由于外部研究人员无法访问这些数据,UCSC团队以Docker容器的形式开发了分析RIKEN团队应用该容器在安全的机构环境中对该队列进行了原位分析,生成了不包含个人信息的变量级汇总数据,可以更公开地共享。然后,QIMR Berghouts团队将这些数据应用于变体解释。作为初始质量控制练习,我们使用肿瘤病理学数据复制了先前出版物中表S4的该表对比了有或没有致病性变异的患者的因素,包括七种癌症的家族史;雌激素,孕激素和赫赛汀受体状态;以及诊断时的年龄。我们能够精确地复制这个表,这表明我们能够准确地处理数据。这项工作也证明了我们的容器可以用来生成有科学意义的结果。虽然这一步骤不是强制性的,分析,我们建议它的原因刚刚陈述。随后,我们应用Docker容器来分析完整的患者队列。我们观察到19种尚未被ClinGenBRCA 1/2专家组解释的BRCA变体。对于每种VUS,我们报告了其在对照中的等位基因频率,以及VUS与同一基因中已知致病性变体共发生的任何观察结果(表1)。我们还在ClinVar中注释了单次订阅的变体。根据BioBank Japan对照中的等位基因频率,11个VUS符合良性影响(BA 1)的独立证据标准;所有这些VUS均被生物信息学预测为具有良性影响(BP 4)。根据来自日本队列的频率证据,所有11例VUS均符合良性解读标准此外,观察到这些变体中的两个(BRCA 1c.4729T>C;BRCA 2 c.964A>C)与同一基因中的至少两种不同的致病性变体共同出现,这足以证明应用BS2标准。在这11例VUS中,有4例在ClinVar中被单亚基分类为良性或可能良性,5例有冲突解释,2例被ClinVar指定为VUS。根据目前gnomAD中的观察结果,3其中7个变体符合BA1标准,3个符合BS 1标准,1个不存在(符合PM 2标准)。对于gnomAD中存在的每个变体,东亚人是在95%置信水平(popmax)下具有最大等位基因频率的大陆人群,29这一事实本身增加了对BioBank Japan观察结果的置信度。虽然使用gno-mAD中的数据可以将其中七个变体解释为良性,但联邦分析支持对另外四个变体的解释。日本生物银行结果的这种更高的敏感性反映了更大的队列规模:虽然gnomAD包含2,604个东亚基因组和9,977个东亚外显子组,但日本生物银行对照组包含23,731个日本个体。5个VUS显示出基于其BioBank Japan等位基因频率的良性影响(BS 1)的强有力证据,以及根据BayesDel(BP 4)预测良性影响的这五个VUS符合基于其频率和生物信息学证据组合的可能良性解释的标准此外,这些VUS中的两个与对照个体中的致病性变体有单一的共现;虽然不应对任何单一的纯合观察结果以及BS 1和BP 4证据给予过多的重视,但数据提供了由多条证据支持的良性解释的一致图片。这五种变体中的一种在Clin-Var中被分类为可能是良性的,而其他四种被分类为VUS。其中四个VUS将达到基于其gnomAD人口频率的BS 1证据标准,而五分之一则没有gnomAD。日本生物银行的分析支持对五种变异进行重新分类,其中只有四种可以重新分类使用gnomAD中的数据。最后,在单杂合子共现中观察到三个额外的变体,并且具有预测良性影响的BayesDel评分(BP4)。对于每个共现观测,我们无法预测共现是反式还是顺式,因此这些观测本身不足以证明良性影响。然而,当并且如果在另一个队列中观察到相同的VUS与其他致病性变体共同发生时,这些共同发生可能有助于良性证据这些VUS是罕见的变体,Cell Genomics2,100109,2022年3月9日5会开放获取技术表1. 变体数据总结基因BRCA2 BRCA2 BRCA2 BRCA1 BRCA2 BRCA2 BRCA2变体(蛋白HGVS)p.A2351G p.A2351G p.C315S p.S1577P p.A2351G p.G2044V p.K322QgnomAD 2.1.1外显子组频率(EAS)2.55E-03 1.87E-03 5.30E-03 2.65E-04缺失4.52E-044.31E-04 gnomAD 3.1.1基因组频率(EAS)2.39E-03 2.02E-03 5.03E-03 2.02E-04 2.01E-03 4.52E-032.41E-03ACMG/AMP代码来自gnomAD BA 1 BA 1 BA 1 BS 1 BS 1 BA 1 BA 1日本生物样本库频率(质控品)1.46E-02 3.16E-03 1.56E-031.14E-02 4.64E-04 3.29E-022.31E-03BioBank中的ACMG/AMP频率日本BA1 BA1 BA1 BA1 BA1 BS1 BA1 BA1BayesDel评分-0.61-0.24-0.41 0.03-0.52-0.16-0.08生物信息学代码BP4 BP4 BP4 BP4 BP4 BP4基因BRCA1 BRCA1 BRCA2 BRCA2 BRCA2 BRCA2变体(蛋白HGVS)p.L52F p.V271M p.D1990A p.K1132R p.S3245A p.T1887M N/AgnomAD 2.1.1外显子组频率(EAS)1.36E-03 1.32E-030不存在不存在1.13E-04N/AgnomAD 3.1.1基因组频率(EAS)4.03E-04 1.21E-03 4.03E-04 0.000201不存在不存在来自gnomAD BA 1 BA 1 BS 1 BS 1 PM2 BS 1 N/A ACMG/AMP代码日本生物样本库频率(对照)6.78E-03 6.28E-03 2.61E-03 3.75E-03 1.01E-03 1.69E-04 N/ABioBank中的ACMG/AMP频率日本BA1 BA1 BA1 BA1 BA1 BA1 BS1 N/ABayesDel评分0.14 0.06-0.08-0.2-0.47-0.29 N/A生物信息学代码BP 4 BP 4 BP 4 BP 4 BP 4 N/A基因BRCA2 BRCA2 BRCA2 BRCA2 BRCA2 BRCA2变体(蛋白HGVS)p.V891D p.S196I p.D2680E p.V120M p.S1328N p.S2213P N/AgnomAD 2.1.1外显子组频率(EAS)缺失1.78E-04缺失缺失0缺失N/AACMG/AMP代码来自gnomAD PM2 BS 1 BS 1 PM2 PM2 PM2不适用日本生物样本库频率(质控品)9.69E-04 4.64E-04 9.69E-04 0 0不适用BioBank中的ACMG/AMP频率日本BS1 BS1 BS1 PM2 PM2 PM2 N/ABayesDel评分-0.05-0.22-0.05-0.48-0.57-0.06 N/A生物信息学代码BP 4 BP 4 BP 4 BP 4 BP 4 N/AHGVS术语反映了BRCA 1的NM_007294.3转录本和BRCA 2的NM_000059.3转录本。变异被指定为B(良性)、B/LB(良性或可能良性)、LB(可能良性)、冲突(排除解释)、VUS(不确定意义)或缺失(未发现)。所有变体均根据BayesDel计算机模拟预测因子进行评分,评分小于0.3,在BP4评分范围内。此外,在同一基因中观察到两种变体与两种致病性变体共现,表明这些共现中至少有一种必须是反式的,这符合BS 2证据的标准。在BRCA 1中,我们观察到c.4729T>C与c.1518del和c.188T>A的共现,在BRCA 2中,我们观察到c.964A>C与c.6952C>T、c.5645C>A和c.6244G>T的共现。虽然这些VUS仅具有足够的等位基因频率分类证据,但这些共现进一步支持良性分类。我们进一步观察到BRCA2c.5660C>T与c.1261C>T和c.4365A>G与c.7480C>T的共现,如果在其他患者群组中观察到这些变体与不同的致病路径变体共现,则可以支持良性分类的证据。变体(cDNA HGVS)c.6325G>A c.7052C>G c.943T>A c.4729T>C c.4365A>G c.6131G>T c.964A>CClinVar分类(2021年5月1日)B/LB B/LB B/LB B/LB LB冲突冲突基于频率和B的生物信息BBBLBBB变体(cDNA HGVS)c.154C>T c.811G>A c.5969A>C c.3395A>G c.9733T>G c.5660C>T N/AClinVar分类(2021年5月1日)Conflict冲突冲突VUS VUS VUS N/A基于频率和B的生物信息BBBBLBN/A变体(cDNA HGVS)c.2672T>A c.587G>T c.8040C>G c.358G>A c.3983G>A c.6637T>C N/AClinVar分类(2021年5月1日)VUS VUS VUS无冲突冲突N/AgnomAD 3.1.1基因组频率(EAS)不存在不存在0. 000202不存在不存在N/A基于频率和LB的生物信息LBLBVUSVUSVUSN/A6Cell Genomics2,100109,2022会开放获取技术来自gnomAD,并且在ClinVar中具有冲突或VUS解释。讨论通过这种联合分析的演示,我们分析了一个我们无法直接访问的受保护队列,我们收集了日本遗传学知识,以进一步解释BRCA1/2变异。在ClinGen BRCA专家小组目前标记为VUS的19种变体中,有12种是VUS或在ClinVar中存在冲突基于生物信息学和频率分析的建议解释为16种变体分配了良性或可能良性分类,并强调了将数据采集扩展到gnomAD中尚未充分代表的亚群的价值。我们还证明了变异共现和发病年龄的联邦收集根据现有的人口频率资源,这种分析是不可行的。例如,由ClinGen选择作为其标准的资源gnomAD尚未具有大的日本队列,并且现在共享变体共现,但没有根据ENIGMA的变体解释规则排除范可尼贫血所需的患者年龄信息这些样本之前已经由RIKEN和ENIGMA团队进行了分析,18,27这一事实解释了为什么对近30,000个样本的分析只发现了19个VUS。这种联合分析使我们能够用更新的分类标准重新审视这些数据,并收集关于变异共现的新证据此外,通过开发肿瘤病理学报告,我们提供了联合分析可以被设计为捕获与变异解释相关的其他临床特征的原理证明这些额外的数据类型通常最多仅在已发表队列的汇总级数据展示中提供。此外,该方法可以应用于任何其他表型-基因型关系,这些关系可以受益于其他孤立的数据集。我们还证明,有一些国际测序项目包含有价值的信息,这些信息今天可以应用于变异解释,但尚未在主要的人口数据库中得到代表。本研究中分析的日本样本数量(7,104例病例加23,731例对照)与gnomAD原则上,gnomAD和相关的人口基因组学资源将随着时间的推移而增长,以全面代表全球所有人口。在实践中,由于处理外部序列数据的高成本《个人通讯》,2021年10月出于这些原因,从国际来源收集证据有助于捕捉全球由于传统的数据共享受到包括禁止出口基因组序列的法律在内的障碍的阻碍,联邦分析可以通过将共享数据的范围限制在最需要的信息在这种情况下,由于RIKEN团队已经收集了乳腺癌的病例对照数据集,因此数据共享得到了简化,并且在这样做的过程中,已经减少了com-control数据集。将表型数据复杂化为一组简化的术语。在一个典型的变体解释场景中,情况更加复杂。 在基因检测中,表型数据通常不存在,或者在非结构化文本字段中提供,这些文本字段必须在任何传统或联合分析之前手动管理。当表型数据以结构化的电子形式可用时,联合分析是可行的。癌症诊断(或其缺乏)可以通过人类表型本体(HPO)术语表示,19疾病本体30术语表示肿瘤病理学。例如,如果表型文件用HPO术语而不是简化表示来表示疾病表型类似地,如果表型数据与心肌病相关,则可以使用HPO术语HP:0001639来代表肥厚型心肌病作为表型,或者使用更通用的HPO术语HPO:0001639来代表心肌病。表型和基因组数据交换的结构化模型,如Phenopackets,31通过提高数据互操作性增加了联合方法的机会。随着GA4GH和其他组织制定的标准的增长以及全球范围内越来越多地采用电子数据标准,31这种联合分析模型可以推广并扩展到基因组中的更多领域。新兴的GA4GH技术,包括Beacon V2、Matchmaker Exchange和DataConnect,可以提示在偏远的孤立队列中存在感兴趣的样本,例如罕见单基因疾病病例这种联合分析方法通过允许进一步分析这些样本同时保护患者隐私来补充这些方法。虽然gnomAD是基因组研究中等位基因频率数据的综合来源,27但我们的联合解决方案本身并不需要使用它。任何被认为更适合特定用例或队列的数据库都可以用作等位基因频率的来源,如果数据被格式化为VCF站点文件。同样,我们使用ClinVar作为变异分类的基础事实来源,如果数据格式正确,则可以用另一个分类数据库替换ClinVar数据库这些数据格式在补充信息中讨论。限制的的联邦计算被广泛采用,但它在数据隐私和系统安全方面确实存在自己的挑战。Docker容器在某种程度上是为了确定分析是否真正既安全又保护隐私,审计人员需要仔细检查容器的Dockerfile我们通过将报告写入本地文本文件来降低这种风险,这些文件在对外共享之前可以由RIKEN团队进行检查此外,我们将该软件作为开源软件发布,因此合作者可以直接对其进行检查第二个相关的问题是,人们不能容易地确定软件是否可能损害或危及其运行的系统的安全性解决这个问题的一个很有前途的办法是认证。在新兴的应用程序安全测试领域,有一些软件平台可以动态评估Cell Genomics2,100109,2022年3月9日7会开放获取技术被测软件的系统访问。虽然目前的平台是商业化的,但很可能会有一个开源版本。最终,这可能成为目前正在开发的GA4GH云测试平台的一个元素。该测试平台基础设施最初将作为测试符合GA4GH标准的平台,并将扩展到包括性能基准测试。将来,该平台可能会报告表明存在安全风险的活动,例如传出网络或磁盘流量的详细信息;发布这些认证结果可以很好地适应容器库(如Dockstore)的框架作为这个问题的直接解决方案,合作机构应该在与其内部网络完全隔离我们的方法的另一个限制是,它需要将数据转换为我们的软件可以识别的格式,即制表符分隔的文件和VCF文件。换句话说,该软件是不可知的文件格式。展望未来,我们将能够通过利用GA4GH开发的数据标准来推广这种方法特别是,GA4GH CloudWorkstream的标准已经使得在许多不同的计算平台上利用软件方法变得更加容易进一步的开发将促进容器化工作流程的简化执行、表型数据的表示和遗传知识的共享STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2022.100109。致谢我们衷心感谢Gunnar Ra tsch发起这个项目,并感谢BRCA挑战证据收集小组的 成 员 讨 论 分 析 设 计 。 J.C. 由 NHGRI 资 助 U54HG 007990 和 NHLBI 资 助U01HL 137183支持A.B.S.和M.P.由澳大利亚国家健康和医学研究委员会(APP177524)资助。Y.M.由AMED资助,资助号为JP 19kk0305010(给Y.M.)。M.C.通过UNC-CH 5118777获得NHLBI的NCI资助U 01 CA 242954和BioData Catalyst奖学金OT 3 HL 147154的支持。作者贡献Y.I. 和Y.M.进行了产生变异和病理学数据的研究医学博士,A.B.S. 和Y.M.计划分析数据。的docker集装箱是由J.C.从Y.M.和C.M.的技术指导Y.I.和Y.M.执行容器。医学博士,A.B.S. J.C.,和M.P.分析了结果并准备了手稿所有作者都审查了最终手稿。申报利益作者声明没有竞争利益。投稿时间:2021 - 06 - 01修订日期:2021接受日期:2022发布时间:2022引用1. 柯林斯,J.M.,和Isaacs,C.(2020年)。BRCA1/2突变携带者乳腺癌风险管理未受癌症影响Breast J. 26,1520-1527.2. Landrum,M.J.,Lee,J.M.,Benson,M.,布朗,G.R.,Chao,C.,Chitipiralla, S.,Gu ,B.,Hart ,J.,霍夫曼,D.,Jang ,W.,等人(2018 年)。ClinVar:改善对变异解释和支持证据的访问。 NucleicAcidsRes.46,D1062-D1067.3. Karczewski,K.J.,Francioli,L.C. ,Tiao,G.,Cummings,B. B.,Alfo¨ ldi,J.,王建奎,Collins,R.L.,Laricchia,K.M.,Ganna,A.,Birnbaum,D.P.,等; 基因组聚合数据库联盟(2020)。 突变限制谱从141,456人的变异中量化。Nature581,434-443.4. Kurian,A.W.(2010年)。BRCA1和BRCA2基因突变在人种和种族中的分布和临床意义Curr. Opin.顽固Gyne-col. 22,72-78.5. Landry, L.G. , Ali , N. , 威 廉 姆 斯 , D.R. , H.L. , 和 Bonham , V.L.(2018年)。基因组数据库缺乏多样性是将精确医学研究转化为实践的障碍。卫生部(Millwood)37,780-785。6. Sirugo,G.,Williams,S.M.,和Tishkoff,S.A.(2019年)。人类遗传学研究中缺失的多样性177号牢房26-317. 哈里斯,T.L.,和Wyndham,J.M.(2015年)。 数据权利和责任:数据共享的人权视角。J. Empir。Res. Res. Ethics 10,334-337.8. 萧律师,Lawler,M.,Haussler,D.,Knoppers,B.M.,Lewin,J.,Vis,D.J.,Liao,R.G.,安德烈,F.,班克斯岛,巴雷特,JC,等人(2016年)。 促进负责任和有效共享癌症基因组数据的文化。Nat.Med.22,464-471。9. Acmg董事会(2017年)。实验室和临床基因组数据共享对改善遗传健康至关重要:美国医学遗传学和基因组学学院的立场声明。Genet. 19,721-722。10. Wright,C.F.,Ware,J.S.,Lucassen,上午,Hall,A.,Middleton,A.Rahman,N.,Ellard,S.,和Firth,H.V.(2019)。基因组变异共享:立场声明。Wellcome Open Res. 4,22.11. Richards,S.,Aziz,N.,Bale,S.,Bick,D.,达斯,S.,Gastier-Foster,J.,Grody,W. W.,Hegde,M.,Lyon,E.,Spector,E.,等;ACMG实验室质量保证委员会(2015)。序列变异解释的标准和指南:美
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功