没有合适的资源?快使用搜索试试~ 我知道了~
开放获取与数据精度:全球基因组健康联盟促成国际联合分析的关键努力
会开放获取预览我可以在冰岛开车促成国际联合分析Chris Lunt1,*和Joshua C.丹尼11美国国立卫生研究院全体研究计划,美国马里兰州* 通讯:chris. nih.govhttps://doi.org/10.1016/j.xgen.2021.100034在这一期的《细胞基因组学》中,GA4GH报告了帮助在飞地之间共享数据的关键努力,包括负责任的数据共享框架、数据使用本体和数据使用监督方法虽然在数据提供商之间建立互惠关系方面仍有工作要做,但我们设想,在未来,跨飞地的联合分析就像在不同国家开车一样容易。‘‘How can I download the你不能。有两个原因。首先,在人类生物医学研究中,我们已经从“大数据是任何不适合Excel的东西”走了很长一段路。常见疾病的全基因组关联研究(GWAS)已超过100万人,国际队列将很快为类似规模的研究提供全基因组测序数据。当你有成千上万的CRAM文件代表PB级的数据时第二个原因是我们有义务保护研究参与者,这意味着我们必须保留对数据的控制。因此,基因组研究正在向数据飞地转移,现在即使您可以访问两个伟大的数据集,您也可能无法联合分析它们。我们相信,全球基因组健康联盟(GA4GH)在将数据重新汇集在一起方面发挥着重要作用,以便我们能够实现为推进基因组医学而生成的大量数据集的承诺。在本期中,GA4GH既介绍了其战略框架和组织,又报告了推动这些数据共享工作的技术标准和发展。1数据存取层所有数据提供者都面临一个难题:如何在保护研究参与者权利的同时最大化科学效用?科学效用是两件事的产物:开放获取和数据精度。你可以把它想象成一个方程,U=A3D.例如,为了保持相同的效用,如果我们增加访问权限,我们需要降低那些可能重新识别的元素的数据精度。公用事业可以被认为是一个景观,数据提供者可以选择该景观上的多个点来满足不同的受众。这就是All of Us研究计划选择数据访问层的方式。2我们提供了一个统计摘要。我们提供了一个“注册”层,它限制了对机构批准的受众的访问,但提供了更精确的数据。具体而言,它提供了对个体参与者级别数据的访问,但进行了更改以禁止参与者重新识别:数据支持(例如,自由文本条目和某些公开可用的代码,例如杀人犯)和概括(例如,表示为状态的位置和向后移动的日期)。在一年之内,我们将引入一个更详细的“受控”层,行级泛化更少,但访问限制更多。在所有情况下,明显的个人身份信息被删除。对重新识别的担忧继续增长,因为个人信息的数据泄露变得如此频繁,以至于只有真正严重的违规行为才值得新闻报道。所有流入暗网的数据都社交媒体上的自我披露增加了潜在的识别数据,否则这些数据将被隐藏。此外,为了产生参与者的信任,研究人员还可以制定其他保护措施,例如限制第二研究用例或限制研究观众它需要的不仅仅是数据支持;还需要可扩展性和数据提取控制。除了道德义务之外,我们吸引来自生物医学研究代表性不足的群体的参与者的能力需要建立信任。自愿参与取决于他们相信他们的数据不会被用来伤害他们。为了防止数据被滥用,人们倾向于只提供具有人为目的和严格保密的访问。机构审查委员会(IRB)和数据访问委员会可以达到这一目的。如果数据不可信,那么你必须确保研究人员是可信的。存在着这样一种风险,即我们都在自己的控制和审查过程中建立了自己的飞地,无意中否认了我们自己最大的发现来源之一证据的趋同。在多个数据源有足够的重叠之前,模式可能不可见。跨飞地发现通常来自五个来源之一。首先是新的工具,如显微镜、量子理论或深度学习.其次是新数据,如新的调查或来自代表性不足群体的数据。第三是新的研究人员,他们带来了新的视角和其他学科的视角。第四个是新的问题,比如科罗拉多州的棕色污渍和对蛀牙的抵抗力之间是否有联系,这导致了牙齿氟化的预防能力的发现。第五个是新的重叠。将来自不同来源的数据汇集在一起不仅仅是减少错误细胞基因组学1,100034,2021年11月10日1这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。会开放访问预览巴尔斯说,它为发现创造了机会,比如观察烟囱清扫和睾丸癌之间的重叠,这是早期发现癌症环境原因它还允许对意想不到的相关性进行紧急观察,例如深度学习从视网膜扫描预测年龄和性别(人类无法做到的事情)或打字率与帕金森病早期诊断之间的关系4那我们怎么分析整个圈呢?有些人建议使用保护隐私的分析基础设施和算法进行联合研究5这些都有局限性,包括引入的延迟,这可能会妨碍I/O密集型研究方法。这种方法是有价值的,但它还处于早期,未经证实,我们不能等待推进健康科学。另一种方法是在飞地中运行研究,然后在飞地外部加入去识别的结果,但这也有局限性,因为重要的信号可能在去识别过程中丢失。理想情况下,我们将能够跨安全区联合分析未隐藏的数据。数据策展通常最好在具有原始数据访问权限的本地级别执行,并且某些分析可能无法作为Meta分析工作。要做到这一点,我们必须找到有效地使我们现有飞地的安全边界重叠的方法。基于云的环境在技术上更容易做到这一点,但挑战很多,包括找到双方控制的联盟,解决不同法律领域的法规和法律问题等等。GA4GH标准品乔希和我在我们的家乡(密歇根州和肯塔基州)学会了开车。为什么我们标准和互惠。汽车是一样的,燃料是一样的,道路和街道标志的布局足够接近,无需训练就可以两国政府审查了彼此想象一下,如果每一个潜在的司机必须与国家谈判,每次他们想开车。因为这现在GA4GH通过为人类生物医学数据的共享制定国际标准和框架而处于领先地位1其中一个关键的技术标准,报告在这个问题上,是GA4GH通行证端口。6NIH研究人员将能够使用eRACommons、NIH或Login.gov凭据登录。这些相同的GA4GH护照规格也被许多国际研究项目和研究所采用。RAS还使用GA4GH数据存储库服务标准,这将有助于存储库之间的通信。这是必要的,但还不够。生物安全等级(BSL)标准允许研究人员在双方不相互审计的情况下共享样本:“你是否在经营BSL 3设施?- 是吗-是的“好,我们可以分享样品以类似的方式,GA4GH可以定义与参与者同意相关的数据保护标准。除此之外,我们建立互惠网络。创建数据保护标准是推进GA4GH使命的一个机会。当GA4GH撰写《负责任地分享基因组和健康相关数据的框架》时,Bartha Maria Knoppers博士引用了联合国《世界人权宣言》第27条,该条规定每个人都有权“分享科学进步及其利益”数据保护标准不仅保护研究参与者的利益,还可以通过减少获取障碍来“数据护照”模型简化了跨存储库的访问。[6]我们还可以创建标准,允许访问高度去识别的数据,而不需要假设,从而允许研究人员开发一条在看到数据之前可能不可见的调查路线。通过这种方式,我们可以为年轻的研究人员提供一个使用真实数据发展技能的空间‘‘Share wisely, share widely,’’ is anaphorism our program uses, recognizinga程序将找到不同的方法来平衡科学效用、开放访问和数据精确性。GA 4GH有机会推进一套标准-这 些标 准 允 许我 们 识别 等 价 性, 并 与GA4GH数据使用本体(DUO)、8数据使用监督系统(DUOS)、9和GA4GH变化表示规范(VRS)等工作一起工作。[10]如果我们在这方面取得了成功,但依赖于数据提供商之间的成对协议,我们仍然会排除更广泛的不太富裕国家的受众。我们必须建立一个互惠网络,并与国际十万人队列联盟(IHCC)等团体合作。总有一天,研究人员将能够根据一套国际公认的证书,将来自世界各地的数据提取到一本短暂的工作簿中,从而使我们所有人都能受益。我们在冰岛的高速公路上见!引用1. H.L.,Page,A.J.H.,史密斯湖,亚当斯,J.B.,Alterovitz,G.,Babb,L.J.,巴克利议员Baudis,M.,博韦,M.J.S.,Beck,T.,等人(2021年)。GA4GH:基因组研究和医疗保健数据共享的国际政策和标准。细胞基因组学1,100029-1-100029-33。2. 丹 尼 JC Rutter , J.L. , Goldstein , D.B. ,Philippakis,A.,Smoller,J.W.,詹金斯,G.,和Dishman,E.; All of Us ResearchPro-gram Investigators(2019)“我们所有人”研究项目。N. Engl. J.Med.381,668-676。3. 波 普 林 河 , Varadarajan , A.V. , Blumer ,K., Liu ,Y. , 麦 康 奈 尔 , MV , Corrado ,G.S. , 彭 湖 , 和 韦 伯 斯 特 , D.R. ( 2018年)。通过深度学习从视网膜眼底照片预测心血管危险因素。Nat. BioMed. Eng. 2,158-164.4. 亚当斯,W.R.(2017年)。使用打字时手指运动的多种特征高精度检测早期帕金森病。PLoS ONE 12,e0188226。5. Thorogood , A. , H.L. , 古 德 汉 德 , P. ,Page , A.J.H. , Joly , Y. , Baudis , M. ,Rambla,J.,Navarro,A.,Nyronen,T.H.,Linden,M.,等(2021年)。使用GA4GH标准的国际基因组医学数据库联合会。细胞基因组学1,100032-1- 100032-5。6. Voisin,C.,Linden,M.,戴克,S.O.M.,Bowers,S.R.,Reinold,K.,Lawson,J.,Li,S.,OtaWang,V.,巴克利议员Bernick,D.,等人(2021年)。GA4GH通行证标准的数字身份和访问权限。细胞基因组1,100030-1-100030-12。7. Knoppers,B.M. (2014年)。 负责共享基因组和健康相关数据的框架。Hugo J. 8,3.2细胞基因组学1,100034,2021预览会开放获取8. Lawson,J.,Cabili,M.N.,Kerry,G.,买-木材,T。,Thorogood ,A.,Alper ,P.,Bowers,S.R.,Boyles,R. R.,布鲁克斯,A.J.,Brush,M., 等人(2021年)。 数据使用本体流负责访问人类生物医学数据集.细胞基因组学1,100028-1- 100028-9。9. Cabili,M.N.,Lawson,J.,Saltzman,A.,拉 什顿 , Wilbanks, J. ,Rodriguez, L.L. ,Nyronen,T.,Courtot,M.,Donnelly,S.,和Philippakis,A.A.(2021年)。数据使用监督自动化方法的经验验证。细胞基因组学1,100031-1- 100031-6。10. 瓦 格 纳 , A.H. , 巴 布 湖 , Alterovitz , G. ,Baudis, M. , Brush , M. , 卡 梅 隆 , D.L. ,Cline,M.,Grif-fith,M.,Griffith,O.L.,亨特,S. E.,等(2021年)。GA4GH变异表示规范:变异表示和联邦识别的计算框架。细胞基因组学1,100027-1-100027-11。细胞基因组学1,100034,2021年11月10日3
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)