利用NHGRI基因组数据的实验室空间反转共享模型

29 浏览量更新于2023-12-09 收藏 793KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

会开放获取透视利用NHGRI基因组数据科学分析、可视化和信息学实验室空间反转基因组数据共享模型Michael C.Schatz，1，2，*Anthony A.Philippakis，3，*Enis Afgan，1Eric Banks，3Vincent J.Robert J.卡罗尔，5亚历山德罗库洛蒂，3，6凯尔埃尔罗特，7杰里米戈恩，7罗伯特L。Grossman，6Ira M.霍尔，8卡斯珀D。汉森，9岁乔纳森·劳森，3杰弗里·T。Leek，9Anne Tan，13Casey Overby Taylor，14Jennifer Vessio，1Levi Waldron，15TingWang，16Kristin Wuichet，5和AnVIL Team1约翰霍普金斯大学生物系，美国马里兰州巴尔的摩2约翰霍普金斯大学计算机科学系，美国马里兰州巴尔的摩3麻省理工学院和哈佛大学布罗德研究所，美国马萨诸塞州4美国马萨诸塞州剑桥市哈佛大学哈佛医学院5美国田纳西州纳什维尔范德比尔特大学医学中心生物医学信息学系6芝加哥大学转化数据科学中心，芝加哥，IL，美国7俄勒冈健康科学大学生物医学工程，波特兰，OR，美国8耶鲁大学耶鲁医学院，纽黑文，CT，美国9美国马里兰州巴尔的摩市约翰霍普金斯大学生物统计学系10美国纽约州布法罗市罗斯威尔公园综合癌症中心生物统计学和生物信息学系11美国宾夕法尼亚州立大学州立学院生物化学和分子生物学系12美国加州大学圣克鲁斯分校基因组学研究13美国马里兰州巴尔的摩卡内基研究所胚胎学系14医学和生物医学工程系，约翰霍普金斯大学，巴尔的摩，MD，美国15纽约市立大学公共卫生和卫生政策研究生院流行病学和生物统计学系，纽约，美国纽约州16美国密苏里州圣路易斯市圣路易斯华盛顿大学遗传学系* 通信：mschatz@cs.jhu.edu（M.C.S.），aphilipp@broadinstitute.org（A.A.P.）https://doi.org/10.1016/j.xgen.2021.100085总结NHGRI基因组数据科学分析、可视化和信息学实验室空间（AnVIL;https：anvilproject.org）被开发以解决对用于基因组数据存储、管理和分析的统一计算环境的广泛社区需求从这个角度来看，我们介绍了AnVIL，描述了它的生态系统和与其他平台的互操作性，并强调了这个平台和相关举措如何有助于改善基因组数据共享工作。AnVIL是一个联合云平台，旨在管理和存储基因组学和相关数据，实现人群规模分析，并通过共享数据、代码和分析结果促进协作。通过颠覆传统的数据共享模式，AnVIL消除了数据移动的需求，同时还增加了主动威胁检测和监控的安全措施，并为任何研究人员提供可扩展的共享计算资源我们描述了AnVIL的核心数据管理和分析组件，该组件目前包括Terra、Gen 3、Galaxy、RStudio/Bioconductor、Dockstore和Dockyter，并描述了AnVIL中可用的几个旗舰基因组学数据集我们继续通过实施新功能来扩展和创新AnVIL生态系统，包括互操作性和负责任的数据共享机制，同时简化访问管理。AnVIL为分析、合作和数据共享提供了许多新的机会，这些机会是推动研究和通过联合分析数十万到数百万个基因组以及相关的临床和分子数据类型来发现所必需的。介绍在过去的20年里，人类基因组有了巨大的增长，迄今为止已经测序了数百万个人类基因组，并且在不久的将来还将测序数百万1、2这些这些数据，再加上数量不断增长的单细胞和功能基因组学数据、电子医疗记录和其他生物医学数据，有可能大大提高我们对健康生命基本过程的理解，并使疾病治疗发生革命性变化这项研究将是Cell Genomics2，100085，January 12，2022<$2021作者。1这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。会开放获取透视2Cell Genomics2，100085，2022部分地通过使用新的计算、统计和机器学习方法聚合和合成数据，结合可以系统地评估大量候选关系的新的高通量实验方法来实现然而，实现这些雄心勃勃的目标需要我们接受新的计算研究范式，其中云计算发挥着核心作用;在这种规模下，没有其他方法可以有效地共享和分析数据。从这个角度来看，我们报告了NHGRI基因组数据科学分析，可视化和信息学实验室空间（AnVIL）的发展，以实现云计算环境中的大规模数据管理，共享和分析。我们反思了基因组数据共享和分析的过去、现在和未来，提供了关于AnVIL如何应对当前挑战并推进这些努力的观点，首先，我们简要介绍了一些正在进行的重大举措，以促进基因组学数据共享，并强调了一些主要的局限性，传统的数据共享模式，数据集复制跨机构。然后，我们提出了一种反向的数据共享形式，研究人员通过集中式云平台连接到远程数据集，而不是将数据复制到多个机构，并描述了这如何增强分析，协作和数据共享。在以下部分中，我们将描述AnVIL系统架构以及AnVIL使用的数据库和数据模型，并讨论一些与AnVIL相关的社区。然后，我们描述了一些可用的关键互操作性技术，特别是全球基因组学与健康联盟（ GA4GH;https://www.ga4gh.org）标准，该标准使研究人员能够在云平台之间无缝过渡。2在最后一节中，我们对基因组数据共享和分析的未来进行了展望。 AnVIL 门户网站可通过https://anvilproject.org公开访问。基因组学数据共享基因组学已成为生物学和医学许多方面研究的核心组成部分。3，4跨越祖先分析，5，6疾病和性状关联，7，8发育生物学，9，10和许多其他领域，大规模基因组和基因组测序在过去几十年中取得了巨大的发展，这在很大程度上是由技术进步所驱动的，这些技术进步大大降低了测序所需的成本和时间。11例如，美国国立卫生研究院（NIH）、国家人类基因组研究所（NHGRI）、常见病基因组学中心（CCDG）和孟德尔基因组学中心（CMG）计划试图通过对10多万个基因组进行测序，4在国际上，几个主要的基因组学项目正在进行中，例如建立英国生物库，收集来自英国各地50多万志愿者的遗传学和临床数据。12其他国家级的计划包括Ice-land卢森堡的生物银行，它们共同提供了数以千计的人类基因组和相关数据。132这些项目的规模为发现提供了许多新的机会然而，这种测序规模也带来了重大的新技术挑战，需要彻底改变基因组学和基因组学数据科学的执行方式。最紧迫的是，通过跨机构计算集群复制数据集来进行基因组学研究变得越来越不切实际，这导致我们重新考虑如何共享和分析基因组学数据。19由于基因组学的力量往往只能通过大规模的数据聚合来实现，因此基因组学已经形成了合作研究和开放共享数据的强大传统最著名的是，这一原则在1996年被人类基因组计划的全球领导人编纂为“百慕大协议”，他们同意该项目产生的所有人类基因组序列信息应免费提供，并在产生后24小时内进入公共领域。[20]这些原则的建立是为了使数据对社会的利益最大化，特别是在这个时代，私人公司开始申请人类基因序列的专利21这些核心原则后来在2009年通过“多伦多协议”得到扩展[23]作为资助机构努力的补充，许多主要的科学期刊现在要求在发表论文之前将数据存入公共数据库，特别是为基因组学社区服务的期刊。Cell Genomics要求数据集和代码在手稿提交时更早地公开。24-26为了响应这些数据共享的要求，已经建立了几个大型的储存库来存储和共享基因组学数据。对于高通量测序数据，NIH国家生物技术信息中心（NCBI）序列读取档案（SRA）与欧洲分子生物学实验室的欧洲生物信息学研究所（EMBL-EBI）欧洲核苷酸档案和日本DNA数据库（DDBJ）的国际合作伙伴这项合作已经成为最大的公开可用的序列数据库，目前通过多个云提供商和机构服务器提供的数据超过50 PB（Pbp）。27-31该数据库目前管理着1,232项研究中7,582个数据集的访问，其中大部分是受控访问，研究人员必须向NIH数据访问委员会（DAC）申请访问数据集，该委员会评估研究目标是否与患者一致。Cell Genomics2，100085，2022年1月12日3会开放获取透视图1.反转数据共享模型（左）在传统模型中，项目数据（以紫色、橙色和绿色显示）被复制到多个站点，供机构计算集群上的用户访问。在这种模式下，每个机构都必须建立自己的数据中心，而协作主要通过在数据中心之间复制文件来实现。（右）在反向模型中，用户连接到支持云的资源（如AnVIL）以远程访问和分析数据，而无需复制。在这种模式下，用户可以虚拟地访问统一的数据中心，从而实现更深入的协作和结果共享。同意书和提交数据的机构确定的任何限制。然而，尽管这些数据库和相关数据库已经变得很有价值，但它们通常是静态资源，不允许在这些系统中直接执行详细分析相反，使用这些数据的研究人员和参与大型测序工作的研究人员通常首先将数据下载到机构计算集群进行分析。数据共享模型的反转传统的基因组分析模型一直以机构计算集群为中心，研究人员安装和维护自己的计算工具套件，以分析直接存储在数据中心的数据集。该模型为单个研究人员提供了高度的灵活性和控制，但该模型的孤立性质引入了几个主要障碍和效率低下。首先，这种模式导致了冗余的基础设施，每个机构都建立了自己的数据中心，并造成了严重的管理效率低下，其中许多相同的分析工具必须在每个中心内部署和维护。软件管理工具（如bioconda32）或集成分析套件（如Bioconductor33）旨在简化此类安装，但考虑到所涉及的大量数据中心和用户，维护软件仍然是一个巨大的负担。这种模式对于协作分析来说尤其具有挑战性，因为它需要将数据从一个数据中心复制到另一个数据中心，随着数据集大小的增加，这变得更加困难和昂贵。例如，一个中等规模的项目，如1000个基因组项目，它包含扩展集合中3，202个基因组的CRAM文件，5是73 TB，需要几天时间通过典型的机构互联网连接制作一个副本。更大的研究，例如最近的TopMed发布，包括53，831个个体的全基因组序列数据7，CRAM文件的大小约为2PB，将需要几周到几个月的时间来下载数据集的单个副本。同样重要的是，在这样一个范例中，可重复性是非常具有挑战性的-越来越难以记录文件是如何在极端情况下，不同的群体可能使用不兼容或冲突的工具或数据集版本，导致科学上无效的结果。一个更具可扩展性的合作研究模型是颠倒数据共享模型：研究人员通过使用云计算资源19，34，35（图1），而不是将数据移动到每个研究人员。这样，只需要维护数据的单个副本，然后可以由任何数量的重新搜索者访问和分析该模型引入了实质性的优点，包括减少冗余和降低数据存储成本以及计算资源的更大灵活性。值得注意的是，云中的计算是“弹性的”，这意味着可以动态添加额外的计算资源以匹配在给定时间执行分析的需求。至关重要的是，这些资源也可以在分析完成后按比例缩小这种模式的管理效率也要高得多，因为软件只需要在一个位置安装或更新，所有用户都可以从中受益。最后，集中式服务，特别是入侵检测和审计，可以更加详细，以确保受保护数据集的数据安全性。这种基于网络和云的资源在基因组学中具有强大且不断增长的作用，从无处不在和经典的例子开始，例如NCBI BLAST服务器36或UCSC基因组浏览器。37另一个丰富的例子是Galaxy，38，39一个开放的，基于网络的计算工作台，用于执行可访问的，可重复的和透明的基因组科学，具有执行科学工作流程，数据集成以及数据和分析持久性的功能。更近期的是NCI云试点计划，该计划支持三个基于云的完整平台，这些平台提供对癌症数据集、分析工具和计算资源的安全按需访问。40.尽管这些资源已被证明是有价值的，但仍需要更广泛的分析和数据管理能力，以便在提供非常灵活的分析的同时，整合多个群组和多个数据库的数据。理想情况下，这样一个基于云的系统将提供机构数据中心可能的一切，以及云平台提供的可扩展性、弹性和协作方面的额外好处。此外，安全性对于人类遗传学研究至关重要，云系统提供了增强的数据加密，日志记录，审计和入侵检测功能，这些功能在机构数据中心中并不总是可用，特别是由各个研究小组管理的较小集群。4Cell Genomics2，100085，2022会开放获取透视AnVIL系统架构为了满足这些需求，AnVIL团队在NHGRI的支持下开发了基因组数据科学AnVIL。AnVIL是一个联合云平台，旨在管理和存储基因组学和相关数据，实现人口规模分析，并通过共享数据，代码和分析结果促进协作。它包括各种图形用户界面以及RESTful接口和API（应用程序编程接口），用于在几种流行的编程语言中进行编程访问 AnVIL 的计算环境目前构建在 Google CloudPlatform（GCP）上，以便在授权存储和分析受控访问数据集的强大安全边界内为用户提供大规模的可扩展性和容量具体地，AnVIL是FedRamp认证的计算环境，并且它符合NIST-800-53中提出的所有要求。通过提供标准化的安全和风险评估方法，美国政府范围内的FedRAMP计划促进了整个美国联邦政府采用安全云服务。41这包括强大的数据访问记录、第三方分析师的定期审计以及对异常使用模式的监控。我们还计划将AnVIL扩展到其他云平台，为我们的用户提供最大的灵活性和功能，特别是为了尊重出于隐私或安全考虑而限制在某些云平台上共享数据的政府指导方针。在AnVIL中，用户有多种分析选项和丰富的数据管理生态系统，允许研究人员搜索大量数据集，并构建新的合成队列，以从现有数据集中获得新的发现。类似于膝上型计算机或个人计算机如何具有多个应用（例如，web浏览器、电子邮件客户端、文字处理器、消息客户端等）AnVIL在一个通用的操作系统和文件系统中运行，它提供了几个分析组件，这些组件可以独立启动，但通过一个通用的文件系统和API相互关联（图2）。分析组件被广泛地表征为3个主要类别：（1）支持数据管理查询的组件，尤其是Gen 3，（2）支持批处理计算的组件，尤其是通过使用Terra上的WDL和紧密相关的Dockstore42来共享和分发工作流，以及（ 3 ）使用流行的分析套件（例如 R/Bio- conductor 、Digyter Notebooks和Galaxy）的交互式计算.通过这些组件，超过10，000种分析工具和工作流程可立即用于基因组学及其他领域的各种分析这包括使用GATK或freebayes43、44（包括新的端粒到端粒CHM 13参考基因组）从基因组序列数据中进行群体规模变异识别，45针对批量和单细胞数据集的基因表达分析，46-此外，这些组件支持可重复性和可重用性，因为存放在Dockstore中的方法和工作流程是签名的DOI，可以通过Terra工作区URL引用队列（合成或设计），并且我们正在开发用于版本控制和发布DOI的技术，这些DOI可以扩展到数百万个文件和PB的信息。注释S1注：S1显示使用GATK4进行种系变异识别的工作区。使用此工作区，用户能够输入一个或多个基因组的原始测序数据，例如许多人群和临床研究中使用的标准30× 3短读全基因组测序数据，然后工作流将在不到1天的时间内处理所有比对和变异识别步骤有趣的是，由于云计算的高度可扩展性，处理额外的样本，甚至数百或数千个额外的样本，将需要大约相同的挂钟时间，尽管成本将与样本数量近似线性地缩放。相比之下，对机构集群执行类似分析的用户将受到可用CPU（中央处理器）和RAM（随机存取存储器）数量的限制，这些CPU和RAM通常一次仅限于几十或几百个。注S2显示了使用Bioconductor的edgeR软件包分析差异基因表达的工作区使用交互式笔记本环境，R/Bioconductor代码和可视化可以很容易地在整个分析过程中交错，从质量控制开始，通过识别统计学上显著的差异表达基因。该工作区重新分析了最近发表的癌基因BACH 1的基因敲除数据集，以研究它如何通过抑制上皮基因和增强上皮-间质转化来促进胰腺癌转移。52在几分钟内，任何用户都可以执行工作区中显示的R/Bioconductor代码，以识别和可视化敲除细胞系中的注S3演示了如何在Galaxy内进行从头基因组测序和全基因组比对。该实施例的输入数据是标准fastq格式的模拟短读段测序数据，然后使用SPAdes基因组组装器在不到1分钟内组装。53组装后，使用来自MUMmer包54的DNAdiff将组装的重叠群与参考基因组比对，以鉴定序列中的新插入。最后，使用来自BLOSS包55的transeq将新插入的序列解码成氨基酸，以显示拼写为英文文本的消息。虽然这些工具可以用于更大的基因组和更复杂的问题，但我们发现这是一个非常有效的课堂练习，因为如果学生看到一个可解释的英语信息，他们会立即知道他们是否正确地遵循了指示。这个练习也适合新手，因为一切都可以在直观的Galaxy界面中执行，而无需任何命令行或编程经验。AnVIL门户：进入AnVIL生态系统已经有15，000多名用户使用AnVIL，用户数量正在迅速增长。的初始入口点Cell Genomics2，100085，2022年1月12日5会开放获取透视工作空间和批处理工作流数据模型，索引，查询共享容器化工具和工作流活的代码，方程式，形象化和叙述分析与理解R中的基因组数据可复制，可复制，透明的研究财团数据类型队列样品参与者大小（TB）千人基因组计划（1KGP）WGS13,2023,20272.98常见疾病基因组学中心（CCDG）WGS，WXS，临床表型198272,306256,3182,624.12孟德尔基因组学中心（CMG）WGS，临床表型4120,70616,59997.89融合神经科学WGS23043005.32基因型-组织表达（GTEx v8）WGS、RNAseq117,382979182.14人类泛基因组参考联盟（HPRC）短长读WGS15747223.47使用基因组学和流行病学的人口结构WGS469069016.98端粒对端粒（T2T）WGS13,2023,202571.64精神分裂症和双相情感障碍的全基因组测序（WGSPD 1）WGS59,5889,575177.36总254327,437290,9123,971.91图2. AnVIL生态系统(Top)AnVIL是一个用于分析大型基因组和相关数据集的联合云环境AnVIL是建立在一组已建立的组件上的，这些组件将广泛使用的平台结合在一起。Terra平台提供了一个具有安全数据和分析共享功能的计算环境。Dockstore提供基于标准的容器化工具和工作流共享。R/Bioconductor、Bioconductor和Galaxy为不同技能水平的用户提供了构建和执行分析的环境。Gen3数据共享框架提供数据和元数据摄取、查询和组织。AnVIL已被用于许多旗舰NHGRI和其他基因组学项目。截至2021年12月，AnVIL内可用的基因组学数据集摘要，如https://anvilproject.org/data所示。WGS，全基因组测序; WXS，全外显子组测序。6Cell Genomics2，100085，2022会开放获取透视AnVIL用户通过AnVIL门户网站（https://anvilproject.org）。该门户提供了系统内所有可用应用程序和数据集的统一入口，如下所述。此外，该门户还包含各种培训材料和公告，以及加载在AnVIL中的数据目前，AnVIL托管来自超过240个不同队列的超过280，000个人类基因组的数据，这些队列跨越CCDG、CMG、电子病历和基因组学（eMERGE）网络、基因型-组织表达（GTEx）56和其他几个主要的NHGRI项目（图2）。在此视图中，仅显示摘要信息，以便任何用户都可以浏览所有存在的数据集，即使他们没有被授权查看特定的数据文件。这样，用户可以了解什么是可用的（例如，特定疾病或表型的所有研究），并且如果需要，可以通过适当的DAC（例如，dbGaP或维护数据的协会）。AnVIL还维护了一些关键的开放获取数据集，最值得注意的是广泛使用的1000个基因组项目全基因组测序数据集，这些数据集来自不同的人类样本，5包括来自3，202个样本的原始数据和协调的变异调用。Gen3：大型数据集的管理、分析、协调和共享Gen3（https://gen3.theanvil.io）是一个开源的基于云的数据平台，用于管理、分析、协调和共享大型数据集。它基于一组具有开放API的基于标准的服务，称为特别是，它支持为数据对象分配持久性数字标识符，分配关联的元数据，并使用GA4GH数据存储库服务（DRS）标准访问数据对象，这是一种允许以云不可知方式访问数据的通用接口Gen3支持使用OpenID令牌的身份验证和授权管理，并与NIH Research and Authorization Service（RAS）交互。框架服务也被其他大规模基因组平台使用，包括NCI的癌症研究数据通信、NHLBI的生物数据催化剂和儿童第一数据资源。框架服务提供了基本的脚手架，使得诸如AnVIL之类的系统可以访问来自其他基于云的平台的基因组数据的数据，并且反过来使其数据可用于这些平台，假设支持这种互操作性的适当的策略已经到位。Gen3还提供使用图形数据库管理临床和表型数据和元数据的服务。Gen3的Windmill服务是一个基于图形数据库的交互式网站，允许用户浏览、提交和下载数据。Windmill服务允许基于表型变量和数据类型的交互式数据探索、搜索和队列构建。例如，使用Windmill，用户可以跨多个测序项目进行查询（例如，CCDG、CMG和eMERGE），以创建符合某组入选标准（例如，基于性别、种族或疾病状态）。然后可以将选定的群组导出到Terra工作空间中进行进一步处理（例如，疾病关联，表达分析，表达数量性状基因座分析等）。通过这种方式，研究人员可以通过对所有相关数据进行搜索和分析来回答特定的研究问题，从而最大限度地发挥AnVIL中数据的价值，即使这些数据最初是从不相关的测序项目中生成的。Terra：访问数据，运行分析工具，并在数据库Terra（https://anvil.terra.bio）是一个云原生平台，供生物医学研究人员访问数据，运行分析工具，并在AnVIL内进行协作。工作区是Terra的构建块-协作者可以访问和组织相同的数据和工具并一起运行分析的每个工作空间与云桶相关联，其中可以存储数据，诸如由工作流分析58生成的数据或用于交互式计算的笔记本文件。工作区还提供数据表，用于存储和维护类似于电子表格的结构化数据。通过包含指向数据在云中的实际位置的链接，数据表将大型数据集链接到工作空间工具。最后，在工作空间内，用户可以启动批处理分析作业或几个交互式计算环境中的一个，特别是Galaxy、R/Bioconductor和Anchoryter Notebooks（如下所述）。Terra 中的批处理分析主要使用工作流描述语言（WDL;https://openwdl.org）。WDL是一种专门的编程语言，用于指定具有人类可读和可写语法的数据处理工作流。WDL可以直接定义分析任务，将它们链接到工作流中，并并行执行它们，而无需重新调整应用程序以在不同的计算环境中运行该语言生成常见模式（分散/聚集等）简单的表达，同时也通过条件允许不常见或复杂的行为，并努力实现不仅跨执行平台而且跨不同类型的用户的可移植性。WDL可以在Dockstore中存储、共享和描述，并使用Cromwell计算引擎（https://cromwell.readthedocs.io）在Terra中执行，从而允许对甚至具有数万个样本的最大队列进行可重复分析。Dockstore：工具和工作流的注册表Dockstore（https://dockstore.org）是另一个广泛使用的平台，用户可以在其中查找、共享和使用策划的工具和工作流。工作流内容封装在Docker59中，并使用工作流语言进行描述。Docker的使用使Dockstore中的工作流可重复，使它们易于运行而无需用户安装。Dockstore使科学家能够共享分析工具，使其在各种环境中机器可读和可运行。Dockstore目前支持4种工作流语言：WDL、通用工作流语言（CWL）、Nextflow和Gal-Workflow（GW）。Dockstore目前在WDL中包含745个工作流，只需点击几下即可在Terra中启动。因此，Dockstore为用户提供了一个最直接的入口点，可以将批处理工作流添加到AnVIL中，因为它可以与任何可以封装到Docker容器中并在命令行上执行的工具/工作流一起工作。Cell Genomics2，100085，2022年1月12日7会开放获取透视Yutter Notebooks：透明代码、可视化和叙述Example Notebooks（https://jupyter.org）是广泛使用的开源Web应用程序，允许用户创建和共享包含实时代码、方程式、可视化和叙述性文本的文档。用途包括数据清理和转换、数值模拟、统计建模、数据可视化、机器学习和许多其他分析。Python支持多种编程语言，包括Python、R、Julia和Scala。YutterNotebooks是一种基于JSON的开放文档格式，包含用户会话的完整记录，包括代码、叙述性文本、公式和丰富的输出。熟悉的编程环境使用户可以在Terra内的安全和协作研究环境中轻松执行AnVIL数据的自定义分析。RStudio：交互式机学习，统计计算，和可视化RStudio（https://rstudio.com）是R的集成开发环境，R是一种广泛用于统计计算和可视化的编程语言。R及其库实现了各种各样的统计和图形技术，包括线性和非线性建模，经典统计测试，时间序列分析，分类，聚类等。R可以很容易地通过函数和扩展进行扩展，R社区积极地贡献了许多新的包。R的其他优势包括高级的静态和交互式图形，以及轻松创建图形用户界面，以便轻松使用高度专业化的软件包。R在AnVIL中得到了支持，通过Terra中执行的RStudio的Web版本和Anvyter Notebooks。RStudio界面提供了一个完整的集成开发环境（IDE），用于开发和执行代码，支持窗口界面，用于同时显示代码，绘图，数据和控制台。Bioconductor：社区驱动的R和RStudio交互式Bioconductor（https://bioconductor.org）是一个免费、开源和开放开发的软件项目，用于分析和理解基因组数据，重点是开发新的计算和统计方法来解释生物数据。其中许多方法是由Bioconductor社区的成员开发的，33Bioconductor项目是用R编程语言开发的各种统计工具的软件库。使用R中丰富的统计和图形功能，已经策划了超过1，900个Bioconductor软件包，3，200个示例性实验和50，000个模式生物注释资源，用于基因组数据分析。使用这些包只需要理解R语言。因此，R/Bioconductor软件包（包括针对基因组学中出现的问题定制的最先进的统计推断工具）被生物学家广泛使用，这些生物学家从他们探索和分析公开和私下开发的数据集的能力中受益匪浅。许多R/Bioconductor应用可以以不需要高级编程专业知识的方式呈现给用户，例如，有图形界面的“闪亮"应用程序。AnVIL/Bioconductor环境可以在RStudio或Jupiter Notebooks中访问，并包含AnVIL的许多重要资源，包括使用Bioconductor进行单细胞分析的在线书籍的完全可计算版本。47AnVIL Bioconductor包中还提供了各种与AnVIL API 进行编程交互的方法（ https ： //bioconductor.org/packages/release/bioc/html/AnVIL.html）。银河：可解释，可重复和透明的基因组科学Galaxy（http://usegalaxy.org）是一个开放的、基于Web的计算工作台，用于执行可访问、可重复和透明的基因组科学，每天被世界各地成千上万的科学家使用。Galaxy中有超过8，000种分析工具，现在可以在AnVIL中访问，包括变体调用和解释，染色质免疫沉淀测序（ChIP-seq）分析，RNA-seq分析，基因组组装，蛋白质组学，表观基因组学，转录组学以及生命科学中的许多其他分析。为了维护数据安全性，每个AnVIL用户都在Terra内的独立Galaxy实例中运行，他们可以导入未受保护的数据和他们有权访问的受保护的人类基因组数据集这是通过使用新开发的功能来实现的，该功能可以使用Kubernetes和新的导入工具以编程方式启动和管理Galaxy，该工具允许将数据添加到用户的实例中因此，AnVIL用户可以使用任何可用的Galaxy工具来分析或可视化兼容，隔离和安全环境范围内的数据。这标志着一个重大的进步，因为AnVIL用户现在可以利用Galaxy来分析受保护的人类数据集，这是其他公共Galaxy实例无法实现的。扩展AnVIL功能除了上述组件外，我们还在考虑多种方法来扩展AnVIL以包含新功能。最直接的方法是开发一个新的基于Docker的WDL，它可以启动新的分析工具，并包装一个分析或可视化工具，以便它可以在Galaxy GUI中执行。使用各种低级API和资源也可以实现更复杂的集成最近的努力集中在使用 Ku- bernetes（https://kubernetes.io）部署新的应用程序上，Ku-bernetes可用于在可伸缩的基础设施上管理非常复杂的软件栈。应用程序在Kubernetes clus- ter中由Helm（https://helm.sh/）以图表的形式部署和管理在这种设计中，Helm chart将应用程序的软件堆栈转换该模型最初由Galaxy团队开发，用于在AnVIL中部署Galaxy，可以复制和扩展，以便于将不同复杂性的其他平台集成到AnVIL中我们还开发了几个主要的附加组件，包括在AnVIL中部署seqr（https://seqr.broadinstitute.org）和UCSC基因组浏览器37数据访问和数据使用AnVIL的一个关键优先事项是确保负责任的数据管理，包括安全访问其云中的数据8Cell Genomics2，100085，2022会开放获取透视存储和计算环境。AnVIL数据访问工作组（DAWG）定义了用于安全地控制和授予对AnVIL中托管的受控访问数据集的访问权限的方法，并正在测试改进的流程用于处理数据访问请求（DAR）。DAWG评估进入AnVIL的数据，并考虑下游数据访问需求。例如，DAWG生成了AnVIL数据访问的一致性指南（https：//anvilproject. org/learn/data-submitters/resources/consortium-data-access-guidelines），以阐明对使用AnVIL的各个联盟的期望重要的是， DAWG 正在领导数据使用监督系统（DUOS;https://duos.broadinstitute.org/）的试点，这是布罗德研究所开发的一个平台，旨在通过促进和加强DAC的工作流程来60.试点项目目前包括多个NIH DAC，他们正在测试该系统并提供反馈，以进一步开发DUOS软件，特别是DUOS该算法利用GA4GH数据使用本体（DUO;https://github.com/EBISPOT/DUO）来编码数据集的数据使用术语和研究者在DAR内所提出的研究。61利用来自相同本体的术语中的这两个输入，算法可以评估所提出的研究是否在数据使用术语的范围内，并向DAC提供推荐的决定。从长远来看，该试点还将提供强有力的经验和概念证据，证明半自动化方法对数据使用监督的可行性。DAWG还在完善图书馆卡概念，通过该概念，机构可以预先授权受信任的研究人员制作受控的DAR。这个概念将利用GA 4GH通行证-港口签证规范（https://github.com/ga4gh-duri/ga4gh-duri.github.io）。62.如果实施，图书证概念将减少研究人员提交数据报告所需的步骤，同时确保研究人员有适当的权限这样做。如果成功的话，我们相信DUOS和图书证概念将使DAR过程标准化和简化随着多年来对数据的请求数量的增加，DUOS可以确保DAC成员的时间被保留用于对复杂请求的我们希望通过率先实施GA4GH DUO和护照标准，AnVIL将推动可互操作的，符合伦理的和加速的基因组学研究。Anvil社区AnVIL旨在支持广泛的用户社区，从多机构联盟到个人研究实验室，再到无法访问高性能计算的机构的计算工具开发人员和研究人员。这些社区的某些需求是共同的--能够上传、管理和共享受访问控制保护的数据，能够在工作流或交互式环境中进行高性能计算，以及能够开发培训材料并与更广泛的社区共享结果不过，潜水员-AnVIL用户群的规模还需要满足组成社区的特定d企业集团和数据生成器：这些团体的主要需求包括数据摄取、质量控制、管理以及联盟成员和合作者之间的共享。我们已在AnVIL平台上开发了一个数据输入和管理流程，该流程支持联盟共享其数据，同时确保用户管理和通过访问组访问，并遵循联盟截至2021年8月，AnVIL包含来自NHGRI赞助项目的200多个数据集，包括广泛接受的GTEx第8版数据，这些数据也可选择直接下载，无需支付出口费用。d研究小组和调查员：这些小组的主要需要包括获得数据、互动和批量工作流程计算环境以及管理其数据科学项目的能力。我们已经开发了一个用户管理系统，利用Terra工作流程和工作空间访问管理系统。我们还与 EASTDES（https://datascience.nih.gov/strides）合作，支持几个试点用户教育活动，着眼于将支持扩展到更广泛的研究社区。截至2021年8月，AnVIL已支持超过1，950名用户的计算，运行超过775个工作流程并启动超过240个工作空间。d计算工具开发人员：工具开发人员需要一个环境，以便他们能够重复测试其基因组数据科学工具，将其整合到工作流程中，并与更广泛的社区共享。AnVIL支持几种主要的部署方式，包括作为WDL工作流执行的Docker容器，可以在Galaxy中执行的conda包，以及新的Bio- conductor包。值得注意的是，通过利用现有的数据科学工具开发人员社区，成千上万的Bioconductor软件包和GW已经集成在AnVIL环境中。d资源不足的基因组数据科学社区：像AnVIL这样完全基于云的计算环境的最大优势之一是能够从任何地方进行高性能计算。AnVIL的基因组数据科学可供任何具有Web浏览器和互联网连接的人访问，将高性能计算的访问扩展到没有本地资源支持此类科学的社区。我们已经开始与社区学院、历史上的黑人学院和大学以及部落学院合作，称为基因组数据科学社区网络（http://gdscn.org），以支持使用AnVIL进行数据密集型基因组研究和教学。与其他云平台的互操作性从需要将数据下载到本地计算基础设施的约束中解放出来，基于云的研究环境正变得越来越广泛地用于简化数据访问，Cell Genomics2，100085，2022年1月12日9会开放获取透视专注于要做的分析例如，在 AnVIL 和包括NHLBI 的 BioDataCatalyst （ BDCat; https ： //www.example.com ）、 CommonFund的Gabriella Miller Kids First Pediatric Research Program（ GMFK;https ： //www.example.com ）和 NCICancerResearch D

下载后可阅读完整内容，剩余1页未读，立即下载