没有合适的资源?快使用搜索试试~ 我知道了~
→大规模多尺度工作流的可推广协调:大规模的挑战和学习哈什·巴蒂亚hbhatia@llnl.gov张晓华zhang30@llnl.gov克里斯·斯坦利?stanleycb@ornl.gov萨拉·科基拉·舒马赫saraks@ibm.com帝莫西·S.卡彭特carpenter36@llnl.gov詹姆斯·N. 格洛斯利河glosli1@llnl.gov弗朗西斯科·迪纳塔莱dinatale3@llnl.govJoseph R.查韦斯§chavez35@llnl.gov托马斯·奥佩尔斯楚普oppelstrup2@llnl.gov东河安贞ahn1@llnl.govSandrasegaram Gnanakarangnana@lanl.gov费利斯角,澳-地莱特斯通lightstone1@llnl.govJosephY.莫安moon15@llnl.gov菲克雷特·艾登aydin1@llnl.gov克里斯·尼尔cneale@lanl.govStephenHerbeinherbein1@llnl.govPe er-Timo Bremerbremer5@llnl.gov海尔吉岛英欧尔松ingolfsson1@llnl.gov摘要机器学习技术的进步和当前大多数超级计算机的异构体系结构正在推动对大型多尺度仿真的需求,这些仿真可以自动和自主地耦合不同的组件,并将它们映射到相关资源,以解决多尺度的复杂然而,尽管最近在工作流技术的进展,目前的能力仅限于耦合两个规模。在首次使用三种分辨率的演示中,我们提出了一个可扩展和可推广的框架,该框架使用机器学习和原位反馈耦合模型对。我们扩展了大规模并行多尺度机器学习建模基础设施(MU MMI),最近,美 国加利福尼亚州利弗莫尔市国家实验室法律研究所科学计算中心,邮编:94550†应用、模拟和质量,劳伦斯利弗莫尔国家实验室,利弗莫尔,加利福尼亚州,94550物理和生命科学,劳伦斯利弗莫尔国家实验室,利弗莫尔,加利福尼亚州,94550全球安全计算部,劳伦斯利弗莫尔国家实验室,利弗莫尔,加利福尼亚州,94550?计算科学与工程部,橡树岭国家实验室,橡树岭,田纳西州,37831理论生物学和生物物理学,洛斯阿拉莫斯国家实验室,洛斯阿拉莫斯,新墨西哥州,87545IBM ThomasJ. Watson研究中心,纽约州,纽约市,10598本作品采用知识共享署名国际4.0许可协议进行许可SC关闭MO,USA©2021版权归所有者/作者所有。ACM ISBN978-1-4503-8442-1/21/11。https://doi.org/10.1145/3458817.3476210屡获殊荣的工作流程,并概括了框架超出其原始设计。我们讨论了执行大规模多尺度模拟活动的挑战和学习,该活动在Summit上使用了超过60万个节点小时,并在超过83%的时间内实现了超过98%的GPU占用率我们提出的创新可以实现几个数量级的扩展,包括同时协调24,000个作业,每天管理最后,我们描述了我们的框架的普遍性,并与即将到来的开源版本,讨论如何提出的框架可用于新的应用程序。CCS概念•计算机器学习;多尺度系统;大规模并行和高性能模拟;模拟工具;·应用计算→计算生物学。关键词多尺度模拟,自适应模拟,大规模并行,异构体系结构,机器学习,癌症研究ACM参考格式:放大图片作者:John W.Moon,Xiaohua Zhang,JosephR. 查韦斯,菲克雷特·艾登,克里斯·斯坦利,托马斯·奥佩尔斯特鲁普,克里斯·尼尔,萨拉·科基拉·舒马赫,董H。放大图片作者:StephenHerbein. 放大图 片 作 者 : Carpenter , Sandrasegaram Gnanakaran ,Peer-Timo Bremer,James N. Glosli,FeliceC. Lightstone和Helgi I.英欧尔松2021.大型多尺度工作流的可推广在高性能计算,网络,存储和分析国际会议(SC '21),2021年11月14日至19日,圣。关 闭 KY , USA.ACM , 纽 约 州 纽 约 市 , 美 国 , 15 页 。https://doi.org/10.1145/3458817.3476210SC关闭MO,USAH. Bhatia等人×××1引言在科学和工程的所有领域中,复杂问题的计算解决方案越来越依赖于多尺度建模和模拟,以在比以前可能的更长和更大的时间和长度尺度上捕获复杂的现象[15,19,32,37,45]。因此,近年来已经看到了一个显着的转变,从大型单片仿真[30,33,69]转向大规模并行集成[17,24,38,58,61],由数千个不同规模的较小仿真组成,通过复杂的工作流程进行编排。向Exascale计算的推进[25]和新兴的超级计算技术- 特别是异构体系结构-进一步强调了对大型跨功能工作流技术的需求,包括编排,服务,模拟,机器学习,数据分析和可视化 ,以 至 于 工 作 流 现 在 被 称 为 Exascale 的 新 高 性 能 计 算(HPC)应用程序[9]。在下一代机器上启用这种大型多尺度仿真活动需要一个能够轻松、动态和透明地连接多个不同组件的工作流基础设施,同时平衡计算工作中的负载并管理生成的数据。虽然没有普遍的解决办法,但正在努力实现这些目标。特别是,MU MMI [37]最近的演示为大型多尺度模拟提供了一种新的范例,该模拟耦合了两个尺度-宏观和微观-使用由机器学习(ML)[12]和原位反馈驱动的动态采样 M U MMI工作流程[24]能够以前所未有的计算规模编排如此大规模的多规模活动,有效利用地球上一些最大机器上的所有异构资源(在Sierra上演示,使用176,000个CPU内核和16,000个GPU)。 此工作流可以协调数千个并发作业,管理各种组件,并生成和管理多TB的数据。然而,尽管取得了初步的成功,MU MMI的一些局限性阻止了推广到其他科学调查和扩大基础设施。在这项工作中,我们取得了两项关键的技术进步。首先,我们概括的范围和设计的MU MMI框架,以促进更广泛的适用性。为了实现这一目标,我们提出了一个更先进的工作流管理,使用通用的策略来耦合额外的建模技术和计算方法,需要不同的软件包,需要多种类型的工作,数据和计算,以及支持数据库技术的选择。特别是,我们展示了三个分辨率尺度来研究一个新的科学现象,并结合必要的具体细节,包括两个级别的ML和两种类型的反馈。随着MU MMI即将发布的开源版本,我们还提出了自定义和进一步扩展该框架以支持其他科学研究的指南。其次,我们解决了M u MMI工作流程中的几个计算瓶颈,并使用新的策略,展示了显着改进的缩放在 性能 这种限制的例子是一个缓慢的反馈机制和模拟调度方法。我们的技术创新不仅提高了MU MMI框架的可扩展性,而且还通过允许更有弹性的尺度耦合来提高其可推广性,这可能进一步扩大其适用性。捐款. 本文报告的新颖性,使这个框架充分推广到三个分辨率尺度(和潜在的其他应用程序),并支持不同的软件工具在各种HPC环境和足够的可扩展性,使一个更大的科学活动。我们描述了相关的计算挑战和策略,以解决现代超级计算机看似平凡的特质。具体而言,我们做出以下贡献。(1) M U MMI的概括:(a)支持不同的建模技术,特别关注扩展到三个分辨率尺度,两层基于ML的选择和两种类型的反馈;(b)合并数据库技术;(c)通用,可扩展的API和开源框架。(2) 工作流性能的扩展:(a)超过12个更快的反馈机制,以实现更频繁的规模耦合;(b)显式的模拟到作业映射,以直接控制每个模拟,由近3个 更快的作业调度支持;(c)更高效的ML框架,支持近165个数据,用于动态实时决策。(3) 展示了同类最大的模拟活动:(a)包括在世界上第二强大的超级计算机Summit上运行的全系统,(b)利用超过600,000个节点小时,(c)在超过83%的时间内使用超过98%的GPU,(d)同时协调24,000个作业,(e)每天创建和管理数TB的数据,以及(f)总共处理超过10亿个2RAS-RAF-膜蒸馏器RAS蛋白突变与美国近三分之一的人类癌症诊断有关,包括胰腺癌(约95%)、结直肠癌(约45%)和肺癌(约100%(约35%)癌症[59,66]。因此,有很大的兴趣在解开潜在的生物机制,开发有效的治疗方法。然而,尽管研究RAS,特别是KRAS(RAS最常见的突变形式[71])在各种癌症中多年,但目前没有FDA批准的靶向这些突变的治疗方法;因此,RAS通常被标记为不可用[43]。然而,最近的进展[53]表明,基础研究鼓励治疗发展。RAS蛋白定位于细胞质膜(PM)内部,并在细胞生长信号传导中充当分子开关。只有活化的RAS蛋白可以通过结合下游效应蛋白,特别是RAF蛋白来启动信号传导。RAS和RAF定位于PM的机制被假设为对于激活信号通路至关重要。然而,膜组合物的确切作用(例如,带电脂质对中性脂质),膜动力学(例如,起伏和域形成),以及影响这种定位的其他生理化学性质还没有完全理解。这些现象的计算建模是具有挑战性的,因为RAS和RAF在PM处的结合是固有的。大型多尺度工作流的可推广协调:挑战与规模学习SC关闭MO,USA图1:我们展示了一个大规模的模拟活动,重点是通过RAS-RAF蛋白复合物向细胞膜传递重要的信号机制,并在三个分辨率尺度上模拟了相关的相互作用。这些尺度通过基于ML的选择以成对的方式耦合,以促进重要的配置从粗尺度到细尺度。多尺度过程。基于粒子的模型在探索RAS和RAF之间的所有独特分子界面不同类型和尺度的分子动力学(MD)模拟用于模拟生物大分子的结构、动力学和功能之间的关系。特别是,全原子(AA)[44,56,64],粗粒(CG)[31,36,51,63]和超CG [55,60,73]模型已被用于模拟生物分子系统。长时间的连续模拟已经扩展到高µs到ms范围[35,56,64,71],已累积多个ms [6,44,52,72,76]。然而,这种模拟的一个典型限制是,在规模或持续时间上膨胀的模拟在另一个维度上是不够的,即,大而短或长而小。这正是多尺度技术所面临的挑战建模基础设施MU MMI [24,37]。为了同时扩展时间和长度尺度,MU MMI使用相对便宜的模型进行快速探索,并结合提供足够分辨率的更具描述性例如,根据动态密度泛函理论(DDFT)[50],使用连续描述来演化脂质的宏观模型可以容易地实现ms和μm尺度[37],M U MMI使用该尺度以所需的保真度生成和指导MD模拟。在这里,我们扩展到MU MMI以表征在RAS-RAF-膜系统中触发致癌信号传导的关键事件,如图1所示。3相关工作常见的批处理系统,如SLURM [77]和LSF ® [67],依赖于利用MPI类型通信的能力,以跨越具有固定资源需求的一组资源。然而,随着与传统的大型单一应用程序作业方法的显著偏离,现代工作流正在成为越来越复杂的相互通信阶段和微服务网络[9]。有几种解决方案专注于组装复杂的后处理能力[5,22,39]和大型静态集成[21,27,57]以及用于编排此类参数研究的工具[2,8,23]。总的来说,这些工具缺乏动态工作流所需的灵活性。相比之下,也存在可以通过交换信息(例如边界条件或甚至是边界条件)在解算器之间的整个然而,这样的方法,通过设计,提供极端紧密的耦合,是侵入性的,并且不能容易地适应。最近,人们越来越关注在工作流中使用ML来动态地将集合转向导入配置,并克服计算规模的限制。MU MMI [24,37],最近,屡获殊荣的框架,是ML驱动的,动态的工作流程的首要例子,并提供了一个新的范例,多尺度模拟耦合两个尺度的分辨率,在癌症研究的背景Casalino等人 [17]和Jacobs等人[38]最近的工作也利用不同形式的深度学习来提供探索COVID-19的大型多尺度模拟。MU MMI:多尺度机器学习建模基础设施。与我们的工作特别相关的是MU MMI [24,37],它提供了两个尺度的双向耦合-宏观和微观- 使用ML进行前向耦合,使用原位反馈进行后向耦合。 通过使用ML来动态选择最新颖的宏配置[12],M U MMI不断地将多尺度模拟转向新的探索,并且在足够的时间内,可以直接模拟每种类型的配置,或者作为类似配置的代理。MU MMI还分析了正在进行的微观模拟,并可以使用它们的结果来更新不太准确的宏观模型,从而创建一个自我修复机制,如果有足够的时间,将提高粗糙模型的准确性因此,MΜ MMI可以实现宏观的时间和长度尺度,但具有有效的微观尺度的精度以基于DDFT的连续模型作为“宏观尺度”,以CG模型作为“微观尺度”,M u MMI先前耦合了两个模型来研究RAS蛋白与PM的相互作用-这是我们目标研究的一个更简单和更小的M UMMI被证明可以在所有Sierra上扩展[24],占用所有可用的GPU来创建大量的CG模拟集合,这导致了对PM上RAS蛋白质动力学以及脂质和脂质指纹的影响的新见解[37]。尽管它的能力和成功的演示,M U MMI是专门为以前使用的两个特定模型[24,37],并有一定的计算限制,防止进一步的缩放。其中,MU MMI完全依赖于文件系统,因此受到GPFS吞吐量的检查。这SC关闭MO,USAH. Bhatia等人×××限制导致需要显式地限制某些I/O操作的速率此外,在作业调度的缩放获得捆绑类似的作业,以减轻调度器上的负载。然而,这种方法是不可取的,因为它阻止了对单个作业的显式控制总体而言,MU MMI的所有组件,包括作业和数据管理、数据和控制通信以及公开的API,都与特定问题紧密集成阻止了将MUMMI用于我们的新应用程序。4在这项工作中,我们提出了一种新的设计,扩展了M uMMI的通用性和可扩展性,并通过扩展M u MMI的工作流程,以支持第三规模的分辨率演示这些创新。此后,除非明确指出,MU MMI是指我们的新的,改进的,可推广的框架。广义上,多尺度模型可以通过尺度的成对耦合对于任何两个尺度,需要一些基本的构建块:(1)在两个(粗/细或宏观/微观)尺度上的模拟和分析(3)一种自动化的方法来决定哪些粗略的表示要提升到精细尺度,以及(4)一种执行反馈的方法在这种情况下,我们将MUMMI设计为包括两个部分-应用程序和协调(参见图2)。前者定义了应用范围(根据上面列出的构建块),例如,什么尺度是相关的,使用什么代码和/或模拟工具,什么ML技术是合适的,以及如何进行反馈?这些组件通常由计算科学家设计,他们是相应领域的专家;实际细节可能会因应用程序甚至模拟而异广义MU MMI工作流(协调部分)的作用是将不同的应用程序联系在一起组件,以促进多尺度模拟。我们首先讨论我们的三个规模的应用程序的具体细节其次是通用和定制的协调策略图2:我们提出了一个可推广和可扩展的框架,以不同的分辨率尺度耦合不同的模型。“应用程序”组件(顶部)定义了三个尺度,并且可以交换以支持其他应用程序,而“协调”组件(底部)提供了一个接口来耦合相关的工具,软件组件和技术,以促进可扩展的4.1三刻度MU MMI这项工作使用三种分辨率尺度:连续体,粗粒度(CG)和所有原子(AA),以及两种类型的ML为基础的选择和两种类型的原位反馈。虽然在这项工作中使用的每一个应用程序组件本身都有显着的创新,无论是建模,开发,或性能,我们只简要地描述这些组件,主要集中在其相当大的计算的多功能性,挑战工作流程。(1) 连续体模拟三个尺度的粗尺度是一个宏模型,它以牺牲精度为代价提供了速度。我们的宏观模型是脂质的连续描述,使用DDFT [50]来表示密度场方面的脂质动力学。蛋白质(位置和构型状态)被表示为彼此相互作用并与脂质相互作用的粒子。1 µm双层离散化以2400 ~ 2400网格划分,内层有8种脂类,外叶[34]。我们使用一个自定义的模拟包,GridSim 2D-一个并行CPU代码用C++编写,使用MPI进行通信。使用总共3600个MPI等级(每个等级24个CPU核心),150个节点),GridSim2D可以模拟每天10.96ms的walltime。在1µs的I/O速率下,每90秒发送一个新快照,当以自定义二进制格式存储时,374 MB的磁盘空间。(2) 图1:连续体到CG的映射 与连续尺度相比,CG和AA模拟由于计算成本高而在空间范围上受到限制。为了将连续谱与这些尺度耦合,在CG和AA模拟可能感兴趣的区域中从连续谱快照中切出30 nm 30 nm“补丁”。 该模块将一个补丁从连续表示转换为基于粒子的。疯狂的工具[74]用于创建膜和蛋白质的CG表示一旦构建,GROMACS [1]用于将膜和蛋白质松弛到更自然,平衡的状态,为模拟做准备SimpleSim是一个基于Python的自定义使用24个CPU内核的代码,平均需要1.5小时才能完成完成.(3) CG模拟与分析考虑到脂质和蛋白质的粒子表示,使用ddcMD [68]的 CUDA®启用版本[78]执行具有Martini力场[51]的 基于Python的自定义分析在同一计算节点上同时执行,并访问本地节点RAM磁盘,以分析相应模拟生成的MD轨迹。每个ddcMD模拟使用一个GPU和一个CPU核心;相应的分析分配了3个CPU核心。在这种设置和平均140,000个粒子的情况下,ddcMD每天在每个GPU上提供1.04µs的MD轨迹[78],每41.5秒产生约分析模块被调整为在该时间段内完成检查每个快照,每41.5秒生成17 KB的额外数据(4) 反向映射:将CG映射到AA。为了克服CG模型[4]的局限性,使用反向映射方案对其进行了进一步改进,该方案使用CHARMM 36力场[10]将CG表示在时间上转换为AA本程序×× ××大型多尺度工作流的可推广协调:规模SC'21的挑战和学习,2021年11月14日至19日,圣。关闭MO,USA从ddcMD轨迹中检索选定的快照,使用后向工具的修改版本[75]将CG转换为AA模型,使用GROMACS [1]执行能量最小化和位置 约束MD 的 循环 ,最 后使 用ParmEd [65] 将 数据 格式 从GROMACS转换为AMBER。使用18个CPU内核,每个反向映射运行平均需要102小时才能完成。每次反向映射计算产生2.9每2小时在本地节点RAM磁盘上存储大约10 GB数据,将0.5 GB数据备份到GPFS以初始化AA模拟。(5) AA模拟和分析。 一旦回映射,AA配置使用AMBER MD模拟包进行模拟[18,62]。一个GPU被分配给每个模拟,因为多GPU设置由于跨GPU或跨节点的通信缓慢而效率低下。相反,与CG情况类似,许多单GPU MD模拟并行运行以实现更好的GPU利用率,并且执行基于Python的分析模块,该模块在生成新的AA轨迹快照时立即对其进行分析。平均原子模拟系统包括1.575M原子和模拟生成几乎13.98 ns每GPU每天。模拟以0.1 ns帧速率每10.3分钟产生一帧,其中每帧的大小约为18 MB。(6) 基于ML的Patch和CG帧选择。 我们的三尺度模拟活动需要两层采样,以成对的方式耦合尺度-两层在原理上相似,但在技术细节上不同。从连续体数据中提取的30 nm 30 nm贴片在通过使用深度神经网络实现的度量学习方法生成的简化的9-D表示中进行“新颖性”评估 类似于Bhatia et al. [12],最远点采样方法用于识别新的配置,尽管我们的补丁几乎大55(在37 37网格上采样而不是5 5)。在相关CG帧的情况下,RAS-RAF复合物的构象状态使用3-D表示进行编码,这与补丁的表示不同,不利于最远点采样。因此,开发了一个新的框架,通过在这个3-D空间中的离散的,基于直方图的采样来识别(7) CG到连续体和AA到CG反馈。CG到Continuum反馈聚合通过CG模拟的在线分析计算的蛋白质-脂质径向分布函数(RDF),并将聚合结果传播到正在进行的连续模拟,连续模拟实时读取和更新这些参数。每个反馈迭代必须快速处理新帧(特别是RDF),预计每个模拟每3- 4分钟创建一次,或者对于同时运行3600个CG模拟的中等大小的分配,每分钟创建900-1200个在AA到CG反馈的情况下,从AA框架计算蛋白质的二级结构并进行分析,以确定在AA模拟中观察到的蛋白质二级结构的最常见模式CG蛋白质模型的力场参数取决于二级结构,因此,参数被逐步细化,以实现更准确的CG模型。 尽管对于这种类型的反馈,传入帧的速率较低,但是每个帧需要更长的处理时间:每10分钟2400个新帧(假设在1000节点规模下的2400 AA模拟),并且处理每个帧需要对外部模块进行两次系统调用,单独需要200s。4.2数据管理的通用框架MU MMI支持的大型仿真活动的一个自然副产品是大量和各种各样的数据。数据的大小通常只是许多问题之一,因为计算限制可能与数据的预期用途有关。例如,一些数据可能需要仅在模拟之后被访问,而其他数据可能需要由一个或多个模拟组件在原位读取/更新。这两种情况造成不同类型的问题,需要不同的解决办法。 M U MMI早期的数据管理方法是使用有效的数据存档,这对前者非常有效(即,只写),但不是那么多的后者。 为了支持频繁的反馈回路(即, 需要快速访问和跟踪什么数据已经被处理的系统方式),基于数据库的方法是理想的,但是它们可能不支持非常大的文件,例如, MD轨迹。我们没有推测所有可能的场景并创建定制的实现,而是开发了一个抽象的数据接口概念来支持不同的特定后端。目前,我们使用三种后端:filesystem、taridx和redis。 通过提供抽象API,可以定制标准数据格式的实现,例如, 将Numpy存档保存到字节流中,可以毫不费力地重定向到文件,存档或数据库-所有这些都只需一个配置开关。 这些数据接口在M U MMI中的可用性为应用程序开发人员提供了巨大的灵活性,因为特定模块可以在很大程度上实现读写细节不可知,并且为工作流开发人员提供了巨大的灵活性,因为不同的特定接口可以隔离地实现和测试,并且相对容易,减少了开发新功能和应用程序的开销。最简单的数据接口直接访问文件系统,即,从/向磁盘读取/写入数据。此功能最适合于小文件,例如,存储模拟状态的那些(检查点、日志等)。)、那些可能需要单独分析或传输的数据、以及那些可能需要与标准工具接口的数据(例如,GROMACS、AMBER等),因此被限制为某些非标准数据格式。在需要时,I/O防护和冗余用于防止文件系统故障,例如,备份检查点文件,并在读/写失败时重试。尽管如此,大规模保存单个文件可能会由于大量的inode而限制文件系统。减少inode数量的最简单方法之一是将文件收集到归档中。为了支持归档数百万个文件,我们通过补充索引文件提供随机我们扩展了M U MMI的归档功能,并将其打包到一个更通用、更可扩展的模块pytaridx中,该模块用于管理任意数据格式(即, 通用字节流和文本流的读/写)。使用pytaridx创建的存档是标准的tar文件,它是可移植的,可以与常用的解码器一起使用。存储数据是管理大量文件的简单而优雅的解决方案通过设计,这种方法可以防止数据损坏,×××SC关闭KY,USAH. Bhatia等人硬件/软件故障,因为文件仅在追加模式下写入。但是,相同的功能会阻止在需要时更新在许多情况下,在某些处理步骤之后,可能需要更新、删除或移动数据,这使得归档策略不适用。 尽管可以显式地操作关联的索引文件来“删除”键,但数据本身无法更新。因此,对于原位反馈回路,我们采用数据库backend.特别是,我们使用Redis™的Python接口[46]。以存储任何需要高吞吐量和更新操作的数据M U MMI的redis接口设置了一个Redis服务器集群,这些服务器随机分配给所有计算节点。任何M U MMI组件,应用程序或协调,都可以与redis接口进行数据查询,而所有内部细节(例如,数据库和集群)从用户中抽象出来。通过使用Redis,我们消除了从磁盘存储和读取RDF的需要;相反,我们利用Redis作为短期和高度响应的内存缓存来减少每个反馈循环的时间此外,通过Redis执行反馈减少了GPFS上的负载,并允许它远离任何可能严重延迟从/到高度竞争目录的读/写的额外机制,例如目录锁定和其他OS级别的阻塞调用。4.3作业调度的改进的MU MMI工作流程促进了深思熟虑的资源布局策略,以最大限度地提高仿真吞吐量,并提供异构资源的 有三个关键的新颖性,我们已经纳入M U MMI的调度方法。首先,我们将GPU单独分配给模拟,而不是每个节点-这是一个关键的功能,既可以显式控制模拟,也可以有效地使用异构体系结构。以前[24],M U MMI通过在计算节点上捆绑模拟来扩展作业调度,捆绑中的每个模拟消耗一个GPU(在Sierra上,4个GPU/节点转换为4个模拟/作业)。虽然可扩展,但这种捆绑策略阻止了对每个模拟的显式控制,降低了资源的有效使用(当单个模拟保持作业活动并继续占用节点时,最坏情况下的利用率为1/4)。当迁移到Summit时,这种限制只会加剧(6个GPU/节点导致最差情况下的利用率为1/6)。为了便于有效地利用资源进行感兴趣的模拟,并提供直接控制的应用程序的模拟,我们其次,我们显式地使用子过程来结合模拟和相应的分析,以直接控制用户的模拟。这种方法以两种方式简化和概括了工作流程:MU MMI只需要监控基于Python的分析作业,它在内部处理启动,监控,检查点,并在需要时恢复模拟,以及确保原位分析跟上正在进行的模拟。其次,这允许应用程序开发人员轻松实现新类型的模拟和分析,而不会受到工作流的干扰。 MUMMI提供了一个抽象的框架和几个实用程序来定义超出我们当前应用程序的模拟。最后,为了支持处理任意类型的作业,我们提供了一个通用和抽象的作业跟踪器,可以使用继承的类和配置文件的组合进行自定义在不失一般性的情况下,描述我们的目标模拟活动的资源和工作安排(在Summit上),这需要四种类型的工作:CG设置,CG模拟/分析,AA设置和AA模拟/分析。在这种情况下,两种类型的模拟都使用一个GPU,并绑定到两个共享缓存的CPU核心。 每个相应的分析任务都放在最靠近PCIe总线的少量CPU内核上,以确保快速的数据移动。最后,所有设置作业都只在CPU核心上工作,并在节点内分配24个核心,保留所有GPU仅用于模拟并防止节点间通信。作业调度工具 为了实现作业调度的可移植性,M U MMI工作流与Maestro [23]接口,Maestro [ 23 ]提供了一致的API来调度和监控作业。在后端,Maestro可以与不同的作业管理员进行交互通过吸收不同作业调度器的变化和特性,Maestro允许MUMMI对调度器的特定选择不可知对于作业调度,我们使用Flux [3],这是一个功能齐全的HPC工作负载管理器,配备了分层资源管理器和批处理作业调度器,并且具有许多旨在满足新兴大规模工作流需求的功能。一个特别有用的特性是单用户模式,它允许用户在标准批处理分配中实例化一个Flux提供了许多策略旋钮来定制调度行为。在这里,我们选择面向吞吐量的排队选项(即,先到先服务而不进行排队)以及资源匹配(即, 低资源ID优先),以根据作业的资源和亲和性要求精确地映射不同类型的作业。4.4工作流管理MU MMI由可配置的工作流管理器(WM)协调。一般来说,WM的作用是通过消耗相关数据(在这种情况下,来自连续体和CG模拟),支持基于ML的选择,产生相应的模拟(分别为CG和AA),并通过从多达数万个运行的模拟中提取和聚合数据来促进反馈循环,从而耦合尺度。WM还负责跟踪所有正在运行的作业、管理数据、分析和其他一些任务。在这里,我们详细介绍了在RAS-RAF-PM模拟活动的特定背景下WM执行的一些关键功能任务1:处理用于消费的粗规模数据。连续模拟生成的数据跨度为1 µm 1 µm,必须进行解析以生成30 nm 30 nm感兴趣的斑块(RAS和RAF蛋白周围的 WM协调Patch Creator,后者读取每个快照,创建补丁,并输出它们供框架的其余部分使用。需要处理单个快照需要14秒,并以标准Numpy格式保存生成的补丁;每个补丁占用约70 KB的磁盘空间,并提供简单便携的I/O。处理CG数据是具有挑战性,因为与连续体规模(只有一个模拟)不同同时执行数千个CG模拟。解析成千上万的CG轨迹来提取帧姿势大型多尺度工作流的可推广协调:规模SC'21的挑战和学习,2021年11月14日至19日,圣。关闭MO,USA在(中央)WM上的显著I/O成本,并且因此以分布式方式完成为了快速吞吐量,每个CG分析以识别信息(BS850 B)的形式输出感兴趣的帧,该识别信息对于下游任务是最小的且足够的。任务2:选择重要的补丁/帧来生成新的CG/AA模拟。一个自定义的抽象API是使用DynIm框架[12,14]开发的,该框架由Patch接口和(CG)Frame接口扩展以实现特定的过程。这两个选择器都对DynIm的高维点对象进行操作这些编码表示可以 可以使用ML推理引擎(如Patch推理机所做的)来计算,更简单的降维(例如,主成分分析)或任何配置表示(如由Frame分析完成的)。一旦生成新数据,WM就摄取用于选择的新候选者(补丁和帧),而根据请求进行新选择,即, 当模拟转换和/或新资源可用时。由于选择事件比添加事件少几个数量级,因此我们使用缓存方案将昂贵的计算推迟到选择时,这使得添加新候选项的成本可以忽略不计。这两个选择器还支持动态和几乎实时的选择。为了支持应用程序的需要,我们在Patch中加入了五个内存队列,用于对不同的蛋白质配置进行采样。为了计算可行性,每个队列的上限为35,000个补丁。当完全填充时,需要3-4分钟来更新所有队列中所有候选人的排名;然后,选择顶部候选人的成本微不足道。给定补丁的9-D编码,使用FAISS框架提供的近似最近邻查询(具有L2距离)更新排名[41,42]。与用于补丁的编码不同,帧编码依赖于CG帧的3D编码,表示三个不同的量;因此,L2距离没有意义。 为了支持功能上有用的采样,开发了一个分箱采样器(使用DynIm API),允许单独处理编码的三个维度。分箱采样方法还有助于控制重要性和随机性之间的平衡- 选择CG帧的另一个功能要求。这种新的抽样方法能够提供更快的排名更新:9 M候选人的3任务3:调度和管理(数万个)作业。为了最大化资源占用,WM定期扫描所有正在运行的作业以确定完成(成功或失败),并提交新作业(或重新提交失败的作业),以便在资源可用时重新使用资源。如果需要新的设置作业(模拟或反向映射),则(分别对补丁或CG帧)进行新的选择,并且将刚刚结束的设置作业排队以进行相应的模拟。当需要新的模拟作业时,这些排队的作业被挑选。为了防止GPU停机,CG和AA模拟集都是预先准备好的(设置完成)。这些集合的大小是在资源可用性准备和模拟陈旧配置之间的权衡。这种用户可配置的权衡决定了CPU的利用率,因为安装作业仅在CPU上工作,并且满缓冲区会阻止新的安装作业。我们注意到,关于作业监视的这些特定细节可以由用户通过不同类型的作业跟踪器的特定配置来控制,例如,工作的相互依赖性、资源和时间要求以及评估模拟成功和失败的具体方法。任务4:促进频繁的反馈迭代。一般来说,反馈迭代从所有运行的模拟中收集数据,对其进行处理并报告分析。开发了一个新的抽象API,反馈管理器,以允许控制特定的在CG到Continuum反馈的情况下,虽然输入数据的速率很高(对于典型的分配,每分钟900-1200个新帧),但是每个数据点本身很小并且易于处理。可以并行(从文件读取时)或串行(使用高吞吐量数据库时)获取新帧。接下来,尽管结果的报告是微不足道的,但WM需要一种方法来“标记”已处理的帧以防止重新处理。在内存中维护这些信息很简单,但在规模上是禁止的,需要将新帧(的id)与处理过的帧进行比较,并经常检查这些内存中的信息,以防止硬件或软件故障。相反,我们使用另一种策略,将每个处理过的帧移出相关的名称空间(即,将文件移动到tar存档或重命名数据库中的键)。虽然这种策略增加了完成任何给定反馈迭代所需的时间,但它提供了巨大的可扩展性,因为这种成本仅与正在进行的模拟的数量而不是与生成的总模拟帧有关AA到CG的反馈使用类似的策略,关键的区别在于它处理的帧更少,每个帧需要更长的处理时间。 结合可定制的后端和定制的多处理池,这些改进和抽象的反馈管理器允许我们定制两种类型的反馈,以便在给定的时间限制内完成。锁定和锁定。这四项任务在很大程度上是独立的,可以并行执行。然而,这些进程可能需要共享某些对象(例如, 贴片贴片用于ML选择和反馈)。WM促进适当的机制来防止竞争条件。特别是在这项工作中,线程安全对象与阻塞锁和非阻塞锁一起使用 虽然这些策略很重要,但也会影响绩效,例如, 当反馈过程可能必须等待以获取锁时。对系统故障的恢复能力。MU MMI通过将容错支持直接内置到它使用的一些关键软件工具例如,Flux提供了对计算节点故障的弹性;它完全支持检测节点故障并排出故障节点,以便在保持现有作业运行的同时无法调度新作业。类似地,Redis是一个行业标准,它利用冗余来减轻通信中的故障MU MMI旨在继承这些工具中的大部分基本弹性支持此外,我们的工作流程采用了彻底的检查点机制,以防止软件和硬件故障,并可以在任何此类崩溃后完全恢复,而不会丢失太多数据。所有SC关闭MO,USAH. Bhatia等人×103CG共计= 34 523模拟次数以15分钟的间隔,用它们自己的模拟代码对模拟进行检查点设置,并且如果需要,可以对任何丢失的帧进行检查。还维护检查点文件的备份,以减轻检查点设置期间文件系统故障的问题。数据I/O和通信的组织方式是,如果数据生产者失败时,消费者组件只需等待,直到生产者恢复并继续提供新数据。另一方面,如果消费者失败,则未消费的数据简单地聚合,并在消费者再次在线 除了检查点之外,关键组件(ML和作业调度)还维护了精心制作的历史文件,如果需要的话,这些文件可以精确地重放。我们的归档策略在故障发生时也非常强大-表1:MU MMI可以在不同的计算规模下无缝(重新)启动运行。这项工作在Summit上使用了超过600,000个节点小时,使用了不同规模的几次运行。节点数壁时间运行次数节点小时1006小时5300010012小时3360050012小时318,000100024小时20480,000400024小时196,000如果在写入过程中发生故障,则重新插入相同的密钥15并被认为是正确的值。2104.5可移植性和通用性1的 两部分 软件 架构 的MU MMI是高5可概括的第一部分(协调)由几个通用的和经过良好测试的(例如,Redis、Flux和Maestro)或0 00 1 2 3 4 5 0 10 20 30 40 50 60 70新建的(例如,pytaridx和DynIm)工具提供了一个完全通用的工作流程和数据管理平台。通过其模拟长度(s)模拟长度(ns)第二部分,MU MMI将特定于域的逻辑插入该平台。大多数这样的组合是通过定义良好的接口完成的。尽管某些高度特定于域的组件可能不是通用的,但整个框架本身仍然是高度通用的,因为其他应用程序可以通过相同的接口交换我们的特定于域的组件以换取其他合适的组件。此外,尽管M u MMI工作流程的庞大规模和复杂性以及它所支持的功能需要专业的HPC使用,但我们已经花费了大量精力来减轻高级和积极用户的进入障碍,专注于部署,可移植性和扩展等常见但重要的挑战。在最高层次上,M u MMI的不同组件直接依赖于大约20个软件和工具,而完整的依赖关系树的大小超过150个包。一些依赖是标准的包,而另一些则是很少或没有支持的小工具。我们使用Spack [ 28 ]来解决移植和部署软件栈的挑战,以简化流程。在必要时,我们创建了额外的包,图3:MU MMI实现了RAS-RAF-PM相互作用的大型三尺度模拟,使用具有不同长度的数千个CG和AA模拟(如图所示)以及单个连续模拟(此处未显示)来覆盖运行超过20.5ms的大长度和时间尺度。例如,抽象的作业跟踪器可以通过用于各个作业规范的继承和配置文件来扩展(例如, 命令和资源)。类似地,抽象反馈管理器可以被扩展以指定适合于应用的反馈的确切性质(例如,如何读取、解释和聚合数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功