没有合适的资源?快使用搜索试试~ 我知道了~
软件X 14(2021)100679原始软件出版物调整LIGO工作流程以在开放科学网格中运行埃德加·法哈多a,弗兰克·伍尔思韦恩a,布赖恩·博克尔曼b,米龙·利夫尼b,格雷格·塞恩e,James Alexander Clarkc,Peter Couvaresd,Josh Willisda加州大学圣地亚哥分校,9500 Gilman Dr,La Jolla,CA 92093,USAbMortgridge Institute,330 N Orchard St,Madison,WI 53715,USAc美国佐治亚理工学院物理学院,亚特兰大,GA 30332dLIGO,加州理工学院,帕萨迪纳,CA 91125,美国美国威斯康星州麦迪逊大学ar t i cl e i nf o文章历史记录:2020年3月30日收到2020年12月7日收到修订版,2021年保留字:LIGOOSG网格DHTCa b st ra ct在第一次观测运行期间,LIGO合作需要将一些最密集的CPU工作流从其专用计算站点卸载到机会资源。开放科学网格使LIGO能够运行PyCbC,RIFT和Bayeswave工作流,以无缝地在自有资源和机会资源的组合中运行挑战之一是使工作流能够以协调和有效的方式使用多个异构资源。版权所有©2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v3.6.1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_104法律代码许可证BSD许可证使用git的代码版本控制系统使用Python 2的软件代码语言、工具和服务编译要求、操作环境依赖性RedHat 6或RedHat 7如果可用,链接到开发人员文档/手册glideinwms.fnal.gov问题支持电子邮件glideinwms-support@fnal.gov1. 动机和意义为了实现LIGO协作的科学和发现目标,运行了几个CPU密集型工作流程的在某些时候,管道会在LIGO拥有的计算实验室中争夺计算资源。有机会将这些管道中的一些从专用资源迁移到自有资源和机会性资源的组合LIGO合作与开放科学网格(OSG)[1]合作,使PyCBC [2],RIFT [3]和Bayeswave [4,5]工作流程能够在网格上运行。这些工作流共享相同的结构。它们由几千个单独的任务组成,*通讯作者。电子邮件地址:emfajard@ucsd.edu(Edgar Fajardo).https://doi.org/10.1016/j.softx.2021.100679工作,不需要他们之间的沟通。任务运行时间以小时为单位这种内 在 的 并 行 公 式 使 它 们 成 为 OSG 中 分 布 式 高 吞 吐 量 计 算(DHTC)模型的候选者。分布式模型产生了数据分布的挑战:LIGO实验数据在干涉仪位置产生,然后存储在一些计算中心。问题在于将数据分发到世界各地的所有参与计算中心,以便工 作 流 使 用 。 OSG 解 决 这 个 数 据 交 付 问 题 的 方 法 是 通 过Stashcache [6]。简单地说,Stashcache是一种基于XRootD的文件块缓存技术[7],可以按需向作业提供大量数据。这些作业使用GeoIP从位于世界各地的一组方便的缓存中检索最近缓存的数据。2352-7110/©2021作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxEdgar Fajardo,Frank Wuerthwein,Brian Bockelman等.软件X 14(2021)10067922. 软件描述图1.一、 HTCondor架构的 描 述 [8]。2.1.2. GlideinWMS架构GlideinWMS试点系统建立在HTCondor之上OSG中的DHTC模型由Glidein智能管理系统(GlideinWMS)系统提供动力[9,10]。这是一个试验性的模型系统,在这个系统中,异质站点的资源被收集起来,并作为一个单一的同质资源库呈现给科学家。GlideinWMS基于HTCondor [11]批处理系统,旨在根据需求创建不断变化的资源池。2.1. 软件构架2.1.1. HTCondor架构HTCondor 批 处 理 系 统 架 构 由 三 个 组 件 组 成 : 调 度 器(schedd),中央管理器和计算机器(见图1)。①的人。调度器是面向多用户客户端的架构的一部分,负责提交作业,维护作业队列,并将作业所需的输入和在通常的设置(包括由LIGO协作使用的设置)出于可扩展性和容错的原因,部署几个schedd来服务单个池。HTCondor架构的第二个组件是中央管理器。中央管理器由两个守护进程组成:收集器和协商器。收集器守护程序跟踪池中的所有信息。这包括哪些计算机器是忙/空闲的以及哪些用户在队列中有空闲作业协商器使用来自收集器的信息来决定哪个作业与哪个资源匹配,以及决定哪些用户具有使用这些资源的最高优先级HTCondor架构的最后一部分是运行在计算节点中的守护进程StartD。StartD守护程序在HTCondor池中的每个计算节点上运行,并在空闲或繁忙时通知收集器机器的使用情况。一旦它被分配了一个作业,它联系相应的schedd来开始 这份工作架 构 ( 见 图 1 ) 2 ) 并 介 绍 了 另 外 两 个 部 分 : fact-ries 和frontends。后者是一组Python守护进程,它们连续查询单个HTCondor池中的提交主机(图2中的步骤2)并计算资源需求 基于这个需求,前端要求工厂代表它向网格站点提交试点(图5中的步骤5)。 2)的情况。工厂根据前端请求的压力提交试点(图6中的步骤6)。 2)的情况。为了使工厂提交到站点,站点必须具有计算元件(CE),其将网格提交“trans-lates”前端安全地将其凭证发送到工厂,以代表前端提交给CE。一旦提交了一个试点并在站点批处理系统上运行,它就会联系工厂中运行的Web服务器以下载配置和HTCondor二进制文件,然后试点从前端最后,它启动HTCondor守护进程(作为非特权用户)并连接回池收集器(图2中的步骤7)。从这一点上看,试点看起来就像HTCondor池中的任何其他资源StartD将其功能传递给收集器(图8中的步骤8)。 2)和schedd开始一个工作从它的队列进入试点(图9中的步骤9)。 二、推荐的用法是每个前端都由一个科学共同体,从现在起我们称之为虚拟组织(VO)。工厂是集中运营的服务,可以为多个组织服务,从而降低运营成本[12]。2.2. 软件功能GlideinWMS池可以从多个异构网格站点收集资源CE的类型在各站点之间变化最大。该工厂广泛使用Condor-G [11]功能提交给CREAM [14],ARC-CE [15]和HTCondor-CE [16]以及几个商业云提供商,如Amazon Web Services和Google Cloud。这种架构的优势在于可以收集的资源A的可扩展性Edgar Fajardo,Frank Wuerthwein,Brian Bockelman等.软件X 14(2021)1006793图二. GlideinWMS架构的描述[13]。GlideinWMS池已被测量超过200k运行作业[17]。GlideinWMS在异构资源中有效地处理GPU和CPU工作负载的混合集[18]。此外,schedds可以在计算节点之间来回移动几千兆比特/秒的流量[19]。最后,GlideinWMS和HTCondor通过与Singularity的集成,为每个用户提供了在他们选择的容器环境中运行任务的能力[20,21]。3. 说明性实例这些能力都是由LIGO实现的。由于工厂能够提交不同类型的CE,它在WLCG [22]上使用VIRGO资源。此外,除了OSG中的传 统 资 源 外 , 它 还 使 用 了 几 个 HPC 站 点 , 如 Comet [23] 和BlueWaters [24] 图图3展示了LIGO如何消耗来自多个异构站点的资源,这些站点之间不需要进行通信即可进 行 协作。由于RIFT流水线适合在分布式环境中运行,GlideinWMS去年在几个站点中获得了超过240 k GPU小时(见图1)。 4).4. 影响过去四年来,引力波科学和多信使天体物理学的进步完全取决于复杂的、计算要求高的数据分析技术的有效和智能应用。这一需求的一些最大驱动力来自描述引力波信号和估计祖系统参数的努力。 为了满足这些技术需求的计算负载,重力波社区已经显著地将其资源使用多样化到专用站点之外,以包括更多分配的和机会 性 的 资 源 。 率 先 使 用 机 会 资 源 的 两 个 参 数 估 计 管 道 是BayesWave [4]和RIFT [3]。这些管道通常在LIGO拥有HTCondor计算集群。在这些集群中,运行时环境(操作系统、库等)是高度受控和统一的。此外,编写的代码期望输入帧文件在POSIX挂载中的特定位置。Singularity提供了在特定容器中运行作业的功能,因此管理分布式环境的解决方案变成了为每个应用程序开发特定的反过来,这些容器将分发给所有LIGO拥有或不使用CVMFS的站点[21]。此外,CVMFS与stashcache一起使用,在所有计算站点提供一个类似POSIX的挂载,为正在运行的作业提供输入数据,从而也解决了数据交付问题。BayesWave是一种设计用于鲁棒信号分类和波形重建的算法。这里的最终目标是评估相应的贝叶斯后验概率,即给定的一段数据包含引力波信号,而不是地球起源的瞬态然后使用数据的小波分解的参数上的后验概率密度函数来重建或去噪基础信号。在引擎盖下,贝叶斯波利用可逆跳马尔可夫链蒙特卡罗算法来探索引力波信号,仪器毛刺和高斯噪声的变维参数空间。即使使用这种高效的随机采样算法,将单个亚秒持续时间的假定引力波候选者的置信贝叶斯波分类为天体物理或地球起源,以及基础波形的重建,也可能需要在单个核心上进行长达48小时的计算。此外,对推定信号的完整表征需要大规模蒙特卡罗模拟:一方面,检测声明的统计意义最终通过对被认为仅包含噪声的数据重复运行算法来确定;另一方面,波形重建与其他分析的比较通过对其他分析报告的引力波信号的数千次模拟运行贝叶斯波算法来量化。通过将分析或数值模型预测的波形与引力波探测器网络的数据进行比较,可以确定涉及黑洞和中子星合并的众所周知的引力波源的属性这里的最终目标是生成一个后验概率密度函数,我们可以从中选择点估计和可信区间的祖先系统的参数的兴趣,如质量,自旋配置,等等。虽然这在原则上是直接且适定性的,但许多因素导致计算成本高昂的分析:一个大的和不确定的参数空间;每个源的复杂波形模型的评估数百万次;和一个往往是丰富的结构,多模态的似然函数,它是很难有效地采样。即使使用简化的双中子星合并波形模型,这些分析也可能需要数小时甚至数周,这取决于合并的程度。模型的参数空间和复杂性。复杂的双黑洞合并模型,其中包括更多的异国情调的现象,甚至可能需要几个月的时间来准确地确定Edgar Fajardo,Frank Wuerthwein,Brian Bockelman等.软件X 14(2021)1006794∼×图三. 过去两年OSG上LIGO的站点使用分布。纵轴是每月CPU核心小时数,峰值为每月450万小时,平均约6000个核心。图四、去年 LIGO GPU使用情况的 站 点 使 用 分 布 。纵轴是每月的GPU小时,峰值为45,000,或平均约60个GPU。系统的参数与置信度的收敛结果。与BayesWave一样,需要通过大规模Monte Carlo模拟来充分探索模型系统,从而进一步增加了成本用迭代拟合法快速推断引力波源参数,RIFT通过高度并行化的基于网格的算法降低了采样效率和波形生成的固有成本RIFT不是直接从所有系统参数的联合后验概率分布中采样,而是在内部参数上构建网格(即,确定系统动力学的那些;通常是直接天体物理学感兴趣的参数)并采用蒙特卡罗积分来边缘化外部参数(例如,事件的时空坐标及其相对于地球的取向,这可以被认为是“讨厌的”参数)。通过在每个网格点生成所有可能的模型值的初始缓存,有效地评估了内部参数的边缘化可能性边缘化似然值的网格然后提供高斯过程插值的种子,以近似完整的连续似然函数。然后通过自适应蒙特卡罗技术获得来自目标后验分布的样本。RIFT代码通过利用GPU。在初始CPU限制计算以评估波形模型与数据的内积之后,执行从这些内积产生似然性的矩阵运算以及对外部参数的边缘化在GPU上。在英特尔(R)至强(R)Silver 4116上运行的典型单线程CPU绑定作业完成的挂壁时间约为7小时43分钟。当相同的可能性评估 在Nvidia Quadro P2000上执行作业,使用相同的CPU,完成时间刚刚超过23 m,提高了20在科学分析方面,GW170817双星事件的RIFT特征化需要14个核心日,而使用更传统的采样技术进行可比分析RIFT代码用python编写,使用CUPY实现基于CUDA的GPU分析。最后,为了确保收敛到一个强大的结果,这个过程是迭代应用,从每个阶段的后验样本提供一个新的网格为后续阶段,导致自适应网格细化,准确地捕捉形状的似然函数。该算法自然地适用于高吞吐量计算方法,其中每个单独的RIFT作业独立地探索参数空间的子集5. 结论GlideinWMS和HTCondor的功能足以让计算基础设施帮助LIGO满足其科学目标。PyCBC、BayesWaves和RIFT工作流已成功适应在分布式高吞吐量计算模型中运行这导致了物理学问题的广度和深度的增加,可以通过Edgar Fajardo,Frank Wuerthwein,Brian Bockelman等.软件X 14(2021)1006795能够以全球分布的方式消耗数十万个CPU和GPU小时。在不久的将来仍然会带来一些短期挑战,例如将基础设施认证从使用X509证书转移到Scitokens,将提交主机放置在美国以外的几个研究所,以及数据交付系统和提交基础设施的更紧密集成竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢作者要感谢这项工作的资助机构,特别是美国国家科学基金会通过以下赠款:OAC-1541349,OAC-1826967,OAC- 1841530,MPS-1148698。引用[1] Pordes R,Petravick D,Kramer B,Olson D,Livny M,Roy A,Avery P,Blackburn K,Wenaus T,Würthwein F,Foster I,Gardner R,Wilde M,Blatecky A,McGee J,Quick R.开放科学网。J Phys Conf Ser 2007;78(1):012057,http://stacks.iop.org/1742-6596/78/i=1/a=012057。[2] Nitz A,Harry I,Brown D,Biwer CM,Willis J,Canton TD,Capano C,Pekowsky L , Dent T , Williamson AR , De S , Davies GS , Cabero M ,Machen-schalk B,Reyes S,Kumar P,Macleod D,Pannarale F,MassingerT,dfinstad,Tápai M,Fairhurst S,Khan S,Kumar S,Singer L,NielsenA,shasvath,idorrington92,Lenon A,Gabbard H. Gwastro/pycbc:Pycbcreleasev1.15.5.2020年,Zenodo,URLhttps://doi.org/10.5281/zenodo.3697109。[3] 放大图片作者:Lange J,O'Shaughnessy R,Rizzo M.快速和准确的参数推断,并结合,进动紧凑型双星。2018年,arXiv:1805.10457。[4] Cornish NJ,Littenberg TB. BayesWave:引力波爆发和仪器故障的贝叶斯推断 。经 典 量 子 引 力 2015;32 : 135012 。 http://dx.doi.org/10.1088/0264-9381/32/13/135012,arXiv:1410.3835.[5] Littenberg TB,Cornish NJ.引力波探测器噪声谱估计的贝叶斯推断。PhysRev D 2015;91:084034。网址://dx.doi.org/10.1103/PhysRevD.91.084034,https://link.aps.org/doi/10.1103/PhysRevD.91.084034。[6] Weitzel D, Zvada M, Vukotic I, Gardner R, Bockelman B, RyngeM,Her- nandez E,Lin B,Selmeci M. StashCache:开放科学网格的分布式缓存联盟。在:PEARC '19:实践的程序以及在机器(学习)兴起时 的 高 级 研 究 计 算 方 面 的 经 验 。 2019 年 , 第 1-7 页 。http://dx.doi.org/10.1145/3332186.3332212网站。[7] 张晓刚,张晓刚. XROOTD-一种高度可伸缩的数据访问体系结构。WSEAS TransComput2005;1(4.3).[8] HTCondor手册,http://web.archive.org/web/20200803183847/,https://research.cs.wisc.edu/htcondor/manual/v7.6/3_1Introduction.html[访问日期:2020年8月3日]。[9] Sfiligoi I,Bradley DC,Holzman B,Mhashilkar P,Padhi S,Wurthwein F.使用glideinWMS实现网格资源的试点方法。In:2009 WRI World Congresson Computer Science and Information Engineering,vol. 2,2009. p. 428比32[10]Mhashilkar P , Mambelli M , Sfiligoi I , Holzman B , Larson K , Dost J ,ddbox,Mascheroni M,Weigand J,Lobato L,Hein T,Lin B,Fajardo E,Weitzel D,Rynge M,Bockelman B,Selmeci M. Glideinwms/glideinwms:v3.4.2018年12月28日,中国科学院出版社。https://doi.org/10.5281/zenodo.1309679[11]HT秃鹰队。Htcondor8.6.12.2018年12月28日,https://doi.org/10.5281/zenodo。1324567。[12]Sfiligoi I,Dost JM,Zvada M,Butenas I,Holzman B,Wuerthwein F,Kreuzer P,Teige SW,Quick R,Hernández JM,Flix J.在OSG和CMS之间跨九个时区共享滑翔机工厂操作的好处和挑战。J Phys Conf Ser 2012;396(3):032103。http://dx.doi的网站。org/10.1088/1742-6596/396/3/032103。[13] GlideinWMS 官 方 文 档 [ 访 问 日 期 : 2020 年 8 月 3 日 ]http://web.archive.org/web/20200803183025/,http://glideinwms.fnal.gov/doc.prd/frontend/index.html。[14][10]张文辉,张文辉. CREAM-CE:四个LHC实验的初步经验、结果和要求。JPhys Conf Ser 2010;219 ( 6 ) : 062022 。 http://dx.doi.org/10.1088/1742-6596/219/6/062022网站。[15]Ellert M,康斯坦丁诺夫一、科尼奥乙、Smirnova噢,韦嫩A.nordugrid项目:使用globus工具包构建网格基础设施。 核仪器方法PhysRes一2003;502(2):407-10. http: //dx.doi.org/10.1016/S0168-9002(03)00453-4,http://www.sciencedirect.com/science/article/pii/S0168900203004534网站,第八届国际物理研究高级计算和分析技术研讨会论文集。[16][10] 杨 文 , 李 文 . 为 开 放 科 学 网 格 调 试 HTCondor-CE 。 J Phys Conf Ser2015;664(6):062003。http://dx.doi.org/10.1088/1742-6596/664/6/062003。[17]Fajardo EM , Dost JM , Holzman B , Tannenbaum T , Linguistic J ,Tiradani A , Bockelman B , Frey J , Mason D. HTCondor 能 飞 多 高 ?2015;664 ( 6 ) : 062014. http://dx.doi.org/10.1088/1742-6596/664/6/062014 网站。[18][10]李文辉,李文辉. OSG和GPU:两个用例的故事。EPJ网络会议2019;214:03034,https://doi.org/10.1051/epjconf/201921403034。[19]Fajardo E,Würthwein F,Jones R,Philpott S,Strosahl K. htcondor传输系统的限制。EPJ网络会议2019;214:03008。http://dx.doi.org/10.1051/epjconf/201921403008.[20] Kurtzer GM. 奇 点 2.5.2 - 科 学 的 linux 应 用 程 序 和 环 境 容 器 。 2018 ,http://dx.doi.org/10.5281/zenodo.1308868,https://doi.org/10.5281/zenodo.1308868网站。[21]Rynge M,Bockelman BP,Weitzel D,jthiltges,Jones R,Downes T,Fa-jardo E , Blyth D , Skarlupka H , Riedel B , Diogo V , Bustamante J ,Brown D , Desinghu B , Lukas , Kreczko L , drtmfigy , brichards64 ,Wasserman A , Devisetty UK , Roberts S , Mauri , Bryant L , Stark G.Opensciencegrid/cvmfs- singularity-sync:Singularity-sync的第一个版本。2018 年 12 月 28 日 , http://dx.doi.org/10 。 5281/zenodo.1469012 ,https://doi.org/10.5281/zenodo.1469012。[22] 伯德岛大型强子对撞机的计算。Annu Rev Nucl Part Sci 2011;61:99-118.http://dx.doi.org/10.1146/annurev-nucl-102010-130059,http://www.annualreviews.org/doi/abs/10.1146/annurev-nucl-102010-130059.[23]Strande SM,Cai H,Cooper T,Flammer K,Irving C,von Laszewski G,Majumdar A,Mishin D,Papadopoulos P,Pfeiffer W,et al. Comet:Talesfrom the long tail:Two years in and 10,000 users later.在:先进研究计算的实践和经验的程序2017年可持续性,成功和影响。PEARC 17,纽约州纽约市,美国:计算机协会; 2017,http://dx.doi.org/10.1145/3093338.3093383,https://doi.org/10.1145/3093338.3093383。[24]Huerta E,Haas R,Fajardo E,Katz DS,Anderson S,Couvares P,WillisJ,Bouvet T,Enos J,Kramer WTC,Leong HW,Wheeler D. BOSS-LDG:一个新的计算框架,汇集了蓝色水域,开放科学网格,移位器和LIGO数据网格 , 以 加 速 引 力 波 的 发 现 。 2017 年 IEEE 第 13 届 电 子 科 学 国 际 会 议 ( E-Science)。2017,p. 335-44. http://dx.doi.org/10.1109/eScience.2017.47网站。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功