天河二号超算系统SLURM资源管理详解

需积分: 50 28 下载量 89 浏览量 更新于2024-07-19 收藏 1.21MB PDF 举报
"天河二号超算系统使用手册提供了关于SLURM资源管理系统的详细介绍,包括其组成部分、功能、用户接口以及关键实体的概念。" 天河二号是中国高性能计算领域的标志性成果,其采用的SLURM(Simple Linux Utility for Resource Management)是一款广泛应用于顶级超算中心的开源资源管理系统。SLURM的主要目标是高效地管理和调度计算资源,确保系统运行的稳定性和性能。它具备状态监控、资源分配、作业调度和用量记账等功能,为用户提供作业提交、运行、控制和状态查看的接口。 SLURM系统由几个核心组件构成: 1. 控制进程(Slurmctld)运行在管理节点上,作为系统的控制中心,负责记录节点状态,管理分区、作业调度和资源分配。 2. 记账存储进程(Slurmdbd)同样位于管理节点,用于保存作业信息到数据库,记录用户、账户、资源限制和服务质量(QOS)等详细信息,同时处理用户认证和安全隔离。 3. 节点监控进程(Slurmd)在每个计算节点上运行,监控节点状态并向控制进程报告,同时处理来自控制进程和用户的请求。 4. 作业管理进程(Slurmstepd)在需要时由节点监控进程启动,管理作业步的任务,包括任务启动、I/O转发、信号传递、任务控制和资源使用信息收集。 5. 命令工具包括一系列用于交互的CLI工具,如yhacct(查看作业信息)、yhalloc(资源分配)、yhbatch(提交作业)、yhcancel(取消作业)、yhcontrol(系统控制)、yhinfo(查看节点和分区状态)、yhqueue(队列状态查看)和yhrun(任务加载)。 资源管理系统中的实体主要包括: 1. 节点(Node):代表计算节点,包含处理器、内存和磁盘空间等硬件资源,可以处于空闲、分配或故障状态,并用唯一的节点名称标识。 2. 分区(Partition):节点的逻辑分组,允许管理员设定资源限制、访问权限和优先级,从而实现不同作业的隔离和调度策略。 了解这些基本概念后,用户可以有效地利用天河二号超算系统,通过SLURM提交作业,监控资源状态,优化作业调度,从而最大化利用超算资源进行复杂计算任务。此外,SLURM的记账功能还允许用户跟踪计算资源的使用情况,对于科研项目管理和成本控制具有重要意义。