slurm作业管理系统
时间: 2024-01-15 15:12:29 浏览: 77
作业管理系统
SLURM(Simple Linux Utility for Resource Management)是一种用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。它被广泛应用于世界各地的超级计算机和计算集群。SLURM维护一个待处理工作的队列,并管理整体资源利用。它可以以共享或非共享的方式管理可用的计算节点,以满足用户的工作需求。SLURM会合理地为任务队列分配资源,并监视作业直到完成。目前,SLURM已成为许多最强大的超级计算机上使用的领先资源管理器,例如天河二号就使用了SLURM资源管理系统。
SLURM提供了一系列命令和工具来管理和控制作业,包括:
- sacct:查看历史作业信息
- salloc:分配资源
- sbatch:提交批处理作业
- scancel:取消作业
- scontrol:系统控制
- sinfo:查看节点与分区状态
- squeue:查看队列状态
- srun:执行作业
此外,SLURM还提供了一些常用的环境变量,用于配置和控制作业的运行环境。
阅读全文