Platform LSF作业提交与管理详解

需积分: 44 19 下载量 164 浏览量 更新于2024-08-25 收藏 637KB PPT 举报
本文档主要介绍了Platform LSF (Load Sharing Facility) 的基本使用,包括作业提交、管理和资源管理等核心概念。重点讲述了如何通过`bsub`命令提交串行作业,并解释了不同参数的含义。 在LSF使用综述中,环境变量的设置是基础。例如,`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR` 和 `LSF_ENVDIR` 都是与LSF系统相关的重要路径和版本信息。用户可以通过设置这些环境变量来确保LSF系统的正常运行。 作业提交是LSF系统中的关键操作,通过`bsub`命令完成。例如,提交一个普通串行作业的命令如下: ```bash bsub -W 60 a.out ``` 这里的参数说明如下: - `-W 60` 表示作业的运行时间限制为60分钟。 - 无 `-n` 参数意味着默认使用1个CPU。 - 无 `-q` 参数意味着使用默认队列,这里可能是`QS_Norm`。 对于其他类型的作业,如Gauss作业和Dock作业,提交命令会有不同参数: - Gauss作业: ```bash bsub -W 60 -n 32 -q QN_Norm g03.lsftest397.com ``` 这里 `-n 32` 请求32个CPU,`-q QN_Norm` 指定了队列`QN_Norm`,`g03.lsf` 是Gauss作业的特定关键字。 - Dock作业: ```bash bsub -W 12:00 -a openmpi -n 4 /public/software/dock6-openmpi/bin/dock6.mpi-itest.in -o test.out ``` 这里 `-a openmpi` 指定了使用OpenMPI运算,`-n 4` 请求4个CPU,`mpirun.lsf` 是用于并行计算的启动器。 除了作业提交,还提到了一些其他LSF命令的使用注意事项,如`btop`、`bbot`和`bhist`,它们分别用于查看系统的顶层状态、底层状态和历史作业记录。`bswitch` 命令则用于在不同队列间重定向大量作业。 资源管理是LSF系统的关键部分,包括CPU、内存等硬件资源的分配和调度。用户可以设定作业的资源需求,例如CPU数量、内存大小等,以确保公平且高效地使用计算资源。 系统监视是确保LSF集群稳定运行的重要环节,可以通过各种监控工具检查队列状态、作业进度、系统负载等信息。 此外,文档还提及了故障分析和讨论环节,表明LSF的使用不仅涉及技术操作,还包括问题排查和社区交流。 Platform LSF 提供了一套强大的集群管理和作业调度系统,通过合理的参数配置和资源管理,可以有效地支持大规模并行计算任务。