PlatformLSF作业管理与监视指南

需积分: 44 19 下载量 82 浏览量 更新于2024-08-25 收藏 637KB PPT 举报
本文主要介绍了如何在Platform LSF(Load Sharing Facility)环境下进行作业的在线监视、提交和管理。LSF是一种集群作业调度系统,用于高效管理计算资源。 ### LSF使用综述 LSF环境变量是使用该系统的基础,如`LSF_SERVERDIR`, `LSF_LIBDIR`, `LSF_VERSION`, `LSF_BINDIR` 和 `LSF_ENVDIR`,它们定义了LSF的相关路径和版本信息。用户可以通过`env | grep LSF`来查看这些设置。 ### 作业提交与管理 #### Gauss作业提交 使用`bsub`命令提交作业,例如: ``` bsub -W60 -n32 -qQN_Norm g03.lsftest397.com ``` 参数解释: - `-W60`:作业最长运行60分钟。 - `-n32`:需要32个CPU核心。 - `-qQN_Norm`:指定队列QN_Norm。 - 隐藏参数`output.%J`:默认输出文件,包含标准输出和错误信息。 #### Dock作业提交 另一个例子是使用OpenMPI运行Dock作业: ``` bsub -W12:00 -a openmpi -n4 mpirun.lsf /public/software/dock6-openmpi/bin/dock6.mpi -i test.in -o test.out ``` 参数解释: - `-a openmpi`:指定使用OpenMPI执行。 - `-W12:00`:作业最大运行时间12小时。 - `-n4`:请求4个处理器。 ### 作业在线监视 通过`bjobs`命令可以实时监控作业状态。例如: - `bjobs -w`:显示所有正在运行的作业。 - `bjobs -l <jobid>`:详细列出指定作业号的状态和详细信息,如CPU使用时间、内存使用量、进程信息等。 ### 故障分析与资源管理 在使用过程中,可能会遇到作业异常或资源使用问题,通过监控工具如`btop`和`bbot`可帮助诊断。`bhist`可以查看历史作业记录,但需要注意,对于大量查询,可能会占用大量系统资源。 ### 系统监视 系统资源的监视是确保集群效率的关键。`bjobs`和相关的命令提供了一套工具来监控作业状态、资源使用情况以及调度参数。例如,`bswitch`可用于在不同队列间重定向作业,这对于平衡资源分配非常有用。 ### 讨论及其他 除了上述内容,用户还可以了解更多的LSF命令和参数,如`-h`用于打印命令用法,`-V`打印LSF版本信息。另外,只有LSF管理员才应使用`btop`和`bbot`,避免在LSF主节点上运行大范围的`bhist`查询,以免影响系统性能。 有效管理和监控LSF作业能优化集群计算资源的利用率,确保科学计算任务的顺利进行。熟悉并掌握这些工具和技巧,对于提高科研效率至关重要。