Platform LSF入门:作业提交与管理

需积分: 44 19 下载量 46 浏览量 更新于2024-08-25 收藏 637KB PPT 举报
本文档是关于使用Platform LSF(Load Sharing Facility)的入门教程,重点关注作业提交、管理和系统监控。内容涵盖了LSF的基础环境设置、作业的提交与管理、资源管理和系统监视,由罗昌华cluo@platform.com提供。 在超算环境中,有效地管理和提交作业是至关重要的。LSF是一个流行的集群作业调度系统,它允许用户在多节点系统中高效地分配任务。在本教程中,我们首先看到如何设置LSF环境变量,例如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`等,这些变量指示了LSF配置、库和二进制文件的路径。 接着,讲解了如何使用`bsub`命令来提交作业。例如,提交一个Gauss作业,可以使用以下命令: ```bash bsub -W60 -n32 -q QN_Norm g03.lsf ``` 这个命令表示: - `-W60`:作业的最大运行时间是60分钟。 - `-n32`:请求32个CPU核心。 - `-q QN_Norm`:指定提交到QN_Norm队列。 - `g03.lsf`:作业执行脚本或程序。 另一个例子是提交一个Dock作业,使用了OpenMPI: ```bash bsub -W12:00 -a openmpi -n4 mpirun.lsf /public/software/dock6-openmpi/bin/dock6.mpi-itest.in-otest.out ``` 这里: - `-W12:00`:作业运行时间限制为12小时。 - `-a openmpi`:指定使用OpenMPI作为运算后端。 - `-n4`:请求4个处理器。 - `mpirun.lsf`:作业启动脚本。 - `/public/software/dock6-openmpi/bin/dock6.mpi-itest.in-otest.out`:作业执行命令和输入/输出文件名。 此外,还提到了几个监控和管理机器作业状态的命令,如`bhosts`,它显示了集群中节点的状态,包括主机名、状态、最大作业数、运行中的作业数、挂起的作业数等。`btop`和`bbot`通常只对LSF管理员开放,用于管理系统资源。`bhist`命令用于查看历史作业记录,但应注意其可能消耗大量内存和CPU资源。`bswitch`命令则用于大规模重定向作业到其他队列,这在需要调整作业调度策略时非常有用。 对于故障分析和资源管理,虽然没有详细介绍,但这些是使用LSF时不可或缺的部分。故障分析通常涉及识别和解决作业提交、执行或调度中的问题,而资源管理则涉及合理分配和优化CPU、内存、磁盘空间等硬件资源。 最后,系统监视是确保集群健康运行的关键。通过监控作业队列状态、系统负载、资源利用率等,可以及时发现并解决性能瓶颈,以保持系统的高效运行。 这份文档提供了一个全面的LSF使用概览,对于初次接触超算和LSF的用户来说,是一个很好的学习起点。通过掌握这些基础知识,用户将能够更好地利用集群资源,高效地管理和提交计算密集型任务。