PlatformLSF入门:作业提交与管理

需积分: 44 37 下载量 186 浏览量 更新于2024-07-23 3 收藏 637KB PPT 举报
本文主要介绍了如何使用Platform LSF(Load Sharing Facility)系统进行作业提交和管理,特别是针对超算入门的用户。通过示例展示了如何查看作业状态、设置环境变量以及提交不同类型的作业。 在超算环境中,使用Platform LSF进行作业管理是一个常见的方式。LSF是一个高效、灵活的集群作业调度系统,它能帮助用户管理和优化计算资源的使用。在LSF系统中,可以使用`bjobs`命令来查询作业的状态,如上述描述中的`bjobs -aw`,它显示了作业ID、用户、状态、队列、执行主机、作业名称以及提交时间等信息。 作业状态包括RUN(运行中)、DONE(已完成)等。例如,JOBID为818的作业正在运行,而JOBID为115到120的作业已经完成。作业可以通过不同的参数进行提交,如`bsub`命令。 在设置LSF环境变量时,用户需要确保正确设置了诸如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR`和`LSF_ENVDIR`等变量,以便系统能找到相关的配置和执行文件。这些环境变量的值通常指向LSF软件安装的路径。 提交作业时,可以使用`bsub`命令配合不同的参数。例如,对于Gauss作业,可以使用`bsub -W60 -n32 -qQN_Norm g03.lsf`提交,其中`-W60`指定了作业的最长运行时间,`-n32`请求32个CPU,`-qQN_Norm`指定使用QN_Norm队列,而`g03.lsf`是作业脚本。对于Dock作业,使用`bsub -W12:00 -aopenmpi -n4 mpirun.lsf`提交,这里`-aopenmpi`指定使用OpenMPI运行,`-W12:00`指定了12小时的运行时间,`-n4`请求4个CPU,后续是作业执行的命令。 作业的标准输出和错误信息可以通过`output.%J`这样的模式进行重定向,其中 `%J` 会被替换为实际的作业ID。 除了作业提交和管理,LSF还提供了资源管理、系统监视等功能,允许用户根据需求调整资源分配策略,监控系统性能,以及进行故障分析。在使用过程中,如果遇到问题或有其他需求,可以参与讨论或联系技术支持获取帮助。 了解并熟练掌握Platform LSF的使用是高效利用超算资源的关键,它可以帮助科研人员和工程师更好地组织和优化他们的计算任务。通过理解作业状态、环境变量配置、参数设定以及资源管理,用户能够更有效地管理和控制在超算集群上的科学计算工作。