PlatformLSF入门：作业提交与管理

需积分: 44 186 浏览量更新于2024-07-23 3 收藏 637KB PPT 举报

本文主要介绍了如何使用Platform LSF（Load Sharing Facility）系统进行作业提交和管理，特别是针对超算入门的用户。通过示例展示了如何查看作业状态、设置环境变量以及提交不同类型的作业。在超算环境中，使用Platform LSF进行作业管理是一个常见的方式。LSF是一个高效、灵活的集群作业调度系统，它能帮助用户管理和优化计算资源的使用。在LSF系统中，可以使用`bjobs`命令来查询作业的状态，如上述描述中的`bjobs -aw`，它显示了作业ID、用户、状态、队列、执行主机、作业名称以及提交时间等信息。作业状态包括RUN（运行中）、DONE（已完成）等。例如，JOBID为818的作业正在运行，而JOBID为115到120的作业已经完成。作业可以通过不同的参数进行提交，如`bsub`命令。在设置LSF环境变量时，用户需要确保正确设置了诸如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR`和`LSF_ENVDIR`等变量，以便系统能找到相关的配置和执行文件。这些环境变量的值通常指向LSF软件安装的路径。提交作业时，可以使用`bsub`命令配合不同的参数。例如，对于Gauss作业，可以使用`bsub -W60 -n32 -qQN_Norm g03.lsf`提交，其中`-W60`指定了作业的最长运行时间，`-n32`请求32个CPU，`-qQN_Norm`指定使用QN_Norm队列，而`g03.lsf`是作业脚本。对于Dock作业，使用`bsub -W12:00 -aopenmpi -n4 mpirun.lsf`提交，这里`-aopenmpi`指定使用OpenMPI运行，`-W12:00`指定了12小时的运行时间，`-n4`请求4个CPU，后续是作业执行的命令。作业的标准输出和错误信息可以通过`output.%J`这样的模式进行重定向，其中 `%J` 会被替换为实际的作业ID。除了作业提交和管理，LSF还提供了资源管理、系统监视等功能，允许用户根据需求调整资源分配策略，监控系统性能，以及进行故障分析。在使用过程中，如果遇到问题或有其他需求，可以参与讨论或联系技术支持获取帮助。了解并熟练掌握Platform LSF的使用是高效利用超算资源的关键，它可以帮助科研人员和工程师更好地组织和优化他们的计算任务。通过理解作业状态、环境变量配置、参数设定以及资源管理，用户能够更有效地管理和控制在超算集群上的科学计算工作。