Platform LSF作业提交指南:Dock与Gauss作业示例

需积分: 44 19 下载量 73 浏览量 更新于2024-08-25 收藏 637KB PPT 举报
本资料主要介绍了使用Platform LSF(Load Sharing Facility)进行作业提交和管理的相关知识,特别是针对Dock作业和Gauss作业的提交示例。LSF是一个集群作业调度系统,它允许用户有效地管理和执行大量计算任务。 在LSF使用综述中,设置了LSF环境变量,例如`LSF_SERVERDIR`, `LSF_LIBDIR`, `LSF_VERSION`, `LSF_BINDIR`, 和 `LSF_ENVDIR`,这些变量对于正确配置和运行LSF系统至关重要。它们指示了LSF配置文件、库、版本信息以及可执行文件的路径。 作业提交是通过`bsub`命令完成的,该命令用于将作业提交到LSF系统。例如,提交Dock作业的命令如下: ```bash bsub -W 12:00 -a openmpi -n 4 mpirun.lsf /public/software/dock6-openmpi/bin/dock6.mpi -i test.in -o test.out ``` 这里,`-W 12:00`指定了作业的最大运行时间为12小时,`-a openmpi`选择了OpenMPI作为并行环境,`-n 4`表示需要4个CPU核心,`mpirun.lsf`是OpenMPI运行时的关键字,`/public/software/dock6-openmpi/bin/dock6.mpi`是Dock程序的路径,`-i test.in`指定输入文件,`-o test.out`指定输出文件。作业的标准输出会被重定向到以作业ID为后缀的`output.%J`文件中。 同样,Gauss作业的提交命令如下: ```bash bsub -W 60 -n 16 -q QN_Norm g03.lsftest397.com ``` 这里的`-W 60`表示作业最长运行60分钟,`-n 16`需要16个CPU核心,`-q QN_Norm`指定了队列QN_Norm,而`g03.lsf`是Gauss运行的关键字。 在资源管理方面,LSF提供了一套工具来监控和控制作业。例如,`bhist`用于查看作业历史,但应避免在LSF主节点上对大量作业运行此命令,因为它可能占用大量内存和CPU资源。`btop`和`bbot`通常仅限于LSF管理员使用,用于监控系统资源的顶级视图。`bswitch`命令则用于在不同队列之间重定向大量作业。 故障分析是LSF使用中的重要环节,通过查看作业日志和输出文件,用户可以诊断作业失败的原因。同时,了解如何正确使用LSF的命令行选项,如`-h`显示帮助信息和`-V`打印版本号,也是提高效率的关键。 系统监视包括跟踪CPU、内存、磁盘I/O等资源的使用情况,这有助于优化作业调度和资源分配。讨论环节可能涉及用户之间的经验分享、问题解决策略以及对LSF系统的改进建议。 Platform LSF提供了一个强大的工具集,用于高效地管理和调度大规模计算任务,确保在分布式计算环境中实现最佳性能和资源利用率。理解和掌握LSF的使用方法,对于在超算环境中进行科研和工程计算至关重要。