Platform LSF作业提交与管理详解
需积分: 44 22 浏览量
更新于2024-08-25
收藏 637KB PPT 举报
本文档主要介绍了Platform LSF (Load Sharing Facility) 的基本使用,包括作业提交、管理和资源管理等核心概念。重点讲述了如何通过`bsub`命令提交串行作业,并解释了不同参数的含义。
在LSF使用综述中,环境变量的设置是基础。例如,`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR` 和 `LSF_ENVDIR` 都是与LSF系统相关的重要路径和版本信息。用户可以通过设置这些环境变量来确保LSF系统的正常运行。
作业提交是LSF系统中的关键操作,通过`bsub`命令完成。例如,提交一个普通串行作业的命令如下:
```bash
bsub -W 60 a.out
```
这里的参数说明如下:
- `-W 60` 表示作业的运行时间限制为60分钟。
- 无 `-n` 参数意味着默认使用1个CPU。
- 无 `-q` 参数意味着使用默认队列,这里可能是`QS_Norm`。
对于其他类型的作业,如Gauss作业和Dock作业,提交命令会有不同参数:
- Gauss作业:
```bash
bsub -W 60 -n 32 -q QN_Norm g03.lsftest397.com
```
这里 `-n 32` 请求32个CPU,`-q QN_Norm` 指定了队列`QN_Norm`,`g03.lsf` 是Gauss作业的特定关键字。
- Dock作业:
```bash
bsub -W 12:00 -a openmpi -n 4 /public/software/dock6-openmpi/bin/dock6.mpi-itest.in -o test.out
```
这里 `-a openmpi` 指定了使用OpenMPI运算,`-n 4` 请求4个CPU,`mpirun.lsf` 是用于并行计算的启动器。
除了作业提交,还提到了一些其他LSF命令的使用注意事项,如`btop`、`bbot`和`bhist`,它们分别用于查看系统的顶层状态、底层状态和历史作业记录。`bswitch` 命令则用于在不同队列间重定向大量作业。
资源管理是LSF系统的关键部分,包括CPU、内存等硬件资源的分配和调度。用户可以设定作业的资源需求,例如CPU数量、内存大小等,以确保公平且高效地使用计算资源。
系统监视是确保LSF集群稳定运行的重要环节,可以通过各种监控工具检查队列状态、作业进度、系统负载等信息。
此外,文档还提及了故障分析和讨论环节,表明LSF的使用不仅涉及技术操作,还包括问题排查和社区交流。
Platform LSF 提供了一套强大的集群管理和作业调度系统,通过合理的参数配置和资源管理,可以有效地支持大规模并行计算任务。
2024-06-03 上传
614 浏览量
3565 浏览量
889 浏览量
1724 浏览量
952 浏览量
1253 浏览量
昨夜星辰若似我
- 粉丝: 49
- 资源: 2万+
最新资源
- 团队任务:introsort && shakesort
- fsdownload.rar
- Geerooniimoo.io
- full_MEAN_ministore
- project-library
- 曼德尔卡洛
- C语言及数据结构课程设计:超市信息管理系统.zip
- PepperTab-crx插件
- O-HARA_SNS
- 易语言数组剖析-易语言
- archetype-catalog.zip
- RNToDoAppFirebase:有多个列表和选项的待办事项
- holbertonschool-low_level_programming
- 磊科nw336无线网卡驱动 1085.2 中文版
- aesthetic-portfolio
- 遍历窗口控件判断内容被改变-易语言