PlatformLSF作业管理与监视指南
需积分: 44 82 浏览量
更新于2024-08-25
收藏 637KB PPT 举报
本文主要介绍了如何在Platform LSF(Load Sharing Facility)环境下进行作业的在线监视、提交和管理。LSF是一种集群作业调度系统,用于高效管理计算资源。
### LSF使用综述
LSF环境变量是使用该系统的基础,如`LSF_SERVERDIR`, `LSF_LIBDIR`, `LSF_VERSION`, `LSF_BINDIR` 和 `LSF_ENVDIR`,它们定义了LSF的相关路径和版本信息。用户可以通过`env | grep LSF`来查看这些设置。
### 作业提交与管理
#### Gauss作业提交
使用`bsub`命令提交作业,例如:
```
bsub -W60 -n32 -qQN_Norm g03.lsftest397.com
```
参数解释:
- `-W60`:作业最长运行60分钟。
- `-n32`:需要32个CPU核心。
- `-qQN_Norm`:指定队列QN_Norm。
- 隐藏参数`output.%J`:默认输出文件,包含标准输出和错误信息。
#### Dock作业提交
另一个例子是使用OpenMPI运行Dock作业:
```
bsub -W12:00 -a openmpi -n4 mpirun.lsf /public/software/dock6-openmpi/bin/dock6.mpi -i test.in -o test.out
```
参数解释:
- `-a openmpi`:指定使用OpenMPI执行。
- `-W12:00`:作业最大运行时间12小时。
- `-n4`:请求4个处理器。
### 作业在线监视
通过`bjobs`命令可以实时监控作业状态。例如:
- `bjobs -w`:显示所有正在运行的作业。
- `bjobs -l <jobid>`:详细列出指定作业号的状态和详细信息,如CPU使用时间、内存使用量、进程信息等。
### 故障分析与资源管理
在使用过程中,可能会遇到作业异常或资源使用问题,通过监控工具如`btop`和`bbot`可帮助诊断。`bhist`可以查看历史作业记录,但需要注意,对于大量查询,可能会占用大量系统资源。
### 系统监视
系统资源的监视是确保集群效率的关键。`bjobs`和相关的命令提供了一套工具来监控作业状态、资源使用情况以及调度参数。例如,`bswitch`可用于在不同队列间重定向作业,这对于平衡资源分配非常有用。
### 讨论及其他
除了上述内容,用户还可以了解更多的LSF命令和参数,如`-h`用于打印命令用法,`-V`打印LSF版本信息。另外,只有LSF管理员才应使用`btop`和`bbot`,避免在LSF主节点上运行大范围的`bhist`查询,以免影响系统性能。
有效管理和监控LSF作业能优化集群计算资源的利用率,确保科学计算任务的顺利进行。熟悉并掌握这些工具和技巧,对于提高科研效率至关重要。
2022-06-17 上传
2011-03-09 上传
2021-01-21 上传
2023-06-28 上传
2023-05-12 上传
2023-09-07 上传
2023-07-25 上传
2023-08-17 上传
2023-07-15 上传
琳琅破碎
- 粉丝: 17
- 资源: 2万+
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦