Platform LSF作业提交与管理详解
需积分: 44 164 浏览量
更新于2024-08-25
收藏 637KB PPT 举报
本文档主要介绍了Platform LSF (Load Sharing Facility) 的基本使用,包括作业提交、管理和资源管理等核心概念。重点讲述了如何通过`bsub`命令提交串行作业,并解释了不同参数的含义。
在LSF使用综述中,环境变量的设置是基础。例如,`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR` 和 `LSF_ENVDIR` 都是与LSF系统相关的重要路径和版本信息。用户可以通过设置这些环境变量来确保LSF系统的正常运行。
作业提交是LSF系统中的关键操作,通过`bsub`命令完成。例如,提交一个普通串行作业的命令如下:
```bash
bsub -W 60 a.out
```
这里的参数说明如下:
- `-W 60` 表示作业的运行时间限制为60分钟。
- 无 `-n` 参数意味着默认使用1个CPU。
- 无 `-q` 参数意味着使用默认队列,这里可能是`QS_Norm`。
对于其他类型的作业,如Gauss作业和Dock作业,提交命令会有不同参数:
- Gauss作业:
```bash
bsub -W 60 -n 32 -q QN_Norm g03.lsftest397.com
```
这里 `-n 32` 请求32个CPU,`-q QN_Norm` 指定了队列`QN_Norm`,`g03.lsf` 是Gauss作业的特定关键字。
- Dock作业:
```bash
bsub -W 12:00 -a openmpi -n 4 /public/software/dock6-openmpi/bin/dock6.mpi-itest.in -o test.out
```
这里 `-a openmpi` 指定了使用OpenMPI运算,`-n 4` 请求4个CPU,`mpirun.lsf` 是用于并行计算的启动器。
除了作业提交,还提到了一些其他LSF命令的使用注意事项,如`btop`、`bbot`和`bhist`,它们分别用于查看系统的顶层状态、底层状态和历史作业记录。`bswitch` 命令则用于在不同队列间重定向大量作业。
资源管理是LSF系统的关键部分,包括CPU、内存等硬件资源的分配和调度。用户可以设定作业的资源需求,例如CPU数量、内存大小等,以确保公平且高效地使用计算资源。
系统监视是确保LSF集群稳定运行的重要环节,可以通过各种监控工具检查队列状态、作业进度、系统负载等信息。
此外,文档还提及了故障分析和讨论环节,表明LSF的使用不仅涉及技术操作,还包括问题排查和社区交流。
Platform LSF 提供了一套强大的集群管理和作业调度系统,通过合理的参数配置和资源管理,可以有效地支持大规模并行计算任务。
2024-06-03 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
昨夜星辰若似我
- 粉丝: 50
- 资源: 2万+
最新资源
- C语言数组操作:高度检查器编程实践
- 基于Swift开发的嘉定单车LBS iOS应用项目解析
- 钗头凤声乐表演的二度创作分析报告
- 分布式数据库特训营全套教程资料
- JavaScript开发者Robert Bindar的博客平台
- MATLAB投影寻踪代码教程及文件解压缩指南
- HTML5拖放实现的RPSLS游戏教程
- HT://Dig引擎接口,Ampoliros开源模块应用
- 全面探测服务器性能与PHP环境的iprober PHP探针v0.024
- 新版提醒应用v2:基于MongoDB的数据存储
- 《我的世界》东方大陆1.12.2材质包深度体验
- Hypercore Promisifier: JavaScript中的回调转换为Promise包装器
- 探索开源项目Artifice:Slyme脚本与技巧游戏
- Matlab机器人学习代码解析与笔记分享
- 查尔默斯大学计算物理作业HP2解析
- GitHub问题管理新工具:GIRA-crx插件介绍