Platform LSF作业提交与管理详解
需积分: 44 83 浏览量
更新于2024-08-25
收藏 637KB PPT 举报
本文档主要介绍了Platform LSF (Load Sharing Facility) 的基本使用,包括作业提交、管理和资源管理等核心概念。重点讲述了如何通过`bsub`命令提交串行作业,并解释了不同参数的含义。
在LSF使用综述中,环境变量的设置是基础。例如,`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR` 和 `LSF_ENVDIR` 都是与LSF系统相关的重要路径和版本信息。用户可以通过设置这些环境变量来确保LSF系统的正常运行。
作业提交是LSF系统中的关键操作,通过`bsub`命令完成。例如,提交一个普通串行作业的命令如下:
```bash
bsub -W 60 a.out
```
这里的参数说明如下:
- `-W 60` 表示作业的运行时间限制为60分钟。
- 无 `-n` 参数意味着默认使用1个CPU。
- 无 `-q` 参数意味着使用默认队列,这里可能是`QS_Norm`。
对于其他类型的作业,如Gauss作业和Dock作业,提交命令会有不同参数:
- Gauss作业:
```bash
bsub -W 60 -n 32 -q QN_Norm g03.lsftest397.com
```
这里 `-n 32` 请求32个CPU,`-q QN_Norm` 指定了队列`QN_Norm`,`g03.lsf` 是Gauss作业的特定关键字。
- Dock作业:
```bash
bsub -W 12:00 -a openmpi -n 4 /public/software/dock6-openmpi/bin/dock6.mpi-itest.in -o test.out
```
这里 `-a openmpi` 指定了使用OpenMPI运算,`-n 4` 请求4个CPU,`mpirun.lsf` 是用于并行计算的启动器。
除了作业提交,还提到了一些其他LSF命令的使用注意事项,如`btop`、`bbot`和`bhist`,它们分别用于查看系统的顶层状态、底层状态和历史作业记录。`bswitch` 命令则用于在不同队列间重定向大量作业。
资源管理是LSF系统的关键部分,包括CPU、内存等硬件资源的分配和调度。用户可以设定作业的资源需求,例如CPU数量、内存大小等,以确保公平且高效地使用计算资源。
系统监视是确保LSF集群稳定运行的重要环节,可以通过各种监控工具检查队列状态、作业进度、系统负载等信息。
此外,文档还提及了故障分析和讨论环节,表明LSF的使用不仅涉及技术操作,还包括问题排查和社区交流。
Platform LSF 提供了一套强大的集群管理和作业调度系统,通过合理的参数配置和资源管理,可以有效地支持大规模并行计算任务。
2024-06-03 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
昨夜星辰若似我
- 粉丝: 47
- 资源: 2万+
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库