Platform LSF入门:作业提交与管理
需积分: 44 46 浏览量
更新于2024-08-25
收藏 637KB PPT 举报
本文档是关于使用Platform LSF(Load Sharing Facility)的入门教程,重点关注作业提交、管理和系统监控。内容涵盖了LSF的基础环境设置、作业的提交与管理、资源管理和系统监视,由罗昌华cluo@platform.com提供。
在超算环境中,有效地管理和提交作业是至关重要的。LSF是一个流行的集群作业调度系统,它允许用户在多节点系统中高效地分配任务。在本教程中,我们首先看到如何设置LSF环境变量,例如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`等,这些变量指示了LSF配置、库和二进制文件的路径。
接着,讲解了如何使用`bsub`命令来提交作业。例如,提交一个Gauss作业,可以使用以下命令:
```bash
bsub -W60 -n32 -q QN_Norm g03.lsf
```
这个命令表示:
- `-W60`:作业的最大运行时间是60分钟。
- `-n32`:请求32个CPU核心。
- `-q QN_Norm`:指定提交到QN_Norm队列。
- `g03.lsf`:作业执行脚本或程序。
另一个例子是提交一个Dock作业,使用了OpenMPI:
```bash
bsub -W12:00 -a openmpi -n4 mpirun.lsf /public/software/dock6-openmpi/bin/dock6.mpi-itest.in-otest.out
```
这里:
- `-W12:00`:作业运行时间限制为12小时。
- `-a openmpi`:指定使用OpenMPI作为运算后端。
- `-n4`:请求4个处理器。
- `mpirun.lsf`:作业启动脚本。
- `/public/software/dock6-openmpi/bin/dock6.mpi-itest.in-otest.out`:作业执行命令和输入/输出文件名。
此外,还提到了几个监控和管理机器作业状态的命令,如`bhosts`,它显示了集群中节点的状态,包括主机名、状态、最大作业数、运行中的作业数、挂起的作业数等。`btop`和`bbot`通常只对LSF管理员开放,用于管理系统资源。`bhist`命令用于查看历史作业记录,但应注意其可能消耗大量内存和CPU资源。`bswitch`命令则用于大规模重定向作业到其他队列,这在需要调整作业调度策略时非常有用。
对于故障分析和资源管理,虽然没有详细介绍,但这些是使用LSF时不可或缺的部分。故障分析通常涉及识别和解决作业提交、执行或调度中的问题,而资源管理则涉及合理分配和优化CPU、内存、磁盘空间等硬件资源。
最后,系统监视是确保集群健康运行的关键。通过监控作业队列状态、系统负载、资源利用率等,可以及时发现并解决性能瓶颈,以保持系统的高效运行。
这份文档提供了一个全面的LSF使用概览,对于初次接触超算和LSF的用户来说,是一个很好的学习起点。通过掌握这些基础知识,用户将能够更好地利用集群资源,高效地管理和提交计算密集型任务。
2014-08-15 上传
2021-08-24 上传
2023-08-28 上传
2023-03-02 上传
2021-11-19 上传
2021-09-07 上传
点击了解资源详情
我的小可乐
- 粉丝: 26
- 资源: 2万+
最新资源
- JHU荣誉单变量微积分课程教案介绍
- Naruto爱好者必备CLI测试应用
- Android应用显示Ignaz-Taschner-Gymnasium取消课程概览
- ASP学生信息档案管理系统毕业设计及完整源码
- Java商城源码解析:酒店管理系统快速开发指南
- 构建可解析文本框:.NET 3.5中实现文本解析与验证
- Java语言打造任天堂红白机模拟器—nes4j解析
- 基于Hadoop和Hive的网络流量分析工具介绍
- Unity实现帝国象棋:从游戏到复刻
- WordPress文档嵌入插件:无需浏览器插件即可上传和显示文档
- Android开源项目精选:优秀项目篇
- 黑色设计商务酷站模板 - 网站构建新选择
- Rollup插件去除JS文件横幅:横扫许可证头
- AngularDart中Hammock服务的使用与REST API集成
- 开源AVR编程器:高效、低成本的微控制器编程解决方案
- Anya Keller 图片组合的开发部署记录