PlatformLSF入门:作业提交与管理
需积分: 44 26 浏览量
更新于2024-07-23
3
收藏 637KB PPT 举报
本文主要介绍了如何使用Platform LSF(Load Sharing Facility)系统进行作业提交和管理,特别是针对超算入门的用户。通过示例展示了如何查看作业状态、设置环境变量以及提交不同类型的作业。
在超算环境中,使用Platform LSF进行作业管理是一个常见的方式。LSF是一个高效、灵活的集群作业调度系统,它能帮助用户管理和优化计算资源的使用。在LSF系统中,可以使用`bjobs`命令来查询作业的状态,如上述描述中的`bjobs -aw`,它显示了作业ID、用户、状态、队列、执行主机、作业名称以及提交时间等信息。
作业状态包括RUN(运行中)、DONE(已完成)等。例如,JOBID为818的作业正在运行,而JOBID为115到120的作业已经完成。作业可以通过不同的参数进行提交,如`bsub`命令。
在设置LSF环境变量时,用户需要确保正确设置了诸如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR`和`LSF_ENVDIR`等变量,以便系统能找到相关的配置和执行文件。这些环境变量的值通常指向LSF软件安装的路径。
提交作业时,可以使用`bsub`命令配合不同的参数。例如,对于Gauss作业,可以使用`bsub -W60 -n32 -qQN_Norm g03.lsf`提交,其中`-W60`指定了作业的最长运行时间,`-n32`请求32个CPU,`-qQN_Norm`指定使用QN_Norm队列,而`g03.lsf`是作业脚本。对于Dock作业,使用`bsub -W12:00 -aopenmpi -n4 mpirun.lsf`提交,这里`-aopenmpi`指定使用OpenMPI运行,`-W12:00`指定了12小时的运行时间,`-n4`请求4个CPU,后续是作业执行的命令。
作业的标准输出和错误信息可以通过`output.%J`这样的模式进行重定向,其中 `%J` 会被替换为实际的作业ID。
除了作业提交和管理,LSF还提供了资源管理、系统监视等功能,允许用户根据需求调整资源分配策略,监控系统性能,以及进行故障分析。在使用过程中,如果遇到问题或有其他需求,可以参与讨论或联系技术支持获取帮助。
了解并熟练掌握Platform LSF的使用是高效利用超算资源的关键,它可以帮助科研人员和工程师更好地组织和优化他们的计算任务。通过理解作业状态、环境变量配置、参数设定以及资源管理,用户能够更有效地管理和控制在超算集群上的科学计算工作。
2021-07-13 上传
2016-10-11 上传
2024-10-13 上传
2023-03-27 上传
2023-09-09 上传
2023-03-27 上传
2023-07-25 上传
2023-05-11 上传
ethanzhong021
- 粉丝: 0
- 资源: 1
最新资源
- WPF渲染层字符绘制原理探究及源代码解析
- 海康精简版监控软件:iVMS4200Lite版发布
- 自动化脚本在lspci-TV的应用介绍
- Chrome 81版本稳定版及匹配的chromedriver下载
- 深入解析Python推荐引擎与自然语言处理
- MATLAB数学建模算法程序包及案例数据
- Springboot人力资源管理系统:设计与功能
- STM32F4系列微控制器开发全面参考指南
- Python实现人脸识别的机器学习流程
- 基于STM32F103C8T6的HLW8032电量采集与解析方案
- Node.js高效MySQL驱动程序:mysqljs/mysql特性和配置
- 基于Python和大数据技术的电影推荐系统设计与实现
- 为ripro主题添加Live2D看板娘的后端资源教程
- 2022版PowerToys Everything插件升级,稳定运行无报错
- Map简易斗地主游戏实现方法介绍
- SJTU ICS Lab6 实验报告解析