PlatformLSF入门:作业提交与管理

需积分: 44 36 下载量 26 浏览量 更新于2024-07-23 3 收藏 637KB PPT 举报
本文主要介绍了如何使用Platform LSF(Load Sharing Facility)系统进行作业提交和管理,特别是针对超算入门的用户。通过示例展示了如何查看作业状态、设置环境变量以及提交不同类型的作业。 在超算环境中,使用Platform LSF进行作业管理是一个常见的方式。LSF是一个高效、灵活的集群作业调度系统,它能帮助用户管理和优化计算资源的使用。在LSF系统中,可以使用`bjobs`命令来查询作业的状态,如上述描述中的`bjobs -aw`,它显示了作业ID、用户、状态、队列、执行主机、作业名称以及提交时间等信息。 作业状态包括RUN(运行中)、DONE(已完成)等。例如,JOBID为818的作业正在运行,而JOBID为115到120的作业已经完成。作业可以通过不同的参数进行提交,如`bsub`命令。 在设置LSF环境变量时,用户需要确保正确设置了诸如`LSF_SERVERDIR`、`LSF_LIBDIR`、`LSF_VERSION`、`LSF_BINDIR`和`LSF_ENVDIR`等变量,以便系统能找到相关的配置和执行文件。这些环境变量的值通常指向LSF软件安装的路径。 提交作业时,可以使用`bsub`命令配合不同的参数。例如,对于Gauss作业,可以使用`bsub -W60 -n32 -qQN_Norm g03.lsf`提交,其中`-W60`指定了作业的最长运行时间,`-n32`请求32个CPU,`-qQN_Norm`指定使用QN_Norm队列,而`g03.lsf`是作业脚本。对于Dock作业,使用`bsub -W12:00 -aopenmpi -n4 mpirun.lsf`提交,这里`-aopenmpi`指定使用OpenMPI运行,`-W12:00`指定了12小时的运行时间,`-n4`请求4个CPU,后续是作业执行的命令。 作业的标准输出和错误信息可以通过`output.%J`这样的模式进行重定向,其中 `%J` 会被替换为实际的作业ID。 除了作业提交和管理,LSF还提供了资源管理、系统监视等功能,允许用户根据需求调整资源分配策略,监控系统性能,以及进行故障分析。在使用过程中,如果遇到问题或有其他需求,可以参与讨论或联系技术支持获取帮助。 了解并熟练掌握Platform LSF的使用是高效利用超算资源的关键,它可以帮助科研人员和工程师更好地组织和优化他们的计算任务。通过理解作业状态、环境变量配置、参数设定以及资源管理,用户能够更有效地管理和控制在超算集群上的科学计算工作。
2021-07-13 上传
资料共144份,包括但不限于: 5G+电信: 5G 时代统一的边缘云网建设; 红帽开源软件助力电信行业 GPU 应用; 基于 5G 车路协同智慧公交解决方案; 中国电信 5G 边缘计算推动产业互联网发展; 中国移动九天人工智能平台 GPU 推理实践; 助力 5G 和边缘计算,深入了解 Cloud XR; DPU 加速 5G; GPU 加速 5G 基站的的 DICT 融合; GPU 加速开源 5G; GPU 加速中国电信 Spark 大数据处理; NVIDIA 加持的 5G 云部署; Rivermax- 带您轻松跨入超高清视频的 IP 时代; 高性能计算: 超算集群网络管理神器 — UFM Cyber-AI; 基于 CPU-GPU 异构平台的第一性原理密度泛函理论高性能计算; 基于 GPU 加速的矩阵离散元方法实现与应用; 脑研究之利器:基于 NVIDIA GPU 的全脑尺度直接可视化方法; 全新 NVIDIA A100 80GB GPU 加速超大规模 HPC 和 AI 应用; 新型超级计算中的高速互联技术; CUBE:高可扩展宇宙学 N 体问题模拟程序; GPU 加速 Paradigm 解决方案; HPC 应用性能分析和调优; RDMA 在分布式存储中的应用; 深度学习平台及应用: 用 NVIDIA Jarvis 来构建你的语音助理; 安全 AI 平台 GPU 实践和思考; 飞桨推理引擎性能优化; 高阶信息如何加速神经网络训练?; 机智深度学习训练平台及应用; 基于 GPU 的机器翻译推理性能优化; 基于 Tensor Core 的 CNN INT8 定点训练加速; 如何快速搭建全 GPU 加速的 AI 应用; 使用 Triton 优化深度学习推理的大规模部署; 腾讯“开悟”游戏 AI 平台在 TensorRT 上的最佳实践; 语音技术效率优化实践; 预训练时代的机器翻译; 智能钛机器学习平台计算优化实践; Apache MXNet 2.0:连接深度学习与传统机器学习; Eva 平台在深度学习训练和推理上的实践和优化经验; FastSpeech:高效语音合成的算法设计及优化; GPU 在向量搜索中的应用; Hammer:一体化的模型压缩和 NAS 引擎框架; Lightseq:GPU 高性能序列推理实践; MULTI-INSTANCE GPU(MIG)深度学习最佳用法示例; TurboTransformers:高效的 Transformer 线上推理系统; Whale:统一多种并行化策略的分布式深度学习框架; 推荐系统: 爱奇艺使用 GPU 加速 CTR 模型训练的实践; 多标签分类:汉明损失和子集精度真的相互冲突吗?; 高性能网络加速智能推荐系统; 将 HugeCTR Embedding 集成于 TensorFlow; 推荐系统推理性能优化在“双十一”中的应用; 性能提升 7 倍 + 的高性能 GPU 广告推荐加速系统的落地实现; GPU 加速的数据处理在推荐系统中的应用; Merlin : GPU 加速的推荐系统框架; Merlin HugeCTR :深入研究性能优化; Merlin NVTabular:基于 GPU 加速的推荐系统特征工程最佳实践; NVIDIA 助力构建安全和高效的推荐系统; PLE — 一种新的分层萃取多任务学习网络结构; Vearch 的 GPU 方案在海量向量检索系统上的应用创新; 智慧金融: 分布式人工智能与金融应用; GPU 数据库在不同行业中的应用; NVIDIA 网络打造超低时延证券解决方案; 智慧医疗和生命科学: 3D 医疗影像数据深度学习高效训练与推理架构; 基于眼表图像的 COVID-19 快捷风险筛查; 人工智能与药物研发; 随机对照试验 RCT 验证的消化内镜人工智能; 新型冠状病毒的全分子结构; 医学影像 + 人工智能的特点、技术与趋势; 医学真实世界人工智能研究与实践; AI 技术在医疗健康领域的应用探索; GPU 赋能长读长基因测序; GPU 技术在放射治疗领域的科学研究; NVIDIA Clara Guardian 助力构建智慧医院; 自动驾驶: 乘用车自动驾驶产业生态与协作; 构建中国特色仿真环境; NVIDIA Drive Sim 帮助解决无人驾驶预期功能安全问题; NVIDIA DRIVEWORKS SDK 中强大的实时传感器数据采集和回放工具助力自动驾驶开发; 自主机器和边缘计算: 智能物流机器人 — 小蛮驴; 从云到边:边缘智能开启 AI 新时代 加速行业落地; 多尺度 Jetson AI 端到端解决方案; 基于 AI 的工业缺陷检测与分类创新实践; 基于 Jetson 的点云加速及在自主机器的应用; 基于 Jetson 设备构建可信边缘计算;