slurm集群部署教程

Slurm 是一个开源的高性能计算集群管理系统，用于在大规模计算环境中调度、管理和监控作业。下面是一些关于如何部署 Slurm 集群的基本教程： ## 1. 安装 Slurm 首先，需要在所有计算节点和管理节点上安装 Slurm。可以通过源代码或二进制软件包进行安装。 ### 安装依赖在安装 Slurm 之前，需要安装一些依赖，包括 Munge、OpenSSL、PAM、Numactl、MySQL 或 MariaDB、Python 等。可以通过以下命令安装这些依赖： ``` sudo apt-get update sudo apt-get install munge libmunge-dev openssl libssl-dev libpam0g-dev numactl \ mariadb-server libmysqlclient-dev python3-dev python3-pip ``` ### 安装 Slurm 可以从官方网站下载最新版本的 Slurm 源代码：https://www.schedmd.com/downloads.php。然后将源代码解压缩并进行编译和安装。 ``` tar xzf slurm-20.11.7.tar.gz cd slurm-20.11.7 ./configure --prefix=/usr/local make sudo make install ``` ## 2. 配置 Slurm 在安装完 Slurm 后，需要配置集群。主要包括以下步骤： ### 配置 Munge Slurm 需要 Munge 来进行身份验证和加密。需要在所有节点上安装 Munge，并生成一个共享密钥。 ``` sudo apt-get install munge sudo systemctl enable munge sudo systemctl start munge sudo /usr/sbin/munged --force sudo dd if=/dev/random bs=1 count=1024 >/etc/munge/munge.key sudo chmod 400 /etc/munge/munge.key sudo chown munge:munge /etc/munge/munge.key ``` 将生成的密钥复制到所有节点上。 ### 配置 Slurm 配置文件 Slurm 的配置文件为 `/usr/local/etc/slurm.conf`。可以使用以下命令创建一个基本的配置文件： ``` sudo mkdir -p /etc/slurm-llnl sudo cp /usr/local/etc/slurm.conf.example /etc/slurm-llnl/slurm.conf ``` 然后，编辑配置文件并根据需要进行更改。以下是一些常用的配置项： ``` ControlMachine=<管理节点IP地址> MpiDefault=none SlurmUser=<Slurm用户> SlurmdUser=<slurmd用户> AuthType=auth/munge CryptoType=crypto/munge ``` ### 配置 slurmdbd slurmdbd 是一个用于将作业信息和节点状态存储在数据库中的守护进程。需要在管理节点上安装 MySQL 或 MariaDB，并创建一个数据库和一个用户。 ``` sudo apt-get install mariadb-server libmysqlclient-dev sudo systemctl enable mariadb sudo systemctl start mariadb sudo mysql_secure_installation sudo mysql -u root -p ``` 在 MySQL 命令行界面上，输入以下命令来创建数据库和用户： ``` CREATE DATABASE slurm_acct_db; GRANT ALL ON slurm_acct_db.* TO 'slurm'@'localhost' IDENTIFIED BY 'password'; FLUSH PRIVILEGES; ``` 然后，编辑 `/etc/slurm-llnl/slurmdbd.conf` 文件，并根据需要进行更改。以下是一些常用的配置项： ``` DbdAddr=<管理节点IP地址> DbdHost=<管理节点主机名> StorageType=accounting_storage/mysql DbdUser=<MySQL用户名> DbdPass=<MySQL用户密码> DbName=slurm_acct_db ``` ### 配置节点在每个计算节点上，需要编辑 `/etc/slurm-llnl/slurmd.conf` 文件，并根据需要进行更改。以下是一些常用的配置项： ``` ControlMachine=<管理节点IP地址> AuthType=auth/munge CryptoType=crypto/munge ``` 然后，启动 `slurmd` 守护进程： ``` sudo systemctl enable slurmd sudo systemctl start slurmd ``` ## 3. 启动 Slurm 在完成所有配置后，可以启动 Slurm。首先，需要启动 `slurmdbd` 守护进程： ``` sudo systemctl enable slurmdbd sudo systemctl start slurmdbd ``` 然后，在管理节点上启动 `slurmctld` 守护进程： ``` sudo systemctl enable slurmctld sudo systemctl start slurmctld ``` ## 4. 测试 Slurm 可以使用以下命令测试 Slurm 是否正常工作： ``` srun -N <节点数> -n <任务数> hostname ``` 例如： ``` srun -N 2 -n 4 hostname ``` 运行此命令后，应该会在终端上看到所有节点的主机名。如果一切正常，则表示 Slurm 已经正确安装和配置。以上是一个基本的 Slurm 集群部署教程，如果需要更高级的配置和管理，请参考 Slurm 官方文档。

阅读全文

slurm集群部署教程

相关推荐

slurm集群搭建包.zip

CentOS下部署SLURM集群管理器：安装与配置教程

OpenHPC CentOS 7.4 安装指南：Warewulf SLURM v1.3.4 x86_64集群部署教程

天河集群管理：原创Slurm中文安装教程

slurm在ubuntu上的搭建

演示Atlas计算机集群地图集使用教程

PhoeniCS并行计算与集群部署

【Linux任务管理核心教程】：fg命令与作业控制的全面剖析

YOLOv5集群式训练开源社区：资源和支持，助力你快速入门

【分布式深度学习集群】：Anaconda在大规模计算中的应用策略

PARDISO案例研究：企业级部署策略与实践

学生信息管理系统-----------无数据库版本

2024年福建省村级（居委会）行政区划shp数据集

win32汇编环境，对话框中显示bmp图像文件

基于STM8单片机的红外接收键码值送LCD显示实验.zip

电动汽车动力系统匹配计算模型：输入整车参数及性能要求，一键生成驱动系统的扭矩功率峰值转速等参数 2、整车动力经济性计算模型：包含NEDC WLTC CLTC工况，输入整车参数可生成工况电耗、百公里电

2020 CCF大数据与计算智能大赛-非结构化商业文本信息中隐私信息识别-第7名方案.zip

毕设&课程作业_基于C#的教师工作量管理系统 .zip

基于STM8单片机的FM收音机电台搜索实验.zip

大家在看

NPPExport_0.3.0_32位64位版本.zip

建立点击按钮-INTOUCH资料

深圳大学《数据结构》1-4章练习题

华为CloudIVS 3000技术主打胶片v1.0（C20190226）.pdf

关于初始参数异常时的参数号-无线通信系统arm嵌入式开发实例精讲

最新推荐

slurm安装心得体会,虚拟机中安装，并提交作业，以及队列用户限制

学生信息管理系统-----------无数据库版本

2024年福建省村级（居委会）行政区划shp数据集

GitHub Classroom 创建的C语言双链表实验项目解析

管理建模和仿真的文件

【三态RS锁存器CD4043的秘密】：从入门到精通的电路设计指南（附实际应用案例）

霍夫曼四元编码matlab

MATLAB在AWS上的自动化部署与运行指南

"互动学习：行动中的多样性与论文攻读经历"

铁路售票系统用例图：异常流处理的黄金法则