local_rank = int(os.environ["LOCAL_RANK"])

`local_rank = int(os.environ["LOCAL_RANK"])` 是用于获取当前进程的本地排名。在分布式训练中，每个计算节点上都会运行多个进程，不同进程之间需要进行通信和同步，以完成模型的训练。为了区分不同进程的身份和角色，需要为每个进程分配一个本地排名。在 PyTorch 中，可以通过环境变量 `LOCAL_RANK` 来获取当前进程的本地排名。在进行分布式训练时，通常会使用启动脚本来启动多个进程，每个进程都会被分配一个唯一的本地排名。通过获取本地排名，可以在代码中对不同进程进行不同的处理，以保证训练的正确性和效率。需要注意的是，在获取本地排名时，需要确保环境变量 `LOCAL_RANK` 已经被正确设置。通常情况下，这些环境变量会在启动脚本中进行设置，需要对启动脚本进行适当的修改和调整，以确保环境变量的正确性和一致性。

if distributed: dist.init_process_group(backend="nccl") local_rank = int(os.environ["LOCAL_RANK"]) rank = int(os.environ["RANK"]) device = torch.device("cuda", local_rank) if local_rank == 0: print(f"[{os.getpid()}] (rank = {rank}, local_rank = {local_rank}) training...") print("Gpu Device Count : ", ngpus_per_node) else: device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') local_rank = 0 rank = 0

这段代码是用于分布式训练的。首先通过判断`distributed`变量是否为True，来确定是否启动分布式训练。如果是分布式训练，则调用`dist.init_process_group`函数初始化进程组，指定使用NCCL作为后端通信库，用于多GPU之间的通信。然后获取本地进程的rank和local_rank，在分布式训练中rank代表全局进程的编号，local_rank代表本地进程的编号。接下来根据`local_rank`获取当前进程使用的GPU设备，并打印相关信息。如果不是分布式训练，则默认使用cpu设备。

ngpus_per_node = torch.cuda.device_count() if distributed: dist.init_process_group(backend="nccl") local_rank = int(os.environ["LOCAL_RANK"]) rank = int(os.environ["RANK"]) device = torch.device("cuda", local_rank) if local_rank == 0: print(f"[{os.getpid()}] (rank = {rank}, local_rank = {local_rank}) training...") print("Gpu Device Count : ", ngpus_per_node) else: device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') local_rank = 0 rank = 0

这段代码看起来是用于设置分布式训练的GPU设备使用情况。首先通过 `torch.cuda.device_count()` 获取当前节点上可用的GPU数量，然后通过 `dist.init_process_group()` 初始化分布式环境，其中 `backend` 参数指定使用的通信后端，这里是使用了 `nccl`。接下来通过获取环境变量中的 `LOCAL_RANK` 和 `RANK` 参数，确定当前进程的本地rank和全局rank。如果本地rank为0，则输出日志信息，并打印可用的GPU数量。如果不是分布式训练，则直接判断CUDA是否可用，选择使用CPU或GPU。

阅读全文

local_rank = int(os.environ["LOCAL_RANK"])

相关推荐

Python基于os.environ从windows获取环境变量

在tensorflow中设置使用某一块GPU、多GPU、CPU的操作

linux proc_test....

Please read local_rank from os.environ('LOCAL_RANK') instead.

int(os.environ["LOCAL_RANK"])是

train_sampler = torch.utils.data.distributed.DistributedSampler(msrvtt_dataset)

环境变量LOCAL_RANK

torch.cuda.set_device(local_ran

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

排序

用于挂接 DirectX API 调用的库.zip

高效PDCA工作法：从计划到调整的管理四步骤指南

最新推荐

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

排序

用于挂接 DirectX API 调用的库.zip

MATLAB新功能：Multi-frame ViewRGB制作彩色图阴影

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

在Flow-3D中如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

XKCD Substitutions 3-crx插件：创新的网页文字替换工具