local_rank 是什么意思
时间: 2023-08-31 07:11:46 浏览: 257
local_rank是指在分布式任务中,进程在一台机器上的相对序号。在分布式训练中,多个进程会在不同的机器上同时运行,每个进程都有一个唯一的rank标识。而local_rank则是在一台机器上,进程的相对序号。例如,机器一上有0,1,2,3,4,5,6,7,机器二上也有0,1,2,3,4,5,6,7,那么在机器一上的进程的local_rank就是0,1,2,3,4,5,6,7,在机器二上的进程的local_rank也是0,1,2,3,4,5,6,7。local_rank在不同的机器之间是相互独立的。\[1\]
#### 引用[.reference_title]
- *1* [PyTorch多卡/多GPU/分布式DPP的基本概念(node&rank&local_rank&nnodes&node_rank&nproc_per_node&world_...](https://blog.csdn.net/hxxjxw/article/details/119606518)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [关于Pytorch 分布式训练local_rank的坑](https://blog.csdn.net/qq_40837764/article/details/128141119)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文