local_rank设置-1 但显示0

根据您提供的信息，我猜测您正在使用分布式训练，并且使用的是PyTorch框架。在PyTorch中，`local_rank`是指每个进程的本地GPU的ID，它的取值范围是从0到`world_size-1`。在分布式训练中，每个进程都需要设置自己的`local_rank`，以便在同一台机器上运行多个进程时，它们可以互相通信，而不会互相干扰。在您的情况下，`local_rank`设置为-1，但显示为0，这可能是因为您没有正确设置分布式训练的环境变量。在使用PyTorch进行分布式训练时，您需要设置以下环境变量： - `MASTER_ADDR`：主节点的IP地址或主机名 - `MASTER_PORT`：主节点的端口号 - `WORLD_SIZE`：总共使用的GPU数如果这些环境变量没有设置正确，那么`local_rank`可能会出现不正确的情况。您可以在命令行中设置这些环境变量，或者在代码中设置这些环境变量。例如，在代码中设置这些环境变量的方式如下： ```python import os os.environ['MASTER_ADDR'] = '127.0.0.1' # 主节点的IP地址或主机名 os.environ['MASTER_PORT'] = '29500' # 主节点的端口号 os.environ['WORLD_SIZE'] = '4' # 总共使用的GPU数 ``` 请确保这些环境变量设置正确，并重新运行您的代码。这样，您应该能够正确设置`local_rank`并且看到正确的输出。

with autocast(): #----------------------# # 前向传播 #----------------------# outputs = model_train(imgs) #----------------------# # 计算损失 #----------------------# if focal_loss: loss = Focal_Loss(outputs, pngs, weights, num_classes = num_classes) else: loss = CE_Loss(outputs, pngs, weights, num_classes = num_classes) if dice_loss: main_dice = Dice_loss(outputs, labels) loss = loss + main_dice with torch.no_grad(): #-------------------------------# # 计算f_score #-------------------------------# _f_score = f_score(outputs, labels) #----------------------# # 反向传播 #----------------------# scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() total_loss += loss.item() total_f_score += _f_score.item() if local_rank == 0: pbar.set_postfix(**{'total_loss': total_loss / (iteration + 1), 'f_score' : total_f_score / (iteration + 1), 'lr' : get_lr(optimizer)}) pbar.update(1)

这段代码是一个训练神经网络的代码段。这里使用了PyTorch中的autocast()函数来自动进行混合精度训练，以减少内存使用和加快运行速度。代码中还使用了两种不同的损失函数（Focal Loss和Cross Entropy Loss）进行训练，并使用Dice Loss来计算F-score。在每个训练迭代中，使用scaler.scale()函数来缩放损失的值，以保证梯度计算的稳定性。最后，根据训练过程中的损失和F-score指标来进行模型的优化更新。如果local_rank等于0，则使用tqdm库来显示训练进度条和训练指标的变化。

Traceback (most recent call last): File "/home/bingxing2/home/scx6281/segmentanything/SAM-Adapter-PyTorch/train.py", line 271, in <module> main(config, save_path, args=args) File "/home/bingxing2/home/scx6281/segmentanything/SAM-Adapter-PyTorch/train.py", line 206, in main result1, result2, result3, result4, metric1, metric2, metric3, metric4 = eval_psnr(val_loader, model, File "/home/bingxing2/home/scx6281/segmentanything/SAM-Adapter-PyTorch/train.py", line 91, in eval_psnr result1, result2, result3, result4 = metric_fn(pred_list, gt_list) UnboundLocalError: local variable 'metric_fn' referenced before assignment ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 3699190) of binary: /home/bingxing2/home/scx6281/.conda/envs/seggg/bin/python Traceback (most recent call last): File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/runpy.py", line 197, in _run_module_as_main return _run_code(code, main_globals, None, File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/runpy.py", line 87, in _run_code exec(code, run_globals) File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/launch.py", line 195, in <module> main() File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/launch.py", line 191, in main launch(args) File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/launch.py", line 176, in launch run(args) File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/run.py", line 753, in run elastic_launch( File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/launcher/api.py", line 132, in call return launch_agent(self._config, self._entrypoint, list(args)) File "/home/bingxing2/home/scx6281/.conda/envs/seggg/lib/python3.9/site-packages/torch/distributed/launcher/api.py", line 246, in launch_agent raise ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

这个错误信息显示在运行train.py过程中出现了一个UnboundLocalError，即引用了一个未定义的变量。具体来说，是metric_fn这个变量在被引用之前没有被赋值。这可能是由于代码中的某个逻辑错误导致的。建议检查一下代码中metric_fn的定义和赋值部分，看看是否有逻辑错误或者变量名写错等问题。另外，也可以尝试在出错的地方添加一些打印语句，以便更好地定位问题所在。

阅读全文

local_rank设置-1 但显示0

相关推荐

探索teb_local_planner-melodic-devel压缩包内容

本地文件上传解决方案：Php_UploadFiles-LOCAL

Moodle-local_staticpage插件：创建独立静态信息页面

mpich2-0.9.tar.gz_MPICH2-0_mpich_mpich2

Saliency Detection via Low-rank Reconstruction from Global to Local

在tensorflow中设置使用某一块GPU、多GPU、CPU的操作

数据库基础知识(经典的常用T-sql语句)

【云端PyTorch GPU训练】：云服务中的训练环境设置与优化

PhoeniCS流-固耦合分析

TELEMAC_2D用户手册：常见问题的调试与排错

聚类算法的并行计算：介绍并行化K-means算法

算法加速秘诀：Max-Min算法的并行化处理与复杂问题求解

yolov10多张GPU时，用上了GPU但GPU_mem显示是0G

subprocess.CalledProcessError: Command '['/root/miniconda3/bin/python', 'train_codiff.py']' returned non-zero exit status 1.

Non-local_pytorch: 掌握PyTorch中的非本地块实现

Moodle插件实现OAuth2认证：moodle-local_oauth

跑腿小程序/智能派单/系统派单/同城配送/校园跑腿/预约取件/用户端+骑手端全开源

大家在看

算法交易模型控制滑点的原理-ws2811规格书 pdf

YRC1000 PROFINET通信功能说明书（西门子 CP1616）.pdf

[] - 2023-08-09 算法工程师炼丹Tricks手册(附1090页PDF下载).pdf

谷歌Pixel5基带xqcn文件

华为备份解压工具4.8

最新推荐

Fast-BNI:多核CPU上的贝叶斯网络快速精确推理

2260DN打印机维护大揭秘：3个步骤预防故障，延长打印机寿命

如何配置NVM（Node Version Manager）来从特定源下载安装包？

Pokedex: 探索JS开发的口袋妖怪应用程序

HL-2260D打印机快速修复手册：5分钟内解决纸张处理难题

利用结晶生长算法，已知生长点x,y坐标，考虑不同类型的通行速度，以15分钟为生长资源，在arcgis中应该如何编程

Laravel实用工具包：laravel-helpers概述

【打印机维修必备】：掌握HL-2260系列打印机的10大故障解决策略

定义一个整型数组，循环为数组元素赋值。使用指针将数组中最小的数与第一个数交换，最大的数与最后一个数交换，输出交换后的数组元素。

Elasticsearch Analysis IK插件7.6.0版本发布