ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 27626) of binary:
时间: 2023-11-17 15:07:57 浏览: 338
pytorch:torch.mm()和torch.matmul()的使用
这个错误是在使用单机多卡进行分布式(DDP)训练时出现的。具体错误信息是:ERROR: torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 27626) of binary:。根据引用中提供的信息,这个错误可能是由于在分布式训练时使用了sampler,并且dataloader时参数shuffle设置成True导致的。因此,在使用分布式训练时,应该在dataloader时将参数shuffle设置为False。
阅读全文