首页pytorch梯度叠加

pytorch梯度叠加

时间: 2023-10-16 20:16:59 浏览: 42

在PyTorch中，梯度默认是自动累加的。这意味着每次调用backward()函数时，梯度将累加到先前计算的梯度中，而不是替换它们。这种行为在训练过程中很有用，因为通常需要多次迭代来计算完整的梯度。但是，有时候我们希望在某些情况下清除梯度累积，比如在每个epoch的开始处或在训练过程中的某个特定时间点。我们可以使用zero_grad()函数来清除梯度。示例代码： ```python import torch import torch.nn as nn # 定义模型 model = nn.Linear(10, 1) # 定义损失函数 criterion = nn.MSELoss() # 定义优化器 optimizer = torch.optim.SGD(model.parameters(), lr=0.1) # 训练模型 for epoch in range(10): for i in range(100): # 清除梯度 optimizer.zero_grad() # 前向传播 x = torch.randn(10) y = torch.randn(1) output = model(x) loss = criterion(output, y) # 反向传播 loss.backward() # 更新权重 optimizer.step() ``` 在上面的代码中，我们在每个batch的开始处调用了zero_grad()函数来清除梯度累积。这确保了每个batch的梯度是独立计算的。如果我们不清除梯度，那么每个batch的梯度将被累加到先前的梯度中，导致不正确的更新。