PyTorch学习笔记：解决grad_fn与权重梯度不更新问题

pytorch

87 浏览量更新于2023-05-11 1 收藏 47KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"PyTorch中的grad_fn和权重梯度不更新问题详解" 在深度学习框架PyTorch中，理解变量（Variable）的属性和反向传播机制是优化模型的关键。`grad_fn`属性是一个非常重要的概念，它表示了一个变量如何通过一系列的操作（Function）被创建。在神经网络的训练过程中，`grad_fn`用于跟踪前向传播中的计算路径，以便在反向传播时计算梯度。首先，我们来深入理解`grad_fn`。在PyTorch中，每个Variable都有一个`grad_fn`属性，它是一个Function对象，记录了这个Variable是如何从其他Variable计算得到的。当执行一个操作（如加法、乘法或卷积等）时，新的Variable会自动链接到相应的Function，形成一个计算图。这个计算图在反向传播时用于计算梯度，使得我们可以根据损失函数的梯度更新权重。在训练二分类网络时，确保`requires_grad=True`对于那些需要求导的变量至关重要。这会让PyTorch跟踪这些变量的运算历史，以便在反向传播时计算梯度。例如，将`train_pred`设置为`requires_grad=True`允许我们计算其相对于权重的梯度，这对于权重的更新是必要的。然而，问题出现在对`train_pred`的处理上。原始代码中，`train_pred`在经过模型预测后，通过`torch.max`和`squeeze`操作改变了其形状以匹配目标数据（target）。然而，这样做破坏了`train_pred`的`grad_fn`链，因为它不再指向原始的模型输出，导致梯度无法正确地反向传播到权重。正确的做法是在计算损失时直接使用原始的模型输出，即`model(data)`，而不是处理过的`train_pred`。因为`model(data)`包含了完整的计算链，可以正确地反向传播损失，计算权重的梯度。所以，修正后的代码应该如下： ```python for batch_idx, (data, target) in enumerate(train_loader): # Get inputs data = Variable(data, requires_grad=False) target = Variable(target, requires_grad=False) # Forward pass output = model(data) # Calculate loss loss = F.binary_cross_entropy(output, target) # Backward pass and optimize loss.backward() optimizer.step() # Clear gradients for next iteration optimizer.zero_grad() ``` 在这个例子中，我们直接将`data`输入模型并计算损失，然后执行`loss.backward()`来触发反向传播。`optimizer.step()`更新权重，而`optimizer.zero_grad()`清零所有参数的梯度，为下一轮迭代做好准备。理解PyTorch中的`grad_fn`以及如何保持计算图的完整是避免权重梯度不更新问题的关键。在调整模型输出或中间结果时，一定要谨慎，以防止破坏梯度计算路径。正确设置`requires_grad`属性，并确保损失函数与模型输出直接相连，能够确保网络权重在训练过程中得到有效的更新。

资源详情

资源推荐