深度学习笔记：神经网络梯度推导详解

需积分: 0 116 浏览量更新于2024-07-01 收藏 696KB PDF 举报

"这篇博客主要介绍了神经网络的梯度推导过程，特别是针对一个包含全连接层和ReLU激活函数的网络结构。文章基于斯坦福大学的cs231n课程，目的是实现一个能够进行分类任务的神经网络，并在CIFAR-10数据集上进行测试。" 神经网络是深度学习的基础，它由多个层次组成，每个层次包含若干个节点，这些节点通过权重连接形成网络。在本篇博客中，作者讨论了如何对一个具有全连接层和ReLU激活函数的神经网络进行梯度推导，这是训练神经网络优化参数的关键步骤。首先，网络结构包括输入层(D)、全连接层(ReLU激活，H)和softmax输出层(C)。输入X是一个[N×D]的矩阵，表示N个样本的D维特征；ground truth y是一个[N×1]的矩阵，表示每个样本的真实类别标签。网络参数包括两个权重矩阵W1[D×H]和W2[H×C]以及两个偏置向量b1[1×H]和b2[1×C]。前向传播过程中，数据首先通过全连接层1，计算公式为FC1_out = X ⋅ W1 + b1，接着经过ReLU激活函数，得到非线性变换后的H_out = max(0, FC1_out)。然后，H_out与权重W2相乘并加上偏置b2，得到FC2_out = H_out ⋅ W2 + b2。最后，通过softmax函数转换为概率分布，即final_output = softmax(FC2_out)。在反向传播阶段，计算损失函数关于各个参数的梯度，这是通过链式法则完成的。例如，为了计算损失L关于W2的梯度，需要用到∂L/∂FC2_out，这可以通过final_output和一个MaskMat减去得到。接着，根据链式法则，∂L/∂W2 = H_out^T ⋅ ∂L/∂FC2_out。对于偏置b2，∂L/∂b2 = [1, 1]^T ⋅ ∂L/∂FC2_out。而对于隐藏层的梯度，我们需要计算∂L/∂H_out，这涉及到ReLU函数的导数，只有当∂L/∂H_out为正时，其梯度才为正，否则为0，即∂L/∂H_out = max(∂L/∂H_out, 0)。最后，∂L/∂W1的计算需要使用X的转置XT ⋅ ∂L/∂H_out。这个推导过程对于理解神经网络的训练机制至关重要，特别是在实践中优化算法如梯度下降法的应用。通过计算梯度，我们可以更新网络的权重和偏置，使网络逐步学习并改善其预测能力。在实际应用中，这种推导通常通过自动微分库（如TensorFlow或PyTorch）来实现，但理解底层原理对于调试和改进模型至关重要。

num_train = X.shape[0]

iterations_per_epoch = max(num_train / batch_size, 1)

# Use SGD to optimize the parameters in self.model

loss_history = []

train_acc_history = []

val_acc_history = []

for it in xrange(num_iters):

X_batch = None

y_batch = None

#########################################################################

# TODO: Create a random minibatch of training data and labels, storing #

# them in X_batch and y_batch respectively. #

#########################################################################

sample_index = np.random.choice(num_train, batch_size, replace=True)

X_batch = X[sample_index, :]

y_batch = y[sample_index]

#########################################################################

# END OF YOUR CODE #

#########################################################################

# Compute loss and gradients using the current minibatch

loss, grads = self.loss(X_batch, y=y_batch, reg=reg)

loss_history.append(loss)

#########################################################################

# TODO: Use the gradients in the grads dictionary to update the #

# parameters of the network (stored in the dictionary self.params) #

# using stochastic gradient descent. You'll need to use the gradients #

# stored in the grads dictionary defined above. #

#########################################################################

dW1 = grads['W1']

dW2 = grads['W2']

db1 = grads['b1']

db2 = grads['b2']

self.params['W1'] -= learning_rate*dW1

self.params['W2'] -= learning_rate*dW2

self.params['b1'] -= learning_rate*db1

self.params['b2'] -= learning_rate*db2

#########################################################################

# END OF YOUR CODE #

#########################################################################

if verbose and it % 100 == 0:

print 'iteration %d / %d: loss %f' % (it, num_iters, loss)

# Every epoch, check train and val accuracy and decay learning rate.

if it % iterations_per_epoch == 0:

# Check accuracy

train_acc = (self.predict(X_batch) == y_batch).mean()

val_acc = (self.predict(X_val) == y_val).mean()

train_acc_history.append(train_acc)

剩余20页未读，继续阅读

食色也

粉丝: 37
资源: 351

深度学习笔记：神经网络梯度推导详解

梯度推导1

神经网络1

人工神经网络一1

2层神经网络公式推导

深度学习（神经网络） —— BP神经网络原理推导及python实现

线性回归，逻辑回归与神经网络原理推导

BP神经网络推导

BP神经网络数学推导详解与应用

感知机梯度推导深度学习PyTorch教程

1998年LSTM原理解析与梯度推导

最新资源