三层残差神经网络反向迭代推导
时间: 2024-02-02 07:09:37 浏览: 164
三层残差神经网络反向迭代推导的过程如下:
假设我们有一个三层残差神经网络,其中输入层为第0层,隐藏层为第1层,输出层为第2层。我们使用均方误差作为损失函数。
1. 前向传播:
首先,我们计算第1层的输出:
$$z^{} = W^{} \cdot a^{} + b^{}$$
$$a^{} = g^{}(z^{})$$
其中,$W^{}$是第1层的权重矩阵,$b^{}$是第1层的偏置向量,$a^{}$是输入层的激活值,$g^{}$是第1层的激活函数。
然后,我们计算第2层的输出:
$$z^{} = W^{} \cdot a^{} + b^{}$$
$$a^{} = g^{}(z^{})$$
其中,$W^{}$是第2层的权重矩阵,$b^{}$是第2层的偏置向量,$a^{}$是隐藏层的激活值,$g^{}$是第2层的激活函数。
2. 计算损失函数:
使用均方误差作为损失函数,计算损失值:
$$J = \frac{1}{2m} \sum_{i=1}^{m} (a^{(i)} - y^{(i)})^2$$
其中,$m$是样本数量,$a^{(i)}$是第2层的输出值,$y^{(i)}$是实际标签值。
3. 反向传播:
首先,计算第2层的误差:
$$dz^{} = a^{} - y$$
其中,$dz^{}$是第2层的误差,$a^{}$是第2层的输出值,$y$是实际标签值。
然后,计算第2层的权重和偏置的梯度:
$$dW^{} = \frac{1}{m} dz^{} \cdot a^{T}$$
$$db^{} = \frac{1}{m} \sum_{i=1}^{m} dz^{(i)}$$
其中,$dW^{}$是第2层权重的梯度,$db^{}$是第2层偏置的梯度,$dz^{(i)}$是第2层的误差。
接下来,计算第1层的误差:
$$dz^{} = (W^{})^T \cdot dz^{} \odot g'^{}(z^{})$$
其中,$\odot$表示元素级别的乘法,$g'^{}(z^{})$是第1层激活函数的导数。
最后,计算第1层的权重和偏置的梯度:
$$dW^{} = \frac{1}{m} dz^{} \cdot a^{T}$$
$$db^{} = \frac{1}{m} \sum_{i=1}^{m} dz^{(i)}$$
其中,$dW^{}$是第1层权重的梯度,$db^{}$是第1层偏置的梯度,$dz^{(i)}$是第1层的误差。
4. 更新参数:
使用梯度下降法更新参数:
$$W^{} = W^{} - \alpha dW^{}$$
$$b^{} = b^{} - \alpha db^{}$$
$$W^{} = W^{} - \alpha dW^{}$$
$$b^{} = b^{} - \alpha db^{}$$
其中,$\alpha$是学习率。
阅读全文