首页ReLU激活函数对应的梯度下降函数

ReLU激活函数对应的梯度下降函数

时间: 2023-12-29 15:05:09 浏览: 74

ReLU激活函数杂谈

5星 · 资源好评率100%

在实现多层感知机代码实现中使用了ReLU激活函数： ReLU(x)=max(x,0)ReLU(x)=max(x,0)ReLU(x)=max(x,0) 形状大概是这样的这里根据几个问题来进行回答解释为什么要使用激活函数呢？简单来说激活函数的作用就是将仿射函数进行非线性化，可以拟合出更多的情况。更详细的解答可以参考知乎激活函数的解释 ReLU函数的梯度问题首先谈一下sigimoid函数的梯度，通常不选用它是因为sigmoid函数可能有梯度消失的情况，原因可以看它的梯度函数图可以看到蓝色的线是sigmoid函数图像，橘色的线是它的梯度图。当输入值特别大或者特别小的时候，sigmoid函

ReLU激活函数的导数为： $$ \frac{\partial}{\partial x}ReLU(x) = \begin{cases} 1, & \text{if } x > 0\\ 0, & \text{otherwise} \end{cases} $$ 因此，ReLU激活函数对应的梯度下降函数为： $$ \theta_{i+1} = \theta_i - \alpha \cdot \frac{\partial}{\partial \theta_i}J(\theta_i) $$ 其中，$J(\theta_i)$是损失函数，$\alpha$是学习率，$\theta_i$是第$i$次迭代的参数。在使用ReLU作为激活函数时，对应的梯度下降函数为： $$ \theta_{i+1} = \theta_i - \alpha \cdot \frac{\partial}{\partial \theta_i}J(\theta_i) \cdot \begin{cases} 1, & \text{if } \theta_i > 0\\ 0, & \text{otherwise} \end{cases} $$ 这是因为当$\theta_i > 0$时，ReLU激活函数的导数为1；当$\theta_i \leq 0$时，ReLU激活函数的导数为0。因此，梯度下降的更新只会在$\theta_i > 0$时发生。

阅读全文