首页交叉熵代价函数(损失函数)及其求导推导

交叉熵代价函数(损失函数)及其求导推导

时间: 2023-10-21 09:22:09 浏览: 94

交叉熵代价函数是在分类问题中常用的一种损失函数，它的定义如下： $$ J = -\frac{1}{m}\sum_{i=1}^{m}\sum_{j=1}^{C}y_j^{(i)} \log\left(\hat{y}_j^{(i)}\right) + (1-y_j^{(i)}) \log\left(1-\hat{y}_j^{(i)}\right) $$ 其中，$m$是样本数量，$C$是分类数，$y_j^{(i)}$是第$i$个样本的第$j$个类别的真实标签，$\hat{y}_j^{(i)}$是模型预测的第$j$个类别的概率。对于交叉熵代价函数的求导推导，我们需要分别对$\hat{y}_j^{(i)}$和$1-\hat{y}_j^{(i)}$求导。首先，对$\hat{y}_j^{(i)}$求导，有： $$ \frac{\partial J}{\partial \hat{y}_j^{(i)}} = -\frac{1}{m}\left(\frac{y_j^{(i)}}{\hat{y}_j^{(i)}} - \frac{1-y_j^{(i)}}{1-\hat{y}_j^{(i)}}\right) $$ 接着，对$1-\hat{y}_j^{(i)}$求导，有： $$ \frac{\partial J}{\partial (1-\hat{y}_j^{(i)})} = -\frac{1}{m}\left(\frac{1-y_j^{(i)}}{1-\hat{y}_j^{(i)}} - \frac{y_j^{(i)}}{\hat{y}_j^{(i)}}\right) $$ 最终，将两个导数合并，可得到交叉熵代价函数对$\hat{y}_j^{(i)}$的导数： $$ \frac{\partial J}{\partial \hat{y}_j^{(i)}} = -\frac{1}{m}\left(\frac{y_j^{(i)}}{\hat{y}_j^{(i)}} - \frac{1-y_j^{(i)}}{1-\hat{y}_j^{(i)}}\right) $$ 除此之外，如果你使用的是softmax作为输出层，那么交叉熵损失函数的导数可以更简洁的表示为： $$ \frac{\partial J}{\partial \mathbf{z}}=\hat{\mathbf{y}}-\mathbf{y} $$ 其中，$\mathbf{z}$是softmax层的输入，$\mathbf{y}$是真实标签，$\hat{\mathbf{y}}$是模型预测的概率分布。

阅读全文