def cost_derivative(self, output_activations, y): return (output_activations - y) 把这个函数改为使用交叉熵误差损失函数的导数

交叉熵误差损失函数的导数公式如下： $$\frac{\partial C}{\partial z_i} = \frac{1}{n}\sum\limits_{j=1}^n (\sigma(z_j) - y_j)$$ 其中，$z_i$ 为最后一层的未激活输出，$\sigma(z_j)$ 为该层神经元 $j$ 的激活输出，$y_j$ 为该层神经元 $j$ 对应的标签值，$n$ 为输出层的神经元个数。将该公式代入原来的函数中，得到如下代码： ``` def cost_derivative(self, output_activations, y): return (output_activations - y) / len(output_activations) ```

def cost_derivative(self, output_activations, y): return (output_activations - y)改为交叉熵损失函数的导数

如果使用交叉熵损失函数，则代价函数的公式为： $$ C = -\frac{1}{n} \sum_{i=1}^n [y_i \ln a_i + (1-y_i) \ln (1-a_i)] $$ 其中，$n$ 为样本数量，$y_i$ 表示第 $i$ 个样本的真实标签，$a_i$ 表示模型预测的标签。对代价函数求导有： $$ \begin{aligned} \frac{\partial C}{\partial a_i} &= -\frac{1}{n} \sum_{i=1}^n \left[\frac{y_i}{a_i} - \frac{1-y_i}{1-a_i} \right] \\ &= -\frac{1}{n} \sum_{i=1}^n \left[\frac{y_i}{a_i(1-a_i)} - \frac{1-y_i}{(1-a_i)a_i} \right] \\ &= -\frac{1}{n} \sum_{i=1}^n \left[\frac{y_i}{a_i(1-a_i)} - \frac{1}{a_i} + \frac{1}{1-a_i} - \frac{1-y_i}{(1-a_i)a_i} \right] \\ &= -\frac{1}{n} \sum_{i=1}^n \left[\frac{y_i-a_i}{a_i(1-a_i)} \right] \end{aligned} $$ 因此，交叉熵损失函数的导数为： $$ \frac{\partial C}{\partial z_i} = a_i - y_i $$ 其中，$z_i$ 表示第 $i$ 个样本的输出结果经过 sigmoid 函数激活后的值。

tmp/ipykernel_1056/502992382.py in cost_derivative(self, output_activations, y) 72 73 def cost_derivative(self,output_activations, y): ---> 74 return (output_activations-y) 75 76 def evaluate(self, test_data): ValueError: operands could not be broadcast together with shapes (784,1) (10,1)

这个错误表明你的 `output_activations` 和 `y` 的形状不兼容，因此无法进行减法运算。具体来说，`output_activations` 的形状为 (784,1)，而 `y` 的形状为 (10,1)。这意味着你正在尝试从一个形状为 (784,1) 的数组中减去一个形状为 (10,1) 的数组，这是不允许的。要解决这个问题，你需要确保 `output_activations` 和 `y` 具有相同的形状。你应该检查一下你的代码，看看是哪里导致了这个问题。可能需要在某个地方添加一些代码来调整维度或形状。

def cost_derivative(self, output_activations, y): return (output_activations - y) 把这个函数改为使用交叉熵误差损失函数的导数

def cost_derivative(self, output_activations, y): return (output_activations - y)改为交叉熵损失函数的导数

tmp/ipykernel_1056/502992382.py in cost_derivative(self, output_activations, y) 72 73 def cost_derivative(self,output_activations, y): ---> 74 return (output_activations-y) 75 76 def evaluate(self, test_data): ValueError: operands could not be broadcast together with shapes (784,1) (10,1)

相关推荐

分类问题损失函数 – 交叉熵

交叉熵损失函数.docx

交叉熵损失函数python实现源码

def sigmoid_derivative(self, x): return x * (1 - x)

self.delta2 = (y - output) * self.sigmoid_derivative(output)

这个程序报错 tangent = bezier_curve_derivative(points, t) TypeError: 'numpy.ndarray' object is not callable

cost_derivative

def evaluate_fitness(self, position):补充完整这里面的内容，假定PID控制系统的输入为1000，传递函数为1/s的平方+s+1

def evaluate_fitness(self, position):具体写出里面的内容，假定PID控制系统输入为1000，传递函数为1/s的平方+s+1

def relu_derivative(z): """ Derivative of activation function """ k = z >= 0 z[k] = 1 z[~k] = 0 return z

最新推荐

1 (19).pptx

1 (8).pptx

计算机基础知识试题与解答

管理建模和仿真的文件

【进阶】音频处理基础：使用Librosa

设置ansible 开机自启

计算机基础知识试题与解析

"互动学习：行动中的多样性与论文攻读经历"

【基础】网络编程入门：使用HTTP协议

时间序列大模型的研究进展