f = ||max(XW,0)-Y||^2_F 矩阵求导
时间: 2023-11-03 08:07:00 浏览: 39
根据矩阵求导的规则,我们可以先对 $f$ 中的 $||max(XW,0)-Y||^2_F$ 进行求导,然后再对其中的 $max(XW,0)$ 进行求导。
首先,我们有:
$$f = ||max(XW,0)-Y||^2_F = tr\{(max(XW,0)-Y)^T(max(XW,0)-Y)\}$$
对其求导,得到:
$$\frac{\partial f}{\partial W} = \frac{\partial tr\{(max(XW,0)-Y)^T(max(XW,0)-Y)\}}{\partial W}$$
$$= \frac{\partial tr\{(XW)^Tmax(0,XW)-Y^Tmax(0,XW)-max(0,XW)^TY+Y^TY\}}{\partial W}$$
$$= \frac{\partial tr\{(XW)^Tmax(0,XW)\}}{\partial W} - \frac{\partial tr\{Y^Tmax(0,XW)\}}{\partial W} - \frac{\partial tr\{max(0,XW)^TY\}}{\partial W}$$
对第一项进行求导,得到:
$$\frac{\partial tr\{(XW)^Tmax(0,XW)\}}{\partial W} = X^T(max(0,XW) > 0)$$
其中,$(max(0,XW) > 0)$ 表示矩阵 $max(0,XW)$ 中大于 0 的元素所在位置为 1,其余为 0。
对第二项进行求导,得到:
$$\frac{\partial tr\{Y^Tmax(0,XW)\}}{\partial W} = 0$$
因为 $Y$ 不含 $W$。
对第三项进行求导,得到:
$$\frac{\partial tr\{max(0,XW)^TY\}}{\partial W} = X^T(max(0,XW) > 0)$$
因此,最终的结果为:
$$\frac{\partial f}{\partial W} = 2X^T(max(0,XW) > 0) - 2X^TY$$