考虑优化问题如下 \begin{align*} \min _{H(\x)} & \quad \mathbb{E}_{\Y|\x} \exp\left(-\frac{1}{K}(Y_1H(\x)_1 + \cdots + Y_K H(\x)_K)\right)\\ \text { s.t. } & \quad H(\x)_1 + \cdots H(\x)_K = 0. \end{align*} 请证明对于最优解$H^\star(\x)$, $\mathop{\arg\max}_{k \in [K]} H^\star(\x)_k$达到了贝叶斯最优错误率, 即SAMME使用的多分类指数损失函数 是0/1损失函数的一致的替代损失函数. (提示: 使用拉格朗日乘子法)
时间: 2023-07-06 21:32:20 浏览: 106
我们可以使用拉格朗日乘子法将约束条件引入到目标函数中,得到如下的拉格朗日函数:
$$L(H(\x), \lambda) = \mathbb{E}_{\Y|\x} \exp\left(-\frac{1}{K}(Y_1H(\x)_1 + \cdots + Y_K H(\x)_K)\right) + \lambda(H(\x)_1 + \cdots + H(\x)_K)$$
其中$\lambda$是拉格朗日乘子。我们要最小化的是$L(H(\x), \lambda)$,因此最优解需要同时满足以下两个条件:
$$\frac{\partial L}{\partial H(\x)_k} = -\frac{1}{K}\mathbb{E}_{\Y|\x} Y_k\exp\left(-\frac{1}{K}(Y_1H(\x)_1 + \cdots + Y_K H(\x)_K)\right) + \lambda = 0$$
$$\frac{\partial L}{\partial \lambda} = H(\x)_1 + \cdots + H(\x)_K = 0$$
我们可以将第一个条件化简为:
$$\mathbb{E}_{\Y|\x}[Y_k\exp(-a_kH(\x)_k)] = \mathbb{E}_{\Y|\x}[Y_1\exp(-a_1H(\x)_1)] = \cdots = \mathbb{E}_{\Y|\x}[Y_K\exp(-a_KH(\x)_K)]$$
其中$a_k = \frac{1}{K}$,这是AdaBoost算法中使用的权重。这个等式的意义是,对于最优解$H^\star(\x)$,它同时最小化了所有分类器的指数损失函数,因此达到了贝叶斯最优错误率。
接下来我们来证明,使用SAMME算法中的多分类指数损失函数是0/1损失函数的一致替代损失函数。SAMME算法的损失函数为:
$$L(\Y, \mathbf{f}(\x)) = -\sum_{k=1}^K w_k \log \hat{y}_k(\mathbf{f}(\x))$$
其中$w_k$是第$k$个分类器的权重,$\hat{y}_k(\mathbf{f}(\x))$是第$k$个分类器对于样本$\x$的预测概率。我们可以将$\hat{y}_k(\mathbf{f}(\x))$表示为指数函数的形式:
$$\hat{y}_k(\mathbf{f}(\x)) = \frac{\exp(f_k(\x))}{\sum_{j=1}^K \exp(f_j(\x))}$$
其中$f_k(\x) = \frac{1}{w_k}\log\mathbb{E}_{\Y|\x}[Y_k\exp(-a_kf_k(\x))]$是第$k$个分类器的强度。我们可以将$\hat{y}_k(\mathbf{f}(\x))$表示为强度函数的形式:
$$\hat{y}_k(\mathbf{f}(\x)) = \frac{\exp(\frac{1}{w_k}f_k(\x))}{\sum_{j=1}^K \exp(\frac{1}{w_j}f_j(\x))}$$
对比指数损失函数和SAMME算法的损失函数,我们可以发现它们很相似,只是指数函数换成了强度函数。因此,我们可以将指数损失函数看作是0/1损失函数的一致替代损失函数,而SAMME算法的多分类指数损失函数也是0/1损失函数的一致替代损失函数。
阅读全文