对率回归求解的函数是凸函数的证明过程
时间: 2023-05-28 11:06:44 浏览: 161
对率回归的目标函数是一个典型的最大似然估计问题,可以表示为:
$$
\max_{\beta}\sum_{i=1}^{n}[y_i\log(\frac{1}{1+e^{-\beta^Tx_i}})+(1-y_i)\log(\frac{e^{-\beta^Tx_i}}{1+e^{-\beta^Tx_i}})]
$$
其中,$y_i$表示第$i$个样本的标签,$x_i$表示第$i$个样本的特征向量,$\beta$表示模型参数。
我们可以先证明这个目标函数是一个凸函数的充分条件是其二阶导数为正定矩阵。
对目标函数求一阶导数:
$$
\frac{\partial L(\beta)}{\partial \beta_j}=\sum_{i=1}^{n}(y_i-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})x_{ij}
$$
对目标函数求二阶导数:
$$
\begin{aligned}
\frac{\partial^2 L(\beta)}{\partial \beta_j\partial \beta_k}&=-\sum_{i=1}^{n}\frac{\partial}{\partial\beta_k}(\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2})x_{ij}x_{ik}\\
&=-\sum_{i=1}^{n}(y_i-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})(1-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})x_{ij}x_{ik}
\end{aligned}
$$
令$X$表示$n\times p$的样本特征矩阵,$Y$表示$n\times 1$的样本标签向量,则二阶导数可以表示为:
$$
\frac{\partial^2 L(\beta)}{\partial \beta_j\partial \beta_k}=-X^T\Sigma X
$$
其中,
$$
\Sigma=diag(\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2})-diag(\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})(1-diag(\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}))
$$
因为$\Sigma$是一个对角线元素为非负数的矩阵,所以只需要证明$X^T\Sigma X$是一个正定矩阵即可证明目标函数是一个凸函数。
对于任意非零向量$z\in R^p$,有:
$$
z^TX^T\Sigma Xz=\sum_{i=1}^{n}(z^Tx_i)^2\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2}-\sum_{i=1}^{n}(z^Tx_i)^2\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}(1-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})
$$
令$p_i=\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}$,则上式可以进一步化简为:
$$
\begin{aligned}
z^TX^T\Sigma Xz&=\sum_{i=1}^{n}(z^Tx_i)^2p_i(1-p_i)\\
&\geq \frac{1}{4}\sum_{i=1}^{n}(z^Tx_i)^2\\
&=\frac{1}{4}z^TX^TXz
\end{aligned}
$$
其中,第一个不等式使用了$p(1-p)\leq \frac{1}{4}$,第二个不等式使用了柯西-施瓦茨不等式。
因此,$X^T\Sigma X$是一个正定矩阵,从而证明了目标函数是一个凸函数。
阅读全文