对于矩阵X,σ(X)是矩阵X的奇异值向量,那么若X是对称矩阵,σ(X)是凸函数还是凹函数,若X是一般矩阵,σ(X)是凸函数还是凹函数,为什么?
时间: 2023-11-01 13:27:13 浏览: 119
对于矩阵 $X$,若 $X$ 是对称矩阵,则 $\sigma(X)$ 是凸函数;若 $X$ 是一般矩阵,则 $\sigma(X)$ 不是凸函数。
当 $X$ 是对称矩阵时,根据谱定理,$X$ 可以被对角化为 $Q\Lambda Q^\top$ 的形式,其中 $Q$ 是正交矩阵,$\Lambda$ 是对角矩阵,且对角线上的元素为 $X$ 的特征值。由于 $X$ 是对称矩阵,因此其特征值都是实数,且 $X$ 的奇异值等于其特征值的绝对值。因此,$\sigma(X)$ 可以看做是 $\Lambda$ 的对角线上元素的绝对值之和,即 $\sigma(X) = \sum_{i=1}^n |\lambda_i|$。对于任意 $t \in [0,1]$ 和对称矩阵 $X_1, X_2$,设其特征值对应的绝对值分别为 $\{|\lambda_i^{(1)}|\}$ 和 $\{|\lambda_i^{(2)}|\}$,则
$$
\begin{aligned}
\sigma(tX_1+(1-t)X_2)
&= \sum_{i=1}^n |\lambda_i^{(tX_1+(1-t)X_2)}| \\
&= \sum_{i=1}^n |t\lambda_i^{(X_1)}+(1-t)\lambda_i^{(X_2)}| \\
&\leq t\sum_{i=1}^n |\lambda_i^{(X_1)}|+(1-t)\sum_{i=1}^n |\lambda_i^{(X_2)}| \\
&= t\sigma(X_1)+(1-t)\sigma(X_2).
\end{aligned}
$$
因此,$\sigma(X)$ 是凸函数。
当 $X$ 是一般矩阵时,$\sigma(X)$ 不是凸函数。可以考虑二阶范数的情况,即 $f(X) = \|\sigma(X)\|_2^2 = \sum_{i=1}^n \sigma_i^2(X)$。对于任意 $t \in [0,1]$ 和矩阵 $X_1, X_2$,设其奇异值分别为 $\{\sigma_i^{(1)}\}$ 和 $\{\sigma_i^{(2)}\}$,则
$$
\begin{aligned}
f(tX_1+(1-t)X_2)
&= \sum_{i=1}^n \sigma_i^2(tX_1+(1-t)X_2) \\
&= \sum_{i=1}^n \sigma_i^2(tU_1\Sigma_1V_1^\top+(1-t)U_2\Sigma_2V_2^\top) \\
&= \sum_{i=1}^n (t\sigma_i^{(1)}+(1-t)\sigma_i^{(2)})^2,
\end{aligned}
$$
其中 $X_1 = U_1\Sigma_1V_1^\top$,$X_2 = U_2\Sigma_2V_2^\top$ 是 $X_1, X_2$ 的奇异值分解。取 $X_1 = \begin{bmatrix}1&0\\0&0\end{bmatrix}$,$X_2 = \begin{bmatrix}0&0\\0&1\end{bmatrix}$,则 $f(X_1) = f(X_2) = 1$,但是
$$
f\left(\frac{1}{2}X_1+\frac{1}{2}X_2\right) = \sum_{i=1}^2\left(\frac{1}{2}\sigma_i^{(1)}+\frac{1}{2}\sigma_i^{(2)}\right)^2 = \frac{1}{2},
$$
因此 $f(X)$ 不满足 Jensen 不等式,即 $f(X)$ 不是凸函数。
阅读全文