机器学习中的线性代数：奇异值分解 SVD-EW帮帮网

线性代数奇异值分解（SVD）

参考资料：
超详细！彻底搞懂矩阵奇异值分解（SVD）本质+计算+应用！_哔哩哔哩_bilibili
非常好的视频，本文内容主要来自于该视频，在此表示感谢！

简单的实对称矩阵

我们从一个简单的对称矩阵开始说起：
$\left[ \begin{matrix} 1 & 2 \\ 2 & 1 \\ \end{matrix} \right]$
我们有 $A$ 这样的一个矩阵，一个二维向量 $x$ 右乘 $A$ 相当于进行了一次线性变换，但是这样并不简洁，从直观的角度上来说，既发生了旋转，也发生了拉伸，比如说 $x_1 = \left( \begin{matrix}1\\0\end{matrix} \right )$ ，就会得到 $Ax_1 = \left( \begin{matrix}1 \\ 2\end{matrix}\right)$ ，这里显然发生了“拉伸”，也发生了“旋转”，毕竟单一维度的向量已经到达了更高维度的情况。

在这样的思路下，我们尝试抽取一般性的“伸缩矩阵”和“旋转变换矩阵”

伸缩变换（也就是只会沿着某个坐标轴的方向进行倍数变化）：
$\left[ \begin{matrix} \lambda_1 & &\\& & \lambda_2 \end{matrix} \right ] = {diag} \{ \lambda_1, \lambda_2\} \newline S = S^T, \;\;\;\lambda_1, \lambda_2 \ge 0$
其中，经过简单验证，可以发现矩阵 $S$ 可以保证只会坐标轴方向进行伸缩，其他情况同理
旋转变换：对应到正交矩阵 $Q$
$Q^T Q=Q Q^T = E, \;\; Q^{-1} = Q^T$
正交矩阵对应的就是不改变长度的情况下，向量的旋转变换

从实对称矩阵到分解后的变换

对于 $A$ 来说，旋转 -> 伸缩 -> 再旋转是一种比较自然的想法，
$QSQ^T \rightarrow \; S = Q^T A Q = Q^{-1} A Q$
我们先进行某种角度的旋转，待到伸缩变换之后，我们再进行反角度的旋转；
这里 $S$ 是对角矩阵，且 $Q^T = Q^{-1}$ 所以 $S$ 与 $A$ 一定是相似矩阵，这里我们求 $S$ ，只需要求出特征值就可以；

但是这里需要注意的是：
我们要求： $\lambda_i \ge 0$ 成立，代表的含义是某个维度上的放缩不可以进行反向放缩
但是 $Q$ 还有其他要求，需要进行“矫正”操作，带后面会继续进行说明

为了使得 $S$ 尽量具有唯一性和好的性质，我们常常将 $S=diag\{ \lambda_1, \;... ,\; \lambda_n\}$ 从大到小排列这样尽量保证唯一性，并且在低秩近似矩阵中也有一定的应用

普通方阵的奇异值分解

对一个普通的方阵 $A$ ，我们可以知道 $AA^T$ 以及 $A^TA$ 一定是对称矩阵，证明也很显然：
$AA^T)^T = (A^T)^T (A)^T = AA^T$
我们假设 $A$ 是可以进行某种类型的分解的（这一点在这里没有证明）：
$Q^T, \qquad PP^T=P^TP=E, QQ^T=Q^TQ=E \tag{1.1}$

$AA^T = PSQ^T Q S^T P = P S^2 P^T \newline A^T A = Q S^T P^T P S Q^T = QS^2Q^T \tag {1.2}$

注意：尽管我们可以从 $(1.1)$ 推导到 $(1.2)$ ，但是二者并不是充要条件，也就是说这里的 $A^TA = (-Q) S^2 (-Q)^T$ 也是有可能出现的，因此，我们通过 $(1.2)$ 求出来的特征值可以保证是正确的（直接开根号、取正数），但是特征向量还是需要进行校正：

具体来说，我们需要 $(1.1)$ 的完全等价表示：
$PSQ^T \quad \Leftrightarrow \quad AQ = PS \tag{1.3}$
我们接下来，我们就可以用 $(1.3)$ 进行校正，我们可以固定其中的 $Q$ ，默认它是正确的，然后重新解出来 $P$ ，此时也就可以保证正确性

从方阵到 $m * n$ 矩阵

$A_{m*n} = P_{m*m} \; S_{m*n} \; Q_{n*n}^T \tag{1.4}$

这里， $P, Q$ 均为正交矩阵，这里假设 $m\lt n$ 且 $S$ 需要满足这样的性质： $S_{m*n} = (J_{m*m}\,,\;O)$ ， $J$ 是对角矩阵；

这里可以思考这样一个问题：
如果说， $J_{m*m}$ 表示的是各个维度上的伸缩，那么 $J_{m*n}$ 表示了怎样的几何含义？

这里只对 $A_{m*n}, m \lt n$ 的情况进行讨论，另一边可以用相似的方法：
$A_{m*n} = PSQ^T = P\,(J, O) \,Q^T \newline AA^T = PSS^TP^T = PJ^2P^T \newline A^TA = QS^TSQ^T = Q \left( \begin{matrix} J \\ O \end{matrix} \right) \left( \begin{matrix} J & O \end{matrix} \right)Q^T = Q \left( \begin{matrix}J^2 & O \\ O & O \end{matrix} \right)Q^T$
这样求出公共的特征值，仍然需要进行校正操作，就可以得到最终答案

奇异值分解的实际应用

奇异值分解被广泛用于图像处理、低秩近似矩阵等领域，可以用来进行数据压缩等等；
比如说，一张 512 * 512 的图片，我们正常来说需要记录它的全部像素点，但是 $A = PSQ^T$ ，而且我们可以逐个 $S$ 的元素进行展开，
$\left[ \begin{matrix} \alpha_1& ... &\alpha_n \end{matrix} \right] diag\{\lambda_1, ... ,\lambda_n \} \left[ \begin{matrix} \beta_1& ... &\beta_n \end{matrix} \right]^T$
这样我们可以发现，每一项一定是秩为1的，而且如果按照我们所说的 $\lambda_i$ 大的部分放的更靠前，那么我们就在一定程度上认为，前面的部分所占的权重更大，可能只取前面 200 项的时候，就基本能够近似表示原本的图片，这也就是所谓“低秩近似”，也就起到了压缩图片的作用

机器学习中的线性代数：奇异值分解 SVD

线性代数奇异值分解（SVD）

简单的实对称矩阵

从实对称矩阵到分解后的变换

普通方阵的奇异值分解

从方阵到 $m * n$ 矩阵

奇异值分解的实际应用

网站公告

今日签到

热门文章

最新发布

机器学习中的线性代数：奇异值分解 SVD

线性代数 奇异值分解（SVD）

简单的实对称矩阵

从 实对称矩阵 到 分解后的变换

普通方阵的奇异值分解

从 方阵 到 m ∗ n m*n m∗n 矩阵

奇异值分解的实际应用

网站公告

今日签到

热门文章

最新发布

线性代数奇异值分解（SVD）

从实对称矩阵到分解后的变换

从方阵到 $m * n$ 矩阵