《机器学习数学基础》补充资料:线性变换和最小二乘

发布于:2025-03-04 ⋅ 阅读:(9) ⋅ 点赞:(0)

《机器学习数学基础》的第1章1.3.2节、第2章2.2.3节均介绍了与线性映射、线性变换有关的内容,并指出矩阵就是两个向量空间的线性变换的表达形式。

本文以一个示例,讲解如何理解线性变换,并且以此进一步理解最小二乘法。

1. 以示例理解

以参考文献 [1] 中提供的示例,说明矩阵与线性变换的关系。

设向量空间 P 2 \mathbb{P}_2 P2 是二次函数 p ( t ) = a 0 + a 1 t + a 2 t 2 p(t)=a_0+a_1t+a_2t^2 p(t)=a0+a1t+a2t2 的集合,基为 β = [ v 1 , v 2 , v 3 ] \pmb{\beta}=[\pmb{v}_1,\pmb{v}_2,\pmb{v}_3] β=[v1,v2,v3] ,向量 v j = t j − 1 , ( j = 1 , 2 , 3 ) \pmb{v}_j=t^{j-1},(j=1,2,3) vj=tj1,(j=1,2,3)

p ( t ) p(t) p(t) 可以用 β \pmb{\beta} β 表示:

p ( t ) = a 0 v 1 + a 1 v 2 + a 2 v 3 (1.1) p(t)=a_0\pmb{v}_1+a_1\pmb{v}_2+a_2\pmb{v}_3\tag{1.1} p(t)=a0v1+a1v2+a2v3(1.1)

则其坐标向量为:

[ p ] β = [ a 0 a 1 a 2 ] [p]_{\pmb{\beta}}=\begin{bmatrix}a_0\\a_1\\a_2\end{bmatrix} [p]β= a0a1a2

假设有如下线性变换:

q ( t ) = T ( p ( t ) ) = p ( t + 1 ) (1.2) q(t)=\pmb{T}(p(t))=p(t+1) \tag{1.2} q(t)=T(p(t))=p(t+1)(1.2)

根据线性变换的加法和数量乘法封闭性,可得:

q ( t ) = T ( a 0 v 1 + a 1 v 2 + a 3 v 3 ) = a 0 T ( v 1 ) + a 1 T ( v 2 ) + a 2 T ( v 3 ) (1.3) \begin{split}q(t)&=T(a_0\pmb{v}_1+a_1\pmb{v}_2+a_3\pmb{v}_3)\\&=a_0\pmb{T}(\pmb{v}_1)+a_1\pmb{T}(\pmb{v}_2)+a_2\pmb{T}(\pmb{v}_3)\end{split}\tag{1.3} q(t)=T(a0v1+a1v2+a3v3)=a0T(v1)+a1T(v2)+a2T(v3)(1.3)

上式可以理解为:向量 v j \pmb{v}_j vj T \pmb{T} T 的映射后结果为 T ( v j ) \pmb{T}(\pmb{v}_j) T(vj) (此结果称为像),即:

T ( v 1 ) = T ( t 0 ) = ( 1 + t ) 0 = 1 = v 1 T ( v 2 ) = T ( t 1 ) = ( 1 + t ) 1 = v 1 + v 2 T ( v 3 ) = T ( t 2 ) = ( 1 + t ) 2 = 1 + 2 t + t 2 = v 1 + 2 v 2 + v 3 (1.4) \begin{split}&\pmb{T}(\pmb{v}_1)=\pmb{T}(t^0)=(1+t)^0=1=\pmb{v}_1\\&\pmb{T}(\pmb{v}_2)=\pmb{T}(t^1)=(1+t)^1=\pmb{v}_1+\pmb{v}_2\\&\pmb{T}(\pmb{v}_3)=\pmb{T}(t^2)=(1+t)^2=1+2t+t^2=\pmb{v}_1+2\pmb{v}_2+\pmb{v}_3\end{split} \tag{1.4} T(v1)=T(t0)=(1+t)0=1=v1T(v2)=T(t1)=(1+t)1=v1+v2T(v3)=T(t2)=(1+t)2=1+2t+t2=v1+2v2+v3(1.4)

上述系数可以写成:

[ T ( β ) ] = [ 1 0 0 1 1 0 1 2 1 ] (1.5) [\pmb{T}(\pmb{\beta})]=\begin{bmatrix}1&0&0\\1&1&0\\1&2&1\end{bmatrix} \tag{1.5} [T(β)]= 111012001 (1.5)

将(1.4)代入(1.3)式,得:

q ( t ) = a 0 v 1 + a 1 ( v 1 + v 2 ) + a 2 ( v 1 + 2 v 2 + v 3 ) = ( a 0 + a 1 + a 2 ) v 1 + ( a 1 + 2 a 2 ) v 2 + a 2 v 3 q(t)=a_0\pmb{v}_1+a_1(\pmb{v}_1+\pmb{v}_2)+a_2(\pmb{v}_1+2\pmb{v}_2+\pmb{v}_3)=(a_0+a_1+a_2)\pmb{v}_1+(a_1+2a_2)\pmb{v}_2+a_2\pmb{v}_3 q(t)=a0v1+a1(v1+v2)+a2(v1+2v2+v3)=(a0+a1+a2)v1+(a1+2a2)v2+a2v3

所以 q ( t ) q(t) q(t) 的坐标向量为:

[ q ] β = [ a 0 + a 1 + a 2 a 1 + 2 a 2 a 2 ] [q]_{\pmb{\beta}}=\begin{bmatrix}a_0+a_1+a_2\\a_1+2a_2\\a_2\end{bmatrix} [q]β= a0+a1+a2a1+2a2a2

可以通过“矩阵乘法”将 [ q ] β [q]_{\pmb{\beta}} [q]β [ p ] β [p]_{\pmb{\beta}} [p]β 联系起来:

[ q ] β = [ 1 1 1 0 1 2 0 0 1 ] [ a 0 a 1 a 2 ] = [ T ] β [ p ] β (1.6) [q]_{\pmb{\beta}}=\begin{bmatrix}1&1&1\\0&1&2\\0&0&1\end{bmatrix}\begin{bmatrix}a_0\\a_1\\a_2\end{bmatrix}=[\pmb{T}]_{\pmb{\beta}}[p]_{\pmb{\beta}} \tag{1.6} [q]β= 100110121 a0a1a2 =[T]β[p]β(1.6)

其中 [ T ] β [\pmb{T}]_{\pmb{\beta}} [T]β 称为线性变换 T \pmb{T} T 基于基 β \pmb{\beta} β表示矩阵

对比(1.5)和(1.6)式,发现 [ T ] β [\pmb{T}]_{\pmb{\beta}} [T]β [ T ( β ) ] [\pmb{T}(\pmb{\beta})] [T(β)] 互为转置矩阵。

2. 线性变换与矩阵

线性变换 T : V → W , dim ⁡ V = n , dim ⁡ W = m \pmb{T}:\mathbb{V}\to\mathbb{W},\dim\mathbb{V}=n,\dim\mathbb{W}=m T:VW,dimV=n,dimW=m β V = [ v 1 , ⋯   , v n ] \pmb{\beta}_{\mathbb{V}}=[\pmb{v}_1,\cdots,\pmb{v}_n] βV=[v1,,vn] 是向量空间 V \mathbb{V} V 的基, β W = [ w 1 , ⋯   , w m ] \pmb{\beta}_{\mathbb{W}}=[\pmb{w}_1,\cdots,\pmb{w}_m] βW=[w1,,wm] 是向量空间 W \mathbb{W} W 的基。

线性映射 y = T ( x ) \pmb{y}=\pmb{T}(\pmb{x}) y=T(x) 对应矩阵乘法 [ y ] β W = A [ x ] β V [\pmb{y}]_{\pmb{\beta}_{\mathbb{W}}}=\pmb{A}[\pmb{x}]_{\pmb{\beta}_{\mathbb{V}}} [y]βW=A[x]βV ,其中 m × n m\times n m×n 阶线性变换表示矩阵 A \pmb{A} A 的第 j j j 列即为 T ( v j ) \pmb{T}(\pmb{v}_j) T(vj) 基于 β W \pmb{\beta}_{\mathbb{W}} βW 的坐标向量 [ T ( v j ) ] β W [\pmb{T}(\pmb{v}_j)]_{\pmb{\beta}_{\mathbb{W}}} [T(vj)]βW

A = [ [ T ( v 1 ) ] β W ⋯ [ T ( v j ) ] β W [ T ( v n ) ] β W ] \pmb{A}=\begin{bmatrix}[\pmb{T}(\pmb{v}_1)]_{\pmb{\beta}_{\mathbb{W}}}&\cdots&[\pmb{T}(\pmb{v}_j)]_{\pmb{\beta}_{\mathbb{W}}}&[\pmb{T}(\pmb{v}_n)]_{\pmb{\beta}_{\mathbb{W}}}\end{bmatrix} A=[[T(v1)]βW[T(vj)]βW[T(vn)]βW]

T \pmb{T} T 与线性变换的表示矩阵 A \pmb{A} A 的关系,如下图所示:

在这里插入图片描述

图中的 L V : V → R n , L W : W → R m \pmb{L}_{\mathbb{V}}:\mathbb{V}\to\mathbb{R}^n,\pmb{L}_{\mathbb{W}}:\mathbb{W}\to\mathbb{R}^m LV:VRn,LW:WRm 表示向量在对应基中的映射,即将向量分别映射为相应向量空间中的坐标(以相应的基)。

3. 解释最小二乘 [ 2 ] ^{[2]} [2]

《机器学习数学基础》第3章3.6.1节专门介绍了正规方程的推导(如下所示的(3.1)式,即为正规方程),并且由此引出最小二乘法。

A T A x ^ = A T b (3.1) \pmb{A}^T\pmb{A}\hat{\pmb{x}}=\pmb{A}^T\pmb{b} \tag{3.1} ATAx^=ATb(3.1)

正规方程(3.1)的解即为 A x = b \pmb{Ax}=\pmb{b} Ax=b 的最小二乘近似解( A \pmb{A} A m × n m\times n m×n 矩阵)。

如果 A \pmb{A} A 的列向量线性无关,则 r a n k A = n rank\pmb{A}=n rankA=n ,称 A \pmb{A} A 满秩。

此时, N ( A ) = { 0 } N(\pmb{A})=\{\pmb{0}\} N(A)={0} ,行空间 C ( A T ) C(\pmb{A}^T) C(AT) 充满整个 R n \mathbb{R}^n Rn

因为 r a n k A = r a n k ( A T A ) rank\pmb{A}=rank(\pmb{A}^T\pmb{A}) rankA=rank(ATA) ,则 A T A \pmb{A}^T\pmb{A} ATA n n n 阶方阵)是可逆的,由此可知(3.1)存在唯一的最小二乘近似解:

x ^ = ( A T A ) − 1 A T b (3.2) \hat{\pmb{x}}=(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T\pmb{b} \tag{3.2} x^=(ATA)1ATb(3.2)

则最小误差平方的投影向量:

p = A x ^ = A ( A T A ) − 1 A T b \pmb{p}=\pmb{A}\hat{\pmb{x}}=\pmb{A}(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T\pmb{b} p=Ax^=A(ATA)1ATb

正交投影矩阵为:

P = A ( A T A ) − 1 A T (3.3) \pmb{P}=\pmb{A}(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T \tag{3.3} P=A(ATA)1AT(3.3)

向量 b \pmb{b} b 和误差 e \pmb{e} e 的关系:

因为 ( I − P ) 2 = I − 2 P + P 2 = I − 2 P + P = I − P (\pmb{I}-\pmb{P})^2 = \pmb{I}-2\pmb{P}+\pmb{P}^2=\pmb{I}-2\pmb{P}+\pmb{P}=\pmb{I}-\pmb{P} (IP)2=I2P+P2=I2P+P=IP

I − P \pmb{I}-\pmb{P} IP 也是一个投影矩阵,且: ( I − P ) b = b − P b = b − p = e (\pmb{I}-\pmb{P})\pmb{b}=\pmb{b}-\pmb{Pb}=\pmb{b}-\pmb{p}=\pmb{e} (IP)b=bPb=bp=e

因此,向量 b \pmb{b} b I − P \pmb{I}-\pmb{P} IP 正交投影至 e ∈ N ( A T ) \pmb{e}\in N(\pmb{A}^T) eN(AT)

总结:

从线性变换角度,理解最小二乘:

  • 向量 b ∈ R m \pmb{b}\in\mathbb{R}^m bRm 经正交投影矩阵 P = A ( A T A ) − 1 A T \pmb{P}=\pmb{A}(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T P=A(ATA)1AT 映射至列空间 C ( A ) C(\pmb{A}) C(A) 的投影向量 b \pmb{b} b b → P p \pmb{b}\overset{\pmb{P}}{\to}\pmb{p} bPp
  • 向量 b ∈ R m \pmb{b}\in\mathbb{R}^m bRm 经正交投影矩阵 I − P \pmb{I}-\pmb{P} IP 映射至左零空间 N ( A T ) N(\pmb{A}^T) N(AT) 的最小误差向量 e \pmb{e} e b ⟶ I − P e \pmb{b}\overset{\pmb{I}-\pmb{P}}{\longrightarrow}\pmb{e} bIPe
  • 向量 b ∈ R m \pmb{b}\in\mathbb{R}^m bRm 经变换矩阵 ( A T A ) − 1 A T (\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T (ATA)1AT 映射到行空间 C ( A T ) C(\pmb{A}^T) C(AT) 的最小平方近似解 x ^ \hat{\pmb{x}} x^ b ⟶ ( A T A ) − 1 A T x ^ \pmb{b}\overset{(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T}{\longrightarrow}\hat{\pmb{x}} b(ATA)1ATx^
  • 最小二乘解 x ^ \hat{\pmb{x}} x^ 经矩阵 A \pmb{A} A 映射至列空间 C ( A ) C(\pmb{A}) C(A) 的投影向量 p \pmb{p} p x ^ → A p \hat{\pmb{x}}\overset{\pmb{A}}{\to}\pmb{p} x^Ap

因此,将向量 b \pmb{b} b 映射至投影向量 p \pmb{p} p 的正交投影矩阵 P \pmb{P} P 可以理解为两个线性变换的复合:

b ⟶ ( A T A ) − 1 A T x ^ → A p \pmb{b}\overset{(\pmb{A}^T\pmb{A})^{-1}\pmb{A}^T}{\longrightarrow}\hat{\pmb{x}}\overset{\pmb{A}}{\to}\pmb{p} b(ATA)1ATx^Ap

注意,以上讨论的前提, A \pmb{A} A 的列向量线性无关,否则 A T A \pmb{A}^T\pmb{A} ATA 不是可逆矩阵,如果不可逆,则不存在唯一的最小二乘近似解。

参考文献

[1]. https://ccjou.wordpress.com/2010/08/11/線性變換表示矩陣/

[2]. https://ccjou.wordpress.com/2009/10/28//從線性變換解釋最小平方近似/