阅读笔记(2) 单层网络:回归-EW帮帮网

阅读笔记(2) 单层网络:回归

该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02

以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。

1. 从泛函视角来看线性回归

还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。

函数其实也可以看作是某种“向量”，只不过它们所在的“空间”是无限维的。而我们选择的一组基函数，就是在这个函数空间中选出有限个“方向”，然后试图用这些方向的线性组合去逼近真实的目标函数。(如果你接触过一点泛函分析的话可能会更容易理解这一点。)

我们可以把模型看作是在一个函数空间中寻找某个目标函数。这个目标函数我们不知道长什么样，但我们可以假设它可以用一组已知的**基函数（basis functions）**的线性组合来近似表示。比如常见的线性回归模型形式如下：
$w_0 + \sum_{j=1}^{M-1} w_j \phi_j(x)$
其中：

$x$ 是输入变量；
$\phi_j(x)$ 是第 $j$ 个基函数；
$w_j$ 是对应的权重参数；
$M$ 是基函数的数量。

换句话说，我们不是直接去猜那个“上帝才知道”的真实函数，而是先选好一组我们觉得靠谱的基函数，然后用这些基函数的加权和去逼近真实函数。剩下的问题就变成了：怎么找到这一组权重 $\mathbf{w} = (w_0, w_1, ..., w_{M-1})$ ？

另外附上常用的基函数(具体的形式可以看书):

多项式函数
Sigmoid函数
tanh函数
傅里叶基

2. 三种方式推导线性回归

在正式开始之前，我们先统一一下符号和模型形式（也参考书中的约定）：

我们使用如下形式的线性模型来进行预测：

$y(\mathbf{x}, \mathbf{w}) = \mathbf{w}^T \phi(\mathbf{x})$

其中：

$\mathbf{x}$ 是输入特征向量；
$\phi$ : 基函数, 上面提到过的；
$\mathbf{w}$ 是我们要学习的参数向量。

我们用 $\mathbf{t}$ 来表示真实的目标值（也就是训练数据中的标签）。

2.1 均方误差损失函数

目标：让模型输出尽可能接近真实值

最直观的想法是：我们希望模型的输出值和真实值之间的差距越小越好。这个差距可以用一个度量标准来衡量，比如最常见的——均方误差。

对于单个样本 $(\phi_n, t_n)$ ，误差为：

$E_n = \frac{1}{2} (t_n - \mathbf{w}^T \phi_n)^2$

这里加了 $\frac{1}{2}$ 是为了后面求导时方便消掉系数 2。

对所有样本来说，总的误差就是它们的累加：

$E(\mathbf{w}) = \frac{1}{2} \sum_{n=1}^{N} (t_n - \mathbf{w}^T \phi_n)^2$

我们的目标是找到一组参数 $\mathbf{w}$ ，使得这个误差最小化。

数学推导：求梯度并令其为零

我们可以将这个损失函数写成矩阵形式，这样更容易处理：

令：

$\Phi$ 是设计矩阵（design matrix），每一行是一个样本的基函数输出 $\phi_n^T$
$\mathbf{t}$ 是目标值组成的列向量

则损失函数可以写作：

$E(\mathbf{w}) = \frac{1}{2} \| \mathbf{t} - \Phi \mathbf{w} \|^2$

展开后：

$E(\mathbf{w}) = \frac{1}{2} (\mathbf{t} - \Phi \mathbf{w})^T (\mathbf{t} - \Phi \mathbf{w})$

对 $\mathbf{w}$ 求导并令导数为零：

$\nabla_\mathbf{w} E(\mathbf{w}) = -\Phi^T (\mathbf{t} - \Phi \mathbf{w}) = 0$

整理得：

$\Phi^T \Phi \mathbf{w} = \Phi^T \mathbf{t}$

若 $\Phi^T \Phi$ 可逆，则最优解为：

$\mathbf{w}^* = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{t}$

整个形式是不是很像最小二乘法的解,

2.2 极大似然估计

接下来我们尝试从概率建模的角度出发，重新理解线性回归。这个视角和前面的均方误差不同，它不是直接定义一个损失函数，而是先对数据生成过程做一个合理的假设，然后通过极大似然法来求解参数。(书上的推导其实就是这个方法, 所以这部分不想写太多,可以看书)

基本假设：目标值由确定性函数 + 高斯噪声组成

我们假设观测到的目标值 $t_n$ 是由真实函数输出加上一个高斯噪声构成的：

$t_n = y(\mathbf{x}_n, \mathbf{w}) + \epsilon_n$

其中：

$y(\mathbf{x}_n, \mathbf{w}) = \mathbf{w}^T \phi(\mathbf{x}_n)$ 是模型预测值；
$\epsilon_n \sim \mathcal{N}(0, \sigma^2)$ 是独立同分布的高斯噪声。

根据高斯分布的可加性，我们可以得出：

$t_n \sim \mathcal{N}\left(y(\mathbf{x}_n, \mathbf{w}),\ \sigma^2\right)$

也就是说，对于每一个输入 $\mathbf{x}_n$ ，对应的标签 $t_n$ 是一个以模型输出为期望、方差为 $\sigma^2$ 的正态分布随机变量。

于是，给定输入 $\mathbf{x}_n$ 和参数 $\mathbf{w}$ ，观察到某个输出 $t_n$ 的概率密度可以表示为：

$p(t_n | \mathbf{x}_n, \mathbf{w}, \sigma^2) = \mathcal{N}(t_n \mid y(\mathbf{x}_n, \mathbf{w}), \sigma^2)$

极大似然估计的目标：让观测数据出现的概率最大

现在我们有一组训练样本：

$\mathcal{D} = \{ (\mathbf{x}_1, t_1),\ (\mathbf{x}_2, t_2),\ \dots,\ (\mathbf{x}_N, t_N) \}$

我们要找一组参数 $\mathbf{w}$ ，使得这些数据出现的概率尽可能大——这就是极大似然估计的核心思想。

由于各个样本是独立的，联合概率可以写成乘积形式：

$p(\mathbf{t} | \mathbf{X}, \mathbf{w}, \sigma^2) = \prod_{n=1}^{N} \mathcal{N}(t_n \mid \mathbf{w}^T \phi(\mathbf{x}_n), \sigma^2)$

为了方便计算，我们通常取对数，得到对数似然函数（log-likelihood）：

$\ln p(\mathbf{t} | \mathbf{X}, \mathbf{w}, \sigma^2) = -\frac{N}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (t_n - \mathbf{w}^T \phi_n)^2$

注意到只有第二项与 $\mathbf{w}$ 有关，所以最大化对数似然就等价于最小化下面这个量：

$\sum_{n=1}^{N} (t_n - \mathbf{w}^T \phi_n)^2$

这正是我们在 2.1 节中提到的均方误差损失函数, 剩下的内容就和前面差不多了.

2.3 贝叶斯视角

前面我们从损失函数的角度推出了线性回归，又从概率建模的角度用极大似然估计得到了同样的结果。现在我们来看看第三种方法——贝叶斯方法，它会让我们对模型参数有一个“不确定性”的理解，但最终也会导向几乎一样的解。

想法：不只是找一个最好的参数，而是找一个最可能的参数分布

之前的方法都直接去求一个具体的 $\mathbf{w}$ 值，比如最小二乘法求闭式解。而贝叶斯方法更“保守”一点，它不是说“哪个 $\mathbf{w}$ 是对的”，而是问：“给定数据之后，哪个 $\mathbf{w}$ 最有可能解释这些数据？”

换句话说，我们要计算的是：

在看到数据之后， $\mathbf{w}$ 的后验概率是多少？

根据贝叶斯定理：

$p(\mathbf{w} | \text{数据}) \propto p(\text{数据} | \mathbf{w}) \cdot p(\mathbf{w})$

也就是：

后验概率 ≈ 似然 × 先验

具体设定

我们先像前面一样做一个假设：

目标值是由模型输出加上高斯噪声构成的：
$t_n = y(\mathbf{x}_n, \mathbf{w}) + \epsilon_n,\quad \epsilon_n \sim \mathcal{N}(0, \sigma^2)$
我们还为参数 $\mathbf{w}$ 加一个先验分布，通常是零均值高斯分布（相当于加了一个正则项）：
$p(\mathbf{w}) = \mathcal{N}(\mathbf{0}, \alpha^{-1} I)$

这里的 $\alpha$ 可以理解为对参数大小的一种控制，类似于正则化系数。

推导后验分布的最大值（MAP 估计）

虽然贝叶斯方法通常是要算整个分布，但我们这里的目标还是想找出那个“最可能的 $\mathbf{w}$ ”。所以我们可以做最大后验估计（MAP），即最大化后验概率：

$\mathbf{w}_{\text{MAP}} = \arg\max_{\mathbf{w}} p(\mathbf{w} | \mathbf{X}, \mathbf{t})$

代入公式：

$\log p(\mathbf{w} | \mathbf{X}, \mathbf{t}) \propto -\frac{1}{2\sigma^2} \sum_{n=1}^{N} (t_n - \mathbf{w}^T \phi_n)^2 - \frac{\alpha}{2} \|\mathbf{w}\|^2$

这就是我们在第一节讲到的带 L2 正则化的损失函数！

如果我们忽略常数项，这个目标函数就变成了：

$E(\mathbf{w}) = \frac{1}{2} \| \mathbf{t} - \Phi \mathbf{w} \|^2 + \frac{\lambda}{2} \|\mathbf{w}\|^2$

其中 $\lambda = \frac{\sigma^2}{\alpha}$

然后我们对这个函数求导，令导数为零：

$\nabla_\mathbf{w} E = -\Phi^T (\mathbf{t} - \Phi \mathbf{w}) + \lambda \mathbf{w} = 0$

整理得到：

$(\Phi^T \Phi + \lambda I) \mathbf{w} = \Phi^T \mathbf{t}$

于是最终的解是：

$\mathbf{w} = (\Phi^T \Phi + \lambda I)^{-1} \Phi^T \mathbf{t}$

当没有正则化（ $\lambda \to 0$ ）时，就是我们熟悉的普通最小二乘解：

$\mathbf{w} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{t}$

3. 习题(1-7)

在这里插入图片描述

阅读笔记(2) 单层网络:回归