神经网络与深度学习第一章课后习题-EW帮帮网

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。
2-2在线性回归中，如果我们给每个样本 $x^{(n)}, y^{(n)})$ 赋予一个权重 $r^{(n)}$ ，经验风险函数为： $\mathcal{R}(w) = \frac{1}{2} \sum_{n=1}^N r^{(n)}(y^{(n)} - w^T x^{(n)})^2$ 计算其最优参数 $w^*$ ，并分析权重的作用 $r^{(n)}$ 的作用。
2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 $XX^T$ 的秩最大为N。
2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。
2-5在线性回归中，若假设标签 $\sim \mathcal{N}(w^Tx, \beta)$ ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。
2-6假设有N个样本 $x^{(1)}, x^{(2)}, \ldots, x^{(N)}$ 服从正态分布 $\mathcal{N}(\mu, \sigma^2)$ ，其中 $\mu$ 未知。使用最大似然估计求解最优参数 $\mu^{MLE}$ 。若参数 $\mu$ 为随机变量，并服从正态分布 $\mathcal{N}(\mu_0, \sigma_0^2)$ ，使用最大后验估计求解最优参数 $\mu^{MAP}$ 。
2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。
2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 $f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$ 。
2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我"，并分析不同模型的优缺点。
2-12 计算三分类问题的各项评估指标。

2-1分析为什么平方损失函数不适用于分类问题。

1. 梯度问题：当预测值远离真实值时，梯度反而变小，导致训练效率太低。
以二分类问题为例解释平方损失函数的梯度问题：
平方损失函数： $\hat{y})^2$
其梯度： $\frac{\partial L}{\partial \hat{y}} = 2(y - \hat{y})$
当真实标签 $y = 1$ 时：
如果预测值 $\hat{y}=0.9$ ，梯度为0.2
如果预测值 $\hat{y}=0.1$ ，梯度为1.8
如果预测值 $\hat{y}=3.0$ ，梯度为-4.0
可以看出，当预测值偏离得很远时(如 $\hat{y}=3.0$ )，反而得到更大的负梯度，导致模型更新方向不合理。这违背了我们的直觉：预测越准确，梯度应该越小；预测越不准确，梯度应该越大。
2. 非凸性：在分类场景下会形成非凸函数，容易陷入局部最优。
平方损失函数在分类问题中的非凸性分析：
对于二分类问题，假设真实标签 $\in \{0,1\}$ ，模型输出 $\hat{y}$ 可以是任意实数。平方损失函数为：
$\hat{y})^2$
当 $y = 1$ 时，损失函数为： $\hat{y})^2$
当 $y = 0$ 时，损失函数为： $\hat{y})^2 = \hat{y}^2$
这形成了一个非凸的损失曲面，意味着：
存在多个局部最小值点
优化算法容易陷入局部最优解
难以保证找到全局最优解
相比之下，交叉熵损失函数是凸函数，更容易优化。
3. 概率解释：输出难以解释为概率值，不适合分类任务的概率预测。

2-2在线性回归中，如果我们给每个样本 $x^{(n)}, y^{(n)})$ 赋予一个权重 $r^{(n)}$ ，经验风险函数为： $\mathcal{R}(w) = \frac{1}{2} \sum_{n=1}^N r^{(n)}(y^{(n)} - w^T x^{(n)})^2$ 计算其最优参数 $w^*$ ，并分析权重的作用 $r^{(n)}$ 的作用。

首先，为了求最优参数 $w^*$ ，我们需要对 $\mathcal{R}(w)$ 求导并令其等于0：

$\frac{\partial \mathcal{R}(w)}{\partial w} = \frac{1}{2} \sum_{n=1}^N 2r^{(n)}(y^{(n)} - w^T x^{(n)})(-x^{(n)}) = 0$

简化后：
$\sum_{n=1}^N r^{(n)}(w^T x^{(n)} - y^{(n)})x^{(n)} = 0$

重新整理方程：

$\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)}$

用矩阵形式表示：

$(\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)}$

最优解为：
$w^* = (\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)^{-1}(\sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)})$
权重 $r^{(n)}$ 的作用分析：
当 $r^{(n)}$ 较大时，对应样本点在优化过程中的影响更大
当 $r^{(n)}$ 较小时，对应样本点的影响较小
可以用来处理：
不平衡数据
异常点处理（降低异常点的权重）
基于样本重要性的加权
这实际上是加权最小二乘法(Weighted Least Squares, WLS)的推导过程。

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 $XX^T$ 的秩最大为N。

首先明确矩阵维度：
- 设 $X$ 的维度为 $\times D$ ，其中N是样本数，D是特征维度
- 则 $X^T$ 的维度为 $\times N$
- $XX^T$ 的维度为 $\times N$
根据矩阵乘法的性质：
- $rank(XX^T) \leq min(rank(X), rank(X^T))$
- $rank(X) = rank(X^T)$
对于矩阵的秩，有以下性质：
- 矩阵的秩不会超过其行数和列数的最小值
- 即 $\leq min(N, D)$
在本题条件下：
- 已知 $N < D + 1$ ，即 $\leq D$
- 因此 $\leq N$
结合上述性质：
- $rank(XX^T) \leq rank(X) \leq N$
- 而 $XX^T$ 是一个 $\times N$ 的矩阵
- 因此 $rank(XX^T)$ 的最大值为N

2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

首先写出岭回归的目标函数：

$\frac{1}{2}\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})^2 + \frac{\lambda}{2}||w||^2$

其中第一项是经验风险（均方误差），第二项是结构风险（正则化项）。

为求最优解，对 $J (w)$ 求导并令其为0：

$\frac{\partial J(w)}{\partial w} = -\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})x^{(n)} + \lambda w = 0$
用矩阵形式重写：

$-X^T(y - Xw) + \lambda w = 0$

$-X^Ty + X^TXw + \lambda w = 0$

$(X^TX + \lambda I)w = X^Ty$
因此岭回归的解为：

$w^* = (X^TX + \lambda I)^{-1}X^Ty$
这正是结构风险最小化准则下的解：
- $\lambda = 0$ 时退化为普通最小二乘
- $\lambda > 0$ 时引入了对参数的惩罚项
- 正则化项 $\frac{\lambda}{2}||w||^2$ 可以：
  - 防止过拟合
  - 提高模型泛化能力
  - 处理特征共线性问题
从贝叶斯角度理解：
- 相当于对参数引入了均值为0、协方差为 $\frac{1}{\lambda}I$ 的高斯先验
- 最终解为后验概率最大化的结果

2-5在线性回归中，若假设标签 $\sim \mathcal{N}(w^Tx, \beta)$ ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

首先写出似然函数：
对于单个样本，其概率密度函数为：

$p(y^{(n)}|x^{(n)},w) = \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta})$

对于所有N个样本，似然函数为：

$\prod_{n=1}^N \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta})$
取对数似然：

$\ln L(w) = -\frac{N}{2}\ln(2\pi\beta) - \frac{1}{2\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})^2$
对 $w$ 求导并令其为0：

$\frac{\partial \ln L(w)}{\partial w} = \frac{1}{\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})x^{(n)} = 0$
用矩阵形式重写：

$X^T(y-Xw) = 0$

$X^Ty - X^TXw = 0$

$X^TXw = X^Ty$
因此最优解为：

$w^* = (X^TX)^{-1}X^Ty$

2-6假设有N个样本 $x^{(1)}, x^{(2)}, \ldots, x^{(N)}$ 服从正态分布 $\mathcal{N}(\mu, \sigma^2)$ ，其中 $\mu$ 未知。使用最大似然估计求解最优参数 $\mu^{MLE}$ 。若参数 $\mu$ 为随机变量，并服从正态分布 $\mathcal{N}(\mu_0, \sigma_0^2)$ ，使用最大后验估计求解最优参数 $\mu^{MAP}$ 。

(1) 最大似然估计(MLE)：

写出似然函数：
$L(\mu) = \prod_{n=1}^N \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x^{(n)}-\mu)^2}{2\sigma^2})$
取对数：
$\ln L(\mu) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2$
求导并令其为0：
$\frac{\partial \ln L(\mu)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) = 0$
解得：
$\mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)}$

(2) 最大后验估计(MAP)：

根据贝叶斯定理，后验概率正比于似然函数与先验概率的乘积：
$p(\mu|X) \propto p(X|\mu)p(\mu)$
取对数：
$\ln p(\mu|X) = \ln p(X|\mu) + \ln p(\mu) + C$
代入具体表达式：
$\ln p(\mu|X) = -\frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2 - \frac{(\mu-\mu_0)^2}{2\sigma_0^2} + C$
求导并令其为0：
$\frac{\partial \ln p(\mu|X)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) - \frac{\mu-\mu_0}{\sigma_0^2} = 0$
解得：
$\mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}$

2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。

回顾两个估计的结果：

MLE: $\mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)}$

MAP: $\mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}$
对MAP估计进行变形：

$\mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}$

$\frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2}\sum_{n=1}^N x^{(n)} + \frac{\sigma^2}{N\sigma_0^2 + \sigma^2}\mu_0$
当N趋近于无穷时，分析各项：

$\lim_{N \to \infty} \frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{1}{N + \frac{\sigma^2}{\sigma_0^2}} = 1$

$\lim_{N \to \infty} \frac{\sigma^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{\frac{\sigma^2}{\sigma_0^2}}{N + \frac{\sigma^2}{\sigma_0^2}} = 0$
因此：

$\lim_{N \to \infty} \mu^{MAP} = \lim_{N \to \infty} [\frac{1}{N}\sum_{n=1}^N x^{(n)}] = \mu^{MLE}$
直观解释：
- 当样本量N很大时，数据提供的信息远多于先验信息
- 先验分布的影响（第二项）趋近于0
- 样本信息的权重（第一项）趋近于1
- 因此MAP估计渐近地等价于MLE估计

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 $f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$ 。

首先回顾期望误差的定义（公式2.60）：

$\mathcal{R}(f) = \mathbb{E}_{(x,y)\sim p_r(x,y)}[(y - f(x))^2]$
对于固定的x，考虑条件期望：

$\mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[(y - f(x))^2]$
展开平方项：

$\mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[y^2 - 2yf(x) + f(x)^2]$

$\mathbb{E}_{y\sim p_r(y|x)}[y^2] - 2f(x)\mathbb{E}_{y\sim p_r(y|x)}[y] + f(x)^2$
为求最优模型，对 $f (x)$ 求导并令其为0：

$\frac{\partial \mathcal{R}(f|x)}{\partial f(x)} = -2\mathbb{E}_{y\sim p_r(y|x)}[y] + 2f(x) = 0$
解得：

$f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$
验证这是最小值而非最大值：

$\frac{\partial^2 \mathcal{R}(f|x)}{\partial f(x)^2} = 2 > 0$
因此对每个x，最优预测为：

$f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$

2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我"，并分析不同模型的优缺点。

一元特征(Unigram)表示：

文本分词后：

句子1：“我”，“打”，“了”，“张三”
句子2：“张三”，“打”，“了”，“我”

特征词典：{“我”, “打”, “了”, “张三”}

向量表示：

句子1：[1, 1, 1, 1]
句子2：[1, 1, 1, 1]

二元特征(Bigram)表示：

特征词典：{“我打”, “打了”, “了张三”, “张三打”, “打了”, “了我”}

向量表示：

句子1：[1, 1, 1, 0, 0, 0]
句子2：[0, 0, 0, 1, 1, 1]

三元特征(Trigram)表示：

特征词典：{“我打了”, “打了张三”, “了张三”, “张三打了”, “三打了我”}

向量表示：

句子1：[1, 1, 0, 0, 0]
句子2：[0, 0, 0, 1, 1]

一元特征模型：
优点：

特征空间较小，计算效率高
对数据稀疏性不敏感
词序无关的场景下表现好

缺点：

完全丢失词序信息
无法区分语义相反的句子
如本例中无法区分主谓关系

二元特征模型：
优点：

保留了部分相邻词的顺序信息
能够捕捉一定的短语特征
可以区分简单的语序差异

缺点：

特征空间显著增大
数据稀疏性问题加重
只能捕获局部的序列关系

三元特征模型：
优点：

保留了更多的上下文信息
能够捕捉更长的短语特征
语序表达更准确

缺点：

特征空间急剧膨胀
严重的数据稀疏问题
计算复杂度高
泛化能力下降

2-12 计算三分类问题的各项评估指标。

真实标签：1,1,2,2,2,3,3,3,3
预测标签：1,2,2,2,3,3,3,1,2
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。

首先构建混淆矩阵：
预测\真实类别1 类别2 类别3
类别1 1 0 1
类别2 1 3 1
类别3 0 0 2
计算每个类别的精确率(Precision)：
- P1 = 1/(1+0+1) = 1/2 = 0.5
- P2 = 3/(1+3+1) = 3/5 = 0.6
- P3 = 2/(0+0+2) = 2/2 = 1.0
计算每个类别的召回率(Recall)：
- R1 = 1/(1+1+0) = 1/2 = 0.5
- R2 = 3/(0+3+0) = 3/3 = 1.0
- R3 = 2/(1+1+2) = 2/4 = 0.5
计算每个类别的F1值：
- F1_1 = 2×0.5×0.5/(0.5+0.5) = 0.5
- F1_2 = 2×0.6×1.0/(0.6+1.0) = 0.75
- F1_3 = 2×1.0×0.5/(1.0+0.5) = 0.67
计算宏平均(Macro-average)：
- Macro-P = (0.5 + 0.6 + 1.0)/3 = 0.70
- Macro-R = (0.5 + 1.0 + 0.5)/3 = 0.67
- Macro-F1 = (0.5 + 0.75 + 0.67)/3 = 0.64
计算微平均(Micro-average)：
- 总TP = 1 + 3 + 2 = 6
- 总样本数 = 9
- Micro-P = 6/9 = 0.67
- Micro-R = 6/9 = 0.67
- Micro-F1 = 2×0.67×0.67/(0.67+0.67) = 0.67

类别1：

Precision = 0.50
Recall = 0.50
F1 = 0.50

类别2：

Precision = 0.60
Recall = 1.00
F1 = 0.75

类别3：

Precision = 1.00
Recall = 0.50
F1 = 0.67

宏平均：

Macro-Precision = 0.70
Macro-Recall = 0.67
Macro-F1 = 0.64

微平均：

Micro-Precision = 0.67
Micro-Recall = 0.67
Micro-F1 = 0.67

神经网络与深度学习第一章课后习题

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。

2-2在线性回归中，如果我们给每个样本 $x^{(n)}, y^{(n)})$ 赋予一个权重 $r^{(n)}$ ，经验风险函数为： $\mathcal{R}(w) = \frac{1}{2} \sum_{n=1}^N r^{(n)}(y^{(n)} - w^T x^{(n)})^2$ 计算其最优参数 $w^*$ ，并分析权重的作用 $r^{(n)}$ 的作用。

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 $XX^T$ 的秩最大为N。

2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

2-5在线性回归中，若假设标签 $\sim \mathcal{N}(w^Tx, \beta)$ ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 $f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$ 。

2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我"，并分析不同模型的优缺点。

2-12 计算三分类问题的各项评估指标。

网站公告

今日签到

热门文章

最新发布

神经网络与深度学习第一章课后习题

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 X X T XX^T XXT 的秩最大为N。

2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

2-5在线性回归中，若假设标签 y ∼ N ( w T x , β ) y \sim \mathcal{N}(w^Tx, \beta) y∼N(wTx,β)，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f∗(x)=Ey∼pr​(y∣x)​[y]。

2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我"，并分析不同模型的优缺点。

2-12 计算三分类问题的各项评估指标。

网站公告

今日签到

热门文章

最新发布

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 $XX^T$ 的秩最大为N。

2-5在线性回归中，若假设标签 $\sim \mathcal{N}(w^Tx, \beta)$ ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 $f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]$ 。