神经网络与深度学习第一章课后习题

发布于:2025-03-11 ⋅ 阅读:(21) ⋅ 点赞:(0)

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。

1. 梯度问题:当预测值远离真实值时,梯度反而变小,导致训练效率太低。
以二分类问题为例解释平方损失函数的梯度问题:
平方损失函数: L = ( y − y ^ ) 2 L = (y - \hat{y})^2 L=(yy^)2
其梯度: ∂ L ∂ y ^ = 2 ( y − y ^ ) \frac{\partial L}{\partial \hat{y}} = 2(y - \hat{y}) y^L=2(yy^)
当真实标签 y = 1 y=1 y=1时:
如果预测值 y ^ = 0.9 \hat{y}=0.9 y^=0.9,梯度为0.2
如果预测值 y ^ = 0.1 \hat{y}=0.1 y^=0.1,梯度为1.8
如果预测值 y ^ = 3.0 \hat{y}=3.0 y^=3.0,梯度为-4.0
可以看出,当预测值偏离得很远时(如 y ^ = 3.0 \hat{y}=3.0 y^=3.0),反而得到更大的负梯度,导致模型更新方向不合理。这违背了我们的直觉:预测越准确,梯度应该越小;预测越不准确,梯度应该越大。
2. 非凸性:在分类场景下会形成非凸函数,容易陷入局部最优。
平方损失函数在分类问题中的非凸性分析:
对于二分类问题,假设真实标签 y ∈ { 0 , 1 } y \in \{0,1\} y{0,1},模型输出 y ^ \hat{y} y^可以是任意实数。平方损失函数为:
L = ( y − y ^ ) 2 L = (y - \hat{y})^2 L=(yy^)2
y = 1 y=1 y=1时,损失函数为: L = ( 1 − y ^ ) 2 L = (1 - \hat{y})^2 L=(1y^)2
y = 0 y=0 y=0时,损失函数为: L = ( 0 − y ^ ) 2 = y ^ 2 L = (0 - \hat{y})^2 = \hat{y}^2 L=(0y^)2=y^2
这形成了一个非凸的损失曲面,意味着:
存在多个局部最小值点
优化算法容易陷入局部最优解
难以保证找到全局最优解
相比之下,交叉熵损失函数是凸函数,更容易优化。
3. 概率解释:输出难以解释为概率值,不适合分类任务的概率预测。

2-2在线性回归中,如果我们给每个样本 ( x ( n ) , y ( n ) ) (x^{(n)}, y^{(n)}) (x(n),y(n)) 赋予一个权重 r ( n ) r^{(n)} r(n),经验风险函数为: R ( w ) = 1 2 ∑ n = 1 N r ( n ) ( y ( n ) − w T x ( n ) ) 2 \mathcal{R}(w) = \frac{1}{2} \sum_{n=1}^N r^{(n)}(y^{(n)} - w^T x^{(n)})^2 R(w)=21n=1Nr(n)(y(n)wTx(n))2 计算其最优参数 w ∗ w^* w,并分析权重的作用 r ( n ) r^{(n)} r(n) 的作用。

  1. 首先,为了求最优参数 w ∗ w^* w,我们需要对 R ( w ) \mathcal{R}(w) R(w) 求导并令其等于0:

∂ R ( w ) ∂ w = 1 2 ∑ n = 1 N 2 r ( n ) ( y ( n ) − w T x ( n ) ) ( − x ( n ) ) = 0 \frac{\partial \mathcal{R}(w)}{\partial w} = \frac{1}{2} \sum_{n=1}^N 2r^{(n)}(y^{(n)} - w^T x^{(n)})(-x^{(n)}) = 0 wR(w)=21n=1N2r(n)(y(n)wTx(n))(x(n))=0

简化后:
∑ n = 1 N r ( n ) ( w T x ( n ) − y ( n ) ) x ( n ) = 0 \sum_{n=1}^N r^{(n)}(w^T x^{(n)} - y^{(n)})x^{(n)} = 0 n=1Nr(n)(wTx(n)y(n))x(n)=0

  1. 重新整理方程:

∑ n = 1 N r ( n ) x ( n ) ( x ( n ) ) T w = ∑ n = 1 N r ( n ) x ( n ) y ( n ) \sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)} n=1Nr(n)x(n)(x(n))Tw=n=1Nr(n)x(n)y(n)

  1. 用矩阵形式表示:

( ∑ n = 1 N r ( n ) x ( n ) ( x ( n ) ) T ) w = ∑ n = 1 N r ( n ) x ( n ) y ( n ) (\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)} (n=1Nr(n)x(n)(x(n))T)w=n=1Nr(n)x(n)y(n)

  1. 最优解为:
    w ∗ = ( ∑ n = 1 N r ( n ) x ( n ) ( x ( n ) ) T ) − 1 ( ∑ n = 1 N r ( n ) x ( n ) y ( n ) ) w^* = (\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)^{-1}(\sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)}) w=(n=1Nr(n)x(n)(x(n))T)1(n=1Nr(n)x(n)y(n))

  2. 权重 r ( n ) r^{(n)} r(n) 的作用分析:
    r ( n ) r^{(n)} r(n) 较大时,对应样本点在优化过程中的影响更大
    r ( n ) r^{(n)} r(n) 较小时,对应样本点的影响较小
    可以用来处理:
    不平衡数据
    异常点处理(降低异常点的权重)
    基于样本重要性的加权
    这实际上是加权最小二乘法(Weighted Least Squares, WLS)的推导过程。

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

2-3证明在线性回归中,如果样本数量N小于特征数量D+1,则 X X T XX^T XXT 的秩最大为N。

  1. 首先明确矩阵维度:

    • X X X 的维度为 N × D N \times D N×D,其中N是样本数,D是特征维度
    • X T X^T XT 的维度为 D × N D \times N D×N
    • X X T XX^T XXT 的维度为 N × N N \times N N×N
  2. 根据矩阵乘法的性质:

    • r a n k ( X X T ) ≤ m i n ( r a n k ( X ) , r a n k ( X T ) ) rank(XX^T) \leq min(rank(X), rank(X^T)) rank(XXT)min(rank(X),rank(XT))
    • r a n k ( X ) = r a n k ( X T ) rank(X) = rank(X^T) rank(X)=rank(XT)
  3. 对于矩阵的秩,有以下性质:

    • 矩阵的秩不会超过其行数和列数的最小值
    • r a n k ( X ) ≤ m i n ( N , D ) rank(X) \leq min(N, D) rank(X)min(N,D)
  4. 在本题条件下:

    • 已知 N < D + 1 N < D+1 N<D+1,即 N ≤ D N \leq D ND
    • 因此 r a n k ( X ) ≤ N rank(X) \leq N rank(X)N
  5. 结合上述性质:

    • r a n k ( X X T ) ≤ r a n k ( X ) ≤ N rank(XX^T) \leq rank(X) \leq N rank(XXT)rank(X)N
    • X X T XX^T XXT 是一个 N × N N \times N N×N 的矩阵
    • 因此 r a n k ( X X T ) rank(XX^T) rank(XXT) 的最大值为N

2-4在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘估计。

  1. 首先写出岭回归的目标函数:

J ( w ) = 1 2 ∑ n = 1 N ( y ( n ) − w T x ( n ) ) 2 + λ 2 ∣ ∣ w ∣ ∣ 2 J(w) = \frac{1}{2}\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})^2 + \frac{\lambda}{2}||w||^2 J(w)=21n=1N(y(n)wTx(n))2+2λ∣∣w2

其中第一项是经验风险(均方误差),第二项是结构风险(正则化项)。

  1. 为求最优解,对 J ( w ) J(w) J(w) 求导并令其为0:

    ∂ J ( w ) ∂ w = − ∑ n = 1 N ( y ( n ) − w T x ( n ) ) x ( n ) + λ w = 0 \frac{\partial J(w)}{\partial w} = -\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})x^{(n)} + \lambda w = 0 wJ(w)=n=1N(y(n)wTx(n))x(n)+λw=0

  2. 用矩阵形式重写:

    − X T ( y − X w ) + λ w = 0 -X^T(y - Xw) + \lambda w = 0 XT(yXw)+λw=0

    − X T y + X T X w + λ w = 0 -X^Ty + X^TXw + \lambda w = 0 XTy+XTXw+λw=0

    ( X T X + λ I ) w = X T y (X^TX + \lambda I)w = X^Ty (XTX+λI)w=XTy

  3. 因此岭回归的解为:

    w ∗ = ( X T X + λ I ) − 1 X T y w^* = (X^TX + \lambda I)^{-1}X^Ty w=(XTX+λI)1XTy

  4. 这正是结构风险最小化准则下的解:

    • λ = 0 \lambda = 0 λ=0 时退化为普通最小二乘
    • λ > 0 \lambda > 0 λ>0 时引入了对参数的惩罚项
    • 正则化项 λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2 2λ∣∣w2 可以:
      • 防止过拟合
      • 提高模型泛化能力
      • 处理特征共线性问题
  5. 从贝叶斯角度理解:

    • 相当于对参数引入了均值为0、协方差为 1 λ I \frac{1}{\lambda}I λ1I 的高斯先验
    • 最终解为后验概率最大化的结果

2-5在线性回归中,若假设标签 y ∼ N ( w T x , β ) y \sim \mathcal{N}(w^Tx, \beta) yN(wTx,β),并用最大似然估计求最优化参数时,验证最优参数为公式2.50的解。

  1. 首先写出似然函数:
    对于单个样本,其概率密度函数为:

p ( y ( n ) ∣ x ( n ) , w ) = 1 2 π β exp ⁡ ( − ( y ( n ) − w T x ( n ) ) 2 2 β ) p(y^{(n)}|x^{(n)},w) = \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta}) p(y(n)x(n),w)=2πβ 1exp(2β(y(n)wTx(n))2)

  1. 对于所有N个样本,似然函数为:

    L ( w ) = ∏ n = 1 N 1 2 π β exp ⁡ ( − ( y ( n ) − w T x ( n ) ) 2 2 β ) L(w) = \prod_{n=1}^N \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta}) L(w)=n=1N2πβ 1exp(2β(y(n)wTx(n))2)

  2. 取对数似然:

    ln ⁡ L ( w ) = − N 2 ln ⁡ ( 2 π β ) − 1 2 β ∑ n = 1 N ( y ( n ) − w T x ( n ) ) 2 \ln L(w) = -\frac{N}{2}\ln(2\pi\beta) - \frac{1}{2\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})^2 lnL(w)=2Nln(2πβ)2β1n=1N(y(n)wTx(n))2

  3. w w w 求导并令其为0:

    ∂ ln ⁡ L ( w ) ∂ w = 1 β ∑ n = 1 N ( y ( n ) − w T x ( n ) ) x ( n ) = 0 \frac{\partial \ln L(w)}{\partial w} = \frac{1}{\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})x^{(n)} = 0 wlnL(w)=β1n=1N(y(n)wTx(n))x(n)=0

  4. 用矩阵形式重写:

    X T ( y − X w ) = 0 X^T(y-Xw) = 0 XT(yXw)=0

    X T y − X T X w = 0 X^Ty - X^TXw = 0 XTyXTXw=0

    X T X w = X T y X^TXw = X^Ty XTXw=XTy

  5. 因此最优解为:

    w ∗ = ( X T X ) − 1 X T y w^* = (X^TX)^{-1}X^Ty w=(XTX)1XTy

2-6假设有N个样本 x ( 1 ) , x ( 2 ) , … , x ( N ) x^{(1)}, x^{(2)}, \ldots, x^{(N)} x(1),x(2),,x(N) 服从正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2),其中 μ \mu μ 未知。使用最大似然估计求解最优参数 μ M L E \mu^{MLE} μMLE 。若参数 μ \mu μ 为随机变量,并服从正态分布 N ( μ 0 , σ 0 2 ) \mathcal{N}(\mu_0, \sigma_0^2) N(μ0,σ02),使用最大后验估计求解最优参数 μ M A P \mu^{MAP} μMAP

(1) 最大似然估计(MLE):

  1. 写出似然函数:
    L ( μ ) = ∏ n = 1 N 1 2 π σ 2 exp ⁡ ( − ( x ( n ) − μ ) 2 2 σ 2 ) L(\mu) = \prod_{n=1}^N \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x^{(n)}-\mu)^2}{2\sigma^2}) L(μ)=n=1N2πσ2 1exp(2σ2(x(n)μ)2)

  2. 取对数:
    ln ⁡ L ( μ ) = − N 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ n = 1 N ( x ( n ) − μ ) 2 \ln L(\mu) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2 lnL(μ)=2Nln(2πσ2)2σ21n=1N(x(n)μ)2

  3. 求导并令其为0:
    ∂ ln ⁡ L ( μ ) ∂ μ = 1 σ 2 ∑ n = 1 N ( x ( n ) − μ ) = 0 \frac{\partial \ln L(\mu)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) = 0 μlnL(μ)=σ21n=1N(x(n)μ)=0

  4. 解得:
    μ M L E = 1 N ∑ n = 1 N x ( n ) \mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)} μMLE=N1n=1Nx(n)

(2) 最大后验估计(MAP):

  1. 根据贝叶斯定理,后验概率正比于似然函数与先验概率的乘积:
    p ( μ ∣ X ) ∝ p ( X ∣ μ ) p ( μ ) p(\mu|X) \propto p(X|\mu)p(\mu) p(μX)p(Xμ)p(μ)

  2. 取对数:
    ln ⁡ p ( μ ∣ X ) = ln ⁡ p ( X ∣ μ ) + ln ⁡ p ( μ ) + C \ln p(\mu|X) = \ln p(X|\mu) + \ln p(\mu) + C lnp(μX)=lnp(Xμ)+lnp(μ)+C

  3. 代入具体表达式:
    ln ⁡ p ( μ ∣ X ) = − 1 2 σ 2 ∑ n = 1 N ( x ( n ) − μ ) 2 − ( μ − μ 0 ) 2 2 σ 0 2 + C \ln p(\mu|X) = -\frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2 - \frac{(\mu-\mu_0)^2}{2\sigma_0^2} + C lnp(μX)=2σ21n=1N(x(n)μ)22σ02(μμ0)2+C

  4. 求导并令其为0:
    ∂ ln ⁡ p ( μ ∣ X ) ∂ μ = 1 σ 2 ∑ n = 1 N ( x ( n ) − μ ) − μ − μ 0 σ 0 2 = 0 \frac{\partial \ln p(\mu|X)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) - \frac{\mu-\mu_0}{\sigma_0^2} = 0 μlnp(μX)=σ21n=1N(x(n)μ)σ02μμ0=0

  5. 解得:
    μ M A P = σ 0 2 ∑ n = 1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2} μMAP=Nσ02+σ2σ02n=1Nx(n)+σ2μ0

2-7证明在上一题中,当N趋近于无穷时,最大后验估计(MAP)趋向于最大似然估计(MLE)。

  1. 回顾两个估计的结果:

    MLE: μ M L E = 1 N ∑ n = 1 N x ( n ) \mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)} μMLE=N1n=1Nx(n)

    MAP: μ M A P = σ 0 2 ∑ n = 1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2} μMAP=Nσ02+σ2σ02n=1Nx(n)+σ2μ0

  2. 对MAP估计进行变形:

    μ M A P = σ 0 2 ∑ n = 1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2} μMAP=Nσ02+σ2σ02n=1Nx(n)+σ2μ0

    = σ 0 2 N σ 0 2 + σ 2 ∑ n = 1 N x ( n ) + σ 2 N σ 0 2 + σ 2 μ 0 = \frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2}\sum_{n=1}^N x^{(n)} + \frac{\sigma^2}{N\sigma_0^2 + \sigma^2}\mu_0 =Nσ02+σ2σ02n=1Nx(n)+Nσ02+σ2σ2μ0

  3. 当N趋近于无穷时,分析各项:

    lim ⁡ N → ∞ σ 0 2 N σ 0 2 + σ 2 = lim ⁡ N → ∞ 1 N + σ 2 σ 0 2 = 1 \lim_{N \to \infty} \frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{1}{N + \frac{\sigma^2}{\sigma_0^2}} = 1 limNNσ02+σ2σ02=limNN+σ02σ21=1

    lim ⁡ N → ∞ σ 2 N σ 0 2 + σ 2 = lim ⁡ N → ∞ σ 2 σ 0 2 N + σ 2 σ 0 2 = 0 \lim_{N \to \infty} \frac{\sigma^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{\frac{\sigma^2}{\sigma_0^2}}{N + \frac{\sigma^2}{\sigma_0^2}} = 0 limNNσ02+σ2σ2=limNN+σ02σ2σ02σ2=0

  4. 因此:

    lim ⁡ N → ∞ μ M A P = lim ⁡ N → ∞ [ 1 N ∑ n = 1 N x ( n ) ] = μ M L E \lim_{N \to \infty} \mu^{MAP} = \lim_{N \to \infty} [\frac{1}{N}\sum_{n=1}^N x^{(n)}] = \mu^{MLE} limNμMAP=limN[N1n=1Nx(n)]=μMLE

  5. 直观解释:

    • 当样本量N很大时,数据提供的信息远多于先验信息
    • 先验分布的影响(第二项)趋近于0
    • 样本信息的权重(第一项)趋近于1
    • 因此MAP估计渐近地等价于MLE估计

2-8验证公式2.61,即证明在平方损失函数下,最优模型为条件期望 f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f(x)=Eypr(yx)[y]

  1. 首先回顾期望误差的定义(公式2.60):

    R ( f ) = E ( x , y ) ∼ p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}(f) = \mathbb{E}_{(x,y)\sim p_r(x,y)}[(y - f(x))^2] R(f)=E(x,y)pr(x,y)[(yf(x))2]

  2. 对于固定的x,考虑条件期望:

    R ( f ∣ x ) = E y ∼ p r ( y ∣ x ) [ ( y − f ( x ) ) 2 ] \mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[(y - f(x))^2] R(fx)=Eypr(yx)[(yf(x))2]

  3. 展开平方项:

    R ( f ∣ x ) = E y ∼ p r ( y ∣ x ) [ y 2 − 2 y f ( x ) + f ( x ) 2 ] \mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[y^2 - 2yf(x) + f(x)^2] R(fx)=Eypr(yx)[y22yf(x)+f(x)2]

    = E y ∼ p r ( y ∣ x ) [ y 2 ] − 2 f ( x ) E y ∼ p r ( y ∣ x ) [ y ] + f ( x ) 2 = \mathbb{E}_{y\sim p_r(y|x)}[y^2] - 2f(x)\mathbb{E}_{y\sim p_r(y|x)}[y] + f(x)^2 =Eypr(yx)[y2]2f(x)Eypr(yx)[y]+f(x)2

  4. 为求最优模型,对 f ( x ) f(x) f(x) 求导并令其为0:

    ∂ R ( f ∣ x ) ∂ f ( x ) = − 2 E y ∼ p r ( y ∣ x ) [ y ] + 2 f ( x ) = 0 \frac{\partial \mathcal{R}(f|x)}{\partial f(x)} = -2\mathbb{E}_{y\sim p_r(y|x)}[y] + 2f(x) = 0 f(x)R(fx)=2Eypr(yx)[y]+2f(x)=0

  5. 解得:

    f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f(x)=Eypr(yx)[y]

  6. 验证这是最小值而非最大值:

    ∂ 2 R ( f ∣ x ) ∂ f ( x ) 2 = 2 > 0 \frac{\partial^2 \mathcal{R}(f|x)}{\partial f(x)^2} = 2 > 0 f(x)22R(fx)=2>0

  7. 因此对每个x,最优预测为:

    f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f(x)=Eypr(yx)[y]

2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我",并分析不同模型的优缺点。

  1. 一元特征(Unigram)表示:

文本分词后:

  • 句子1:“我”,“打”,“了”,“张三”
  • 句子2:“张三”,“打”,“了”,“我”

特征词典:{“我”, “打”, “了”, “张三”}

向量表示:

  • 句子1:[1, 1, 1, 1]
  • 句子2:[1, 1, 1, 1]
  1. 二元特征(Bigram)表示:

特征词典:{“我打”, “打了”, “了张三”, “张三打”, “打了”, “了我”}

向量表示:

  • 句子1:[1, 1, 1, 0, 0, 0]
  • 句子2:[0, 0, 0, 1, 1, 1]
  1. 三元特征(Trigram)表示:

特征词典:{“我打了”, “打了张三”, “了张三”, “张三打了”, “三打了我”}

向量表示:

  • 句子1:[1, 1, 0, 0, 0]
  • 句子2:[0, 0, 0, 1, 1]
  1. 一元特征模型:
    优点:
  • 特征空间较小,计算效率高
  • 对数据稀疏性不敏感
  • 词序无关的场景下表现好

缺点:

  • 完全丢失词序信息
  • 无法区分语义相反的句子
  • 如本例中无法区分主谓关系
  1. 二元特征模型:
    优点:
  • 保留了部分相邻词的顺序信息
  • 能够捕捉一定的短语特征
  • 可以区分简单的语序差异

缺点:

  • 特征空间显著增大
  • 数据稀疏性问题加重
  • 只能捕获局部的序列关系
  1. 三元特征模型:
    优点:
  • 保留了更多的上下文信息
  • 能够捕捉更长的短语特征
  • 语序表达更准确

缺点:

  • 特征空间急剧膨胀
  • 严重的数据稀疏问题
  • 计算复杂度高
  • 泛化能力下降

2-12 计算三分类问题的各项评估指标。

真实标签:1,1,2,2,2,3,3,3,3
预测标签:1,2,2,2,3,3,3,1,2
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。

  1. 首先构建混淆矩阵:
    预测\真实 类别1 类别2 类别3
    类别1 1 0 1
    类别2 1 3 1
    类别3 0 0 2

  2. 计算每个类别的精确率(Precision):

    • P1 = 1/(1+0+1) = 1/2 = 0.5
    • P2 = 3/(1+3+1) = 3/5 = 0.6
    • P3 = 2/(0+0+2) = 2/2 = 1.0
  3. 计算每个类别的召回率(Recall):

    • R1 = 1/(1+1+0) = 1/2 = 0.5
    • R2 = 3/(0+3+0) = 3/3 = 1.0
    • R3 = 2/(1+1+2) = 2/4 = 0.5
  4. 计算每个类别的F1值:

    • F1_1 = 2×0.5×0.5/(0.5+0.5) = 0.5
    • F1_2 = 2×0.6×1.0/(0.6+1.0) = 0.75
    • F1_3 = 2×1.0×0.5/(1.0+0.5) = 0.67
  5. 计算宏平均(Macro-average):

    • Macro-P = (0.5 + 0.6 + 1.0)/3 = 0.70
    • Macro-R = (0.5 + 1.0 + 0.5)/3 = 0.67
    • Macro-F1 = (0.5 + 0.75 + 0.67)/3 = 0.64
  6. 计算微平均(Micro-average):

    • 总TP = 1 + 3 + 2 = 6
    • 总样本数 = 9
    • Micro-P = 6/9 = 0.67
    • Micro-R = 6/9 = 0.67
    • Micro-F1 = 2×0.67×0.67/(0.67+0.67) = 0.67

类别1:

  • Precision = 0.50
  • Recall = 0.50
  • F1 = 0.50

类别2:

  • Precision = 0.60
  • Recall = 1.00
  • F1 = 0.75

类别3:

  • Precision = 1.00
  • Recall = 0.50
  • F1 = 0.67

宏平均:

  • Macro-Precision = 0.70
  • Macro-Recall = 0.67
  • Macro-F1 = 0.64

微平均:

  • Micro-Precision = 0.67
  • Micro-Recall = 0.67
  • Micro-F1 = 0.67