协方差相关问题

发布于:2025-04-08 ⋅ 阅读:(36) ⋅ 点赞:(0)

为什么无偏估计用 ( n − 1 ) (n-1) (n1) 而不是 n n n,区别是什么?

在统计学中,无偏估计是指估计量的期望值等于总体参数的真实值。当我们用样本数据估计总体方差或协方差时,分母使用 ( n − 1 ) (n-1) (n1) 而不是 n n n 是为了确保估计是无偏的。

1. 总体方差与样本方差

总体方差 σ 2 \sigma^2 σ2 定义为:
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1i=1n(xiμ)2

其中 n n n 是总体数据点数, μ \mu μ 是总体均值。

样本方差的直观定义可能是:
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1i=1n(xixˉ)2

但这个估计是有偏的。为了得到无偏估计,我们使用:
s n − 1 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s_{n-1}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn12=n11i=1n(xixˉ)2

2. 为什么用 ( n − 1 ) (n-1) (n1) 实现无偏估计?

直观解释

  • 样本均值的"过拟合" x ˉ \bar{x} xˉ 是从样本计算得到的,不是固定的总体均值 μ \mu μ。这使得样本数据点相对于 x ˉ \bar{x} xˉ 的偏差比相对于 μ \mu μ 的偏差小。
  • 自由度损失:计算 x ˉ \bar{x} xˉ 时已用掉一个自由度(因为 ∑ ( x i − x ˉ ) = 0 \sum (x_i - \bar{x}) = 0 (xixˉ)=0),所以剩余的独立信息只有 ( n − 1 ) (n-1) (n1) 个自由度。

数学证明

关键证明是样本方差总和的期望值:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = (n-1) \sigma^2 E[i=1n(xixˉ)2]=(n1)σ2

  • 若分母用 n n n
    E [ s n 2 ] = E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = n − 1 n σ 2 < σ 2 E[s_n^2] = E\left[ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{n-1}{n} \sigma^2 < \sigma^2 E[sn2]=E[n1i=1n(xixˉ)2]=nn1σ2<σ2

  • 若分母用 ( n − 1 ) (n-1) (n1)
    E [ s n − 1 2 ] = E [ 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s_{n-1}^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[sn12]=E[n11i=1n(xixˉ)2]=n11(n1)σ2=σ2

3. 用 ( n − 1 ) (n-1) (n1) n n n 的区别

方面 分母用 ( n − 1 ) (n-1) (n1) 分母用 n n n
估计性质 无偏估计, E [ s n − 1 2 ] = σ 2 E[s_{n-1}^2] = \sigma^2 E[sn12]=σ2 有偏估计, E [ s n 2 ] = n − 1 n σ 2 E[s_n^2] = \frac{n-1}{n} \sigma^2 E[sn2]=nn1σ2
数值大小 结果稍大(因为分母更小) 结果稍小(因为分母更大)
适用场景 统计推断,估计总体参数 最大似然估计或描述样本特性
样本大小影响 小样本时差异明显,大样本时差异趋近于零 同左,但偏差始终存在
  • 在小样本情况下,差异更显著(例如 n = 5 n=5 n=5 时,有偏估计为 4 5 σ 2 \frac{4}{5}\sigma^2 54σ2
  • 在大样本情况下(如 n = 1000 n=1000 n=1000),差异很小,但理论上仍以 ( n − 1 ) (n-1) (n1) 为标准

好的,我来更新第4部分的内容,用更详细的推导过程替代之前的版本。

4. 期望 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n-1)\sigma^2 E[i=1n(xixˉ)2]=(n1)σ2 的详细推导

假设条件

为了推导这个期望,我们需要明确以下假设:

  • x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是从均值为 μ \mu μ、方差为 σ 2 \sigma^2 σ2 的总体中抽取的**独立同分布(i.i.d.)**随机变量。
  • 样本均值定义为: x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1nxi

步骤 1:表达式变换

直接计算 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] E[i=1n(xixˉ)2] 较为复杂,因为 x ˉ \bar{x} xˉ 本身是随机变量。我们可以利用一个恒等式将表达式改写为更容易处理的形式。

考虑 x i − x ˉ x_i - \bar{x} xixˉ 的定义:
x i − x ˉ = ( x i − μ ) − ( x ˉ − μ ) x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu) xixˉ=(xiμ)(xˉμ)

这里我们引入了总体均值 μ \mu μ,将偏差分解为两部分:样本值与总体均值的偏差 ( x i − μ ) (x_i - \mu) (xiμ) 和样本均值与总体均值的偏差 ( x ˉ − μ ) (\bar{x} - \mu) (xˉμ)

将这个表达式平方并求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n [ ( x i − μ ) − ( x ˉ − μ ) ] 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2 i=1n(xixˉ)2=i=1n[(xiμ)(xˉμ)]2

展开平方:
( x i − x ˉ ) 2 = ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 (x_i - \bar{x})^2 = (x_i - \mu)^2 - 2 (x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 (xixˉ)2=(xiμ)22(xiμ)(xˉμ)+(xˉμ)2

对所有 i i i 求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) + ∑ i = 1 n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n (\bar{x} - \mu)^2 i=1n(xixˉ)2=i=1n(xiμ)22i=1n(xiμ)(xˉμ)+i=1n(xˉμ)2

简化最后一项,因为 ( x ˉ − μ ) 2 (\bar{x} - \mu)^2 (xˉμ)2 不依赖于 i i i
∑ i = 1 n ( x ˉ − μ ) 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (\bar{x} - \mu)^2 = n (\bar{x} - \mu)^2 i=1n(xˉμ)2=n(xˉμ)2

接下来处理中间项 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) i=1n(xiμ)(xˉμ)
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1nxi
所以:
x ˉ − μ = 1 n ∑ i = 1 n ( x i − μ ) \bar{x} - \mu = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) xˉμ=n1i=1n(xiμ)

代入:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = ∑ i = 1 n ( x i − μ ) ⋅ 1 n ∑ j = 1 n ( x j − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \sum_{i=1}^n (x_i - \mu) \cdot \frac{1}{n} \sum_{j=1}^n (x_j - \mu) i=1n(xiμ)(xˉμ)=i=1n(xiμ)n1j=1n(xjμ)

因为 ∑ j = 1 n ( x j − μ ) \sum_{j=1}^n (x_j - \mu) j=1n(xjμ) 不依赖于 i i i,可以提出:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n ∑ i = 1 n ( x i − μ ) ⋅ ∑ j = 1 n ( x j − μ ) = 1 n [ ∑ i = 1 n ( x i − μ ) ] 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) \cdot \sum_{j=1}^n (x_j - \mu) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \mu) \right]^2 i=1n(xiμ)(xˉμ)=n1i=1n(xiμ)j=1n(xjμ)=n1[i=1n(xiμ)]2

注意到:
∑ i = 1 n ( x i − μ ) = n ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu) = n (\bar{x} - \mu) i=1n(xiμ)=n(xˉμ)

所以:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n [ n ( x ˉ − μ ) ] 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \left[ n (\bar{x} - \mu) \right]^2 = n (\bar{x} - \mu)^2 i=1n(xiμ)(xˉμ)=n1[n(xˉμ)]2=n(xˉμ)2

将这些结果代回原式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) 2 + n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 n (\bar{x} - \mu)^2 + n (\bar{x} - \mu)^2 i=1n(xixˉ)2=i=1n(xiμ)22n(xˉμ)2+n(xˉμ)2
= ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 =i=1n(xiμ)2n(xˉμ)2

我们得到了一个关键恒等式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 i=1n(xixˉ)2=i=1n(xiμ)2n(xˉμ)2

步骤 2:计算期望

现在,对这个表达式取期望:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 \right] E[i=1n(xixˉ)2]=E[i=1n(xiμ)2n(xˉμ)2]

由于期望是线性的,可以分开计算:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 ] − E [ n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] - E\left[ n (\bar{x} - \mu)^2 \right] E[i=1n(xixˉ)2]=E[i=1n(xiμ)2]E[n(xˉμ)2]

第一项: E [ ∑ i = 1 n ( x i − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] E[i=1n(xiμ)2]

因为 x i x_i xi 是 i.i.d. 的,且 E [ ( x i − μ ) 2 ] = Var ( x i ) = σ 2 E[(x_i - \mu)^2] = \text{Var}(x_i) = \sigma^2 E[(xiμ)2]=Var(xi)=σ2
E [ ∑ i = 1 n ( x i − μ ) 2 ] = ∑ i = 1 n E [ ( x i − μ ) 2 ] = ∑ i = 1 n σ 2 = n σ 2 E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] = \sum_{i=1}^n E[(x_i - \mu)^2] = \sum_{i=1}^n \sigma^2 = n \sigma^2 E[i=1n(xiμ)2]=i=1nE[(xiμ)2]=i=1nσ2=nσ2

第二项: E [ n ( x ˉ − μ ) 2 ] E\left[ n (\bar{x} - \mu)^2 \right] E[n(xˉμ)2]

首先计算 x ˉ \bar{x} xˉ 的方差:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1nxi

由于 x i x_i xi 是独立的:
Var ( x ˉ ) = Var ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n Var ( x i ) = 1 n 2 ⋅ n σ 2 = σ 2 n \text{Var}(\bar{x}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n x_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} Var(xˉ)=Var(n1i=1nxi)=n21i=1nVar(xi)=n21nσ2=nσ2

因为 E [ x ˉ ] = μ E[\bar{x}] = \mu E[xˉ]=μ(样本均值无偏),所以:
E [ ( x ˉ − μ ) 2 ] = Var ( x ˉ ) = σ 2 n E[(\bar{x} - \mu)^2] = \text{Var}(\bar{x}) = \frac{\sigma^2}{n} E[(xˉμ)2]=Var(xˉ)=nσ2

因此:
E [ n ( x ˉ − μ ) 2 ] = n ⋅ E [ ( x ˉ − μ ) 2 ] = n ⋅ σ 2 n = σ 2 E\left[ n (\bar{x} - \mu)^2 \right] = n \cdot E[(\bar{x} - \mu)^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2 E[n(xˉμ)2]=nE[(xˉμ)2]=nnσ2=σ2

合并结果

E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = n σ 2 − σ 2 = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = n \sigma^2 - \sigma^2 = (n - 1) \sigma^2 E[i=1n(xixˉ)2]=nσ2σ2=(n1)σ2

步骤 3:验证与意义

我们得到了:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1n(xixˉ)2]=(n1)σ2

这表明, ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 i=1n(xixˉ)2 的期望值是 ( n − 1 ) σ 2 (n-1) \sigma^2 (n1)σ2。在统计学中,样本方差定义为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

其期望为:
E [ s 2 ] = 1 n − 1 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s^2] = \frac{1}{n-1} E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[s2]=n11E[i=1n(xixˉ)2]=n11(n1)σ2=σ2

这说明 s 2 s^2 s2 是总体方差 σ 2 \sigma^2 σ2 的无偏估计。

如果用 n n n 作为分母:
E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n ⋅ ( n − 1 ) σ 2 = n − 1 n σ 2 < σ 2 E\left[ \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n} \cdot (n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2 E[n1i=1n(xixˉ)2]=n1(n1)σ2=nn1σ2<σ2

这表明分母用 n n n 会低估总体方差。

总结

通过将 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 i=1n(xixˉ)2 展开为 ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 i=1n(xiμ)2n(xˉμ)2,并分别计算两项的期望,我们推导出:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1n(xixˉ)2]=(n1)σ2

  • ∑ i = 1 n ( x i − μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 i=1n(xiμ)2 的期望是 n σ 2 n \sigma^2 nσ2,表示总体偏差。
  • n ( x ˉ − μ ) 2 n (\bar{x} - \mu)^2 n(xˉμ)2 的期望是 σ 2 \sigma^2 σ2,反映样本均值的波动。
  • 两者的差值 ( n − 1 ) σ 2 (n-1) \sigma^2 (n1)σ2 解释了为什么样本方差的分母用 n − 1 n-1 n1 是无偏的。

5. 数据中心化的原理

数据中心化是将每个数据点减去均值的过程:

数学表示

  • 原始数据: x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn
  • 均值: μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n}\sum_{i=1}^n x_i μ=n1i=1nxi
  • 中心化数据: x i ′ = x i − μ x'_i = x_i - \mu xi=xiμ

几何意义

  • 将数据集平移,使中心点位于坐标原点
  • 数据分布形状不变,仅位置发生移动
  • 数据点之间的相对关系保持不变

优点

  • 消除数据的整体偏移
  • 提高数值计算的稳定性
  • 加快模型收敛速度
  • 使不同特征处于相似的尺度范围

示例

对于数据 [2, 4, 6, 8]:

  • 均值 μ = 5 \mu = 5 μ=5
  • 中心化后:[-3, -1, 1, 3]

数据中心化是统计分析和机器学习中的重要预处理步骤,有助于我们关注数据的相对变化而非绝对位置。


网站公告

今日签到

点亮在社区的每一天
去签到