参数估计学习笔记通俗易懂版(包括点估计和区间估计(区间估包括总体均值的置信区间(总体标准差未知、总体标准差已知)和总体方差的置信区间))

发布于:2025-03-22 ⋅ 阅读:(44) ⋅ 点赞:(0)

1. 参数估计的基本概念

在统计推断中,我们往往希望利用从总体中抽取的有限样本推断总体的特性,这一过程称为参数估计。总体参数(例如均值、方差、比例等)往往是未知的,通过样本数据,我们可以得到对这些参数的估计。

参数估计主要有两种形式:

  • 点估计(Point Estimation)
    用一个具体数值作为总体参数的估计值。例如,用样本均值$ \bar{x}$来估计总体均值 μ \mu μ;用样本方差 s 2 s^2 s2来估计总体方差 σ 2 \sigma^2 σ2等。点估计直观、计算简单,但只能给出一个估计值无法反映估计的不确定性
  • 区间估计(Interval Estimation)
    在点估计的基础上,结合抽样误差给出一个可能包含总体参数的区间,同时给出一个“置信水平”,表明在重复抽样中,有多大比例的置信区间会包含总体参数。常见的区间估计即置信区间,例如“95%置信区间”表示在无限次重复抽样中,约95%的区间会包含总体参数的真实值

2. 点估计

2.2定义与特点

点估计就是选择一个样本统计量作为总体参数的近似值。例如:

  • 样本均值 x ˉ \bar{x} xˉ估计总体均值 μ \mu μ
  • 样本比例$ \hat{p} = \frac{x}{n} 估计 ∗ ∗ 总体比例 ∗ ∗ 估计**总体比例** 估计总体比例p$;
  • 样本方差 s 2 s^2 s2估计总体方差 σ 2 \sigma^2 σ2

这种方法优点在于计算方便、直观;但缺点在于不能反映估计的不确定性,即只提供一个“最佳猜测”,而没有关于误差大小的信息。

2.3常见方法

常用的点估计方法有:

  • 矩估计法:利用样本矩(如均值、方差等)与总体矩之间的关系求解参数。
  • 极大似然估计(MLE):选取使样本数据似然函数取最大值的参数值。
  • 最小二乘估计:在回归分析中常用,通过最小化观测值与预测值之间的平方差来确定参数。

这些方法都有各自的优缺点,在具体应用时通常需要考虑样本量、总体分布假设等因素。

2.4点估计的应用

示例 1:总体均值的点估计
假设从某总体中随机抽取 n n n个样本,记为 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn

  • 方法: 用样本均值
    x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1nxi
    作为总体均值 μ \mu μ 的点估计。

  • 说明: 这种方法简单直观,但只提供了一个“最佳猜测”,没有反映出估计的误差范围。

示例 2:总体比例的点估计
对于二项分布问题,比如我们观察到 n n n次试验中有 x x x次成功,

  • 方法: 点估计量为
    p ^ = x n \hat{p} = \frac{x}{n} p^=nx

  • 用以估计总体成功概率 p p p

  • 说明:

    此方法在大样本时效果较好,且为无偏估计


3. 区间估计

3.1概念及意义

由于点估计忽略了抽样波动性,为了更全面地反映参数估计的可靠性,我们引入区间估计。区间估计不仅给出一个中心点,还给出了一个上下界,使得该区间在一定的置信水平下包含真实参数值。例如,当我们计算出某总体均值的95%置信区间为 [ a , b ] [a, b] [a,b]时,可以理解为在相同抽样条件下重复实验,约有95%的构造出的区间会包含总体均值。

3.2构造步骤

以总体均值为例,构造置信区间通常包括以下步骤:

  1. 确定样本统计量及其抽样分布
    若总体服从正态分布,则样本均值 x ˉ \bar{x} xˉ的抽样分布为正态分布;当总体方差未知且样本量较小时,则服从 t t t分布。

  2. 确定置信水平
    例如设定置信水平为 95%,对应的显著性水平 α = 0.05 \alpha=0.05 α=0.05

  3. 查找临界值
    当总体方差已知时,根据标准正态分布查找 z α / 2 z_{\alpha/2} zα/2;若未知,则根据 t t t分布查找 t n − 1 ; α / 2 t_{n-1;\alpha/2} tn1;α/2

  4. 构造区间后续有具体方法和题解示例,在本节3.4

    • 总体均值(已知总体方差)的双侧置信区间:
      ( x ˉ − z α / 2 σ n ,    x ˉ + z α / 2 σ n ) \left( \bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\; \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) (xˉzα/2n σ,xˉ+zα/2n σ)

    • 总体均值(未知总体方差)的双侧置信区间:
      ( x ˉ − t n − 1 ; α / 2 s n ,    x ˉ + t n − 1 ; α / 2 s n ) \left( \bar{x} - t_{n-1;\alpha/2}\frac{s}{\sqrt{n}},\; \bar{x} + t_{n-1;\alpha/2}\frac{s}{\sqrt{n}} \right) (xˉtn1;α/2n s,xˉ+tn1;α/2n s)

其中 s s s 为样本标准差, n n n为样本容量。

3.3应用实例

  • 正态分布总体均值的区间估计
    当总体标准差已知时,利用 z z z分布构造区间;若未知且样本量较小时,则利用 t t t分布构造区间。
  • 比例参数的区间估计
    对于二项分布问题,如估计某事件的发生概率 p p p,可以利用克洛珀-皮尔逊方法或正态近似构造置信区间。

区间估计不仅可以反映估计的不确定性,还能用于假设检验,当某个假设值不在构造的置信区间内时,就可以拒绝相应的原假设。

3.4区间估计题解

区间估计的目的是在点估计的基础上给出一个可信的范围,使得该区间在一定的置信水平下包含真实参数值。

示例 1:总体均值的置信区间(总体标准差已知)
【题目】设总体服从正态分布,已知总体标准差 σ = 10 \sigma = 10 σ=10;从中抽取样本容量 n = 36 n=36 n=36,样本均值 x ˉ = 50 \bar{x} = 50 xˉ=50。求该总体均值的95%置信区间。

【解题步骤】

  1. 因为总体标准差已知,且总体服从正态分布,样本均值的分布为
    x ˉ ∼ N ( μ ,    σ 2 n ) \bar{x} \sim N\Bigl(\mu,\; \frac{\sigma^2}{n}\Bigr) xˉN(μ,nσ2)

  2. 95%置信水平对应的临界值为 z 0.025 ≈ 1.96 z_{0.025} \approx 1.96 z0.0251.96

  3. 构造置信区间公式:
    x ˉ ± z 0.025 σ n = 50 ± 1.96 10 6 \bar{x} \pm z_{0.025}\frac{\sigma}{\sqrt{n}} = 50 \pm 1.96\frac{10}{6} xˉ±z0.025n σ=50±1.96610

  4. 计算得:
    1.96 10 6 ≈ 3.27 1.96\frac{10}{6} \approx 3.27 1.966103.27
    因此总体均值的95%置信区间约为 [ 50 − 3.27 ,    50 + 3.27 ] = [ 46.73 ,    53.27 ] [50−3.27,  50+3.27]=[46.73,  53.27] [503.27,  50+3.27]=[46.73,  53.27]


示例 4:总体均值的置信区间(总体标准差未知)

适用情境: 当需要估计总体均值的范围,且总体标准差未知时,构造总体均值的置信区间。

方法: 使用样本标准差 s s s代替总体标准差 σ \sigma σ,并根据样本容量的大小选择适当的分布:

  • 大样本(一般认为 n ≥ 30 n \geq 30 n30): 由于大数定律,样本均值近似服从正态分布,可使用标准正态分布构造置信区间。
  • 小样本( n < 30 n n<30n n<30n): 样本均值服从 t t t分布,需使用 t t t分布构造置信区间。

公式:

  • 大样本:
    X ˉ ± Z α / 2 × s n \bar{X} \pm Z_{\alpha/2} \times \frac{s}{\sqrt{n}} Xˉ±Zα/2×n s
    其中, Z α / 2 Z_{\alpha/2} Zα/2为标准正态分布的临界值。

  • 小样本:
    X ˉ ± t α / 2 , n − 1 × s n \bar{X} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}} Xˉ±tα/2,n1×n s
    其中, t α / 2 , n − 1 t_{\alpha/2, n-1} tα/2,n1 为自由度为 n − 1 n-1 n1 t t t分布的临界值。

示例:

【题目1】假设从某总体中抽取了 16 个样本,样本均值为 50,样本标准差为 8,要求总体均值的 95% 置信区间。

【解答步骤】

  1. 由于样本容量小于 30,使用 t t t分布。

  2. 计算自由度: n − 1 = 15 n - 1 = 15 n1=15

  3. 查找 t t t分布临界值:在自由度为 15 下, t 0.025 , 15 ≈ 2.131 t_{0.025, 15} \approx 2.131 t0.025,152.131

  4. 计算置信区间:

    50 ± 2.131 × 8 16 = 50 ± 4.262 50 \pm 2.131 \times \frac{8}{\sqrt{16}} = 50 \pm 4.262 50±2.131×16 8=50±4.262

    ( 45.738 , 54.262 ) (45.738, 54.262) (45.738,54.262)

因此,总体均值的 95% 置信区间为 ( 45.738 , 54.262 ) (45.738, 54.262) (45.738,54.262)

【题目2】设某总体服从正态分布,但总体标准差未知;从中抽取样本 n = 25 n = 25 n=25,得到样本均值 x ˉ = 100 \bar{x} = 100 xˉ=100 和样本标准差 s = 15 s = 15 s=15。求总体均值的95%置信区间。

【解题步骤】

  1. 当总体标准差未知时,样本均值的抽样分布服从 t t t分布,自由度为 n − 1 = 24 n n-1 = 24n n1=24n

  2. 95%置信水平下,查 t t t分布临界值得 t 24 , 0.025 ≈ 2.064 t_{24,0.025} \approx 2.064 t24,0.0252.064

  3. 构造置信区间公式:
    x ˉ ± t 24 , 0.025 s n = 100 ± 2.064 15 5 \bar{x} \pm t_{24,0.025}\frac{s}{\sqrt{n}} = 100 \pm 2.064 \frac{15}{5} xˉ±t24,0.025n s=100±2.064515

  4. 计算得:
    2.064 × 15 5 = 2.064 × 3 = 6.192 2.064 \times \frac{15}{5} = 2.064 \times 3 = 6.192 2.064×515=2.064×3=6.192
    因此总体均值的95%置信区间约为

    [ 100 − 6.19 ,    100 + 6.19 ] = [ 93.81 ,    106.19 ] [100−6.19,  100+6.19]=[93.81,  106.19] [1006.19,  100+6.19]=[93.81,  106.19]


示例 5:总体方差的置信区间

适用情境: 当需要估计总体方差(或标准差)的范围时,构造总体方差的置信区间。

方法: 假设总体服从正态分布,使用样本方差 s 2 s^2 s2 作为总体方差 σ 2 \sigma^2 σ2 的估计量。根据统计理论,统计量 ( n − 1 ) s 2 σ 2 \frac{(n-1)s^2}{\sigma^2} σ2(n1)s2 服从自由度为 n − 1 n-1 n1的卡方分布。由此,可构造总体方差的置信区间。

公式:
( ( n − 1 ) s 2 χ α / 2 2 , ( n − 1 ) s 2 χ 1 − α / 2 2 ) \left( \frac{(n-1)s^2}{\chi^2_{\alpha/2}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}} \right) (χα/22(n1)s2,χ1α/22(n1)s2)

其中, χ α / 2 2 \chi^2_{\alpha/2} χα/22 χ 1 − α / 2 2 \chi^2_{1-\alpha/2} χ1α/22分别为卡方分布在置信水平两端的临界值。

示例:

【题目1】假设从正态总体中抽取了 25 个样本,样本方差为 20,要求总体方差的 95% 置信区间。

【截图步骤】

  1. 计算自由度: n − 1 = 24 n - 1 = 24 n1=24

  2. 查找卡方分布临界值:在自由度为 24 下, χ 0.025 2 ≈ 39.36 , χ 0.975 2 ≈ 12.40 \chi^2_{0.025} \approx 39.36, \chi^2_{0.975} \approx 12.40 χ0.025239.36,χ0.975212.40

  3. 计算置信区间:
    ( 24 × 20 39.36 , 24 × 20 12.40 ) ≈ ( 12.21 , 38.71 ) \left( \frac{24 \times 20}{39.36}, \frac{24 \times 20}{12.40} \right) \approx (12.21, 38.71) (39.3624×20,12.4024×20)(12.21,38.71)

因此,总体方差的 95% 置信区间为 ( 12.21 , 38.71 ) (12.21, 38.71) (12.21,38.71)

【题目2】设总体服从正态分布,从中抽取样本 n n n个,计算得到样本方差 s 2 s^2 s2。求总体方差 σ 2 \sigma^2 σ2 ( 1 − α ) (1-\alpha) (1α)置信区间。

【解题步骤】

  1. 由于 ( n − 1 ) s 2 / σ 2 (n-1)s^2/\sigma^2 (n1)s2/σ2服从卡方分布,自由度为 n − 1 n−1 n1

  2. 查表得 χ 2 \chi^2 χ2分布的上下临界值分别为 χ α / 2 2 ( n − 1 ) \chi^2_{\alpha/2}(n-1) χα/22(n1) χ 1 − α / 2 2 ( n − 1 ) \chi^2_{1-\alpha/2}(n-1) χ1α/22(n1)

  3. 则总体方差的置信区间为:
    [ ( n − 1 ) s 2 χ 1 − α / 2 2 ( n − 1 ) ,    ( n − 1 ) s 2 χ α / 2 2 ( n − 1 ) ] \left[\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)},\; \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}\right] [χ1α/22(n1)(n1)s2,χα/22(n1)(n1)s2]

    这个公式给出了一个关于 σ 2 \sigma^2 σ2的区间估计。

总体方差的置信区间: 用于估计总体方差的范围,需假设总体服从正态分布,使用卡方分布构造置信区间。

总体标准差未知时总体均值的置信区间: 用于估计总体均值的范围,使用样本标准差代替总体标准差,根据样本容量选择使用标准正态分布或 t 分布构造置信区间。


4. 贝叶斯估计中的区间估计

除了传统的频率学派方法外,贝叶斯统计也提供了一种区间估计方法,称为可信区间(Credible Interval)

  • 贝叶斯可信区间:通过结合先验分布与样本数据得到后验分布,然后从后验分布中提取某一概率质量的区间。例如,在给定数据后,若后验分布的某个区间覆盖了参数 θ \theta θ的 95% 的概率,那么这个区间即为95%的可信区间。

    这种方法与频率学派的置信区间概念不同,其含义是给定数据后参数落在该区间内的概率。


5. 总结

  • 点估计:提供了一个具体的参数估计值,例如利用样本均值、样本比例或样本方差进行估计,适用于对参数进行简单描述,计算简单但无法反映估计的不确定性。
  • 区间估计:在点估计的基础上给出一个包含总体参数的区间(加上误差范围),以置信区间的形式说明估计的可靠性(说明该区间的置信水平),能更全面地反映参数估计的可靠性,常见应用包括总体均值和总体方差的置信区间构造、总体比例的区间估计等。

通过点估计和区间估计,我们不仅能得到总体参数的一个最佳猜测,还能定量描述由于抽样带来的不确定性,为决策和进一步分析提供依据。