统计学(第8版)——统计抽样学习笔记(考试用)

发布于:2025-06-10 ⋅ 阅读:(23) ⋅ 点赞:(0)

一、统计抽样的核心内容与问题

研究内容

  1. 从总体中科学抽取样本的方法
  2. 利用样本数据推断总体特征(均值、比率、总量)
  3. 控制抽样误差与非抽样误差

解决的核心问题

  • 在成本约束下,用少量样本准确推断总体特征
  • 量化估计结果的可靠性(置信区间)

二、基本概念(7.1节)

术语 定义
总体 研究对象的全体
样本 从总体中抽取的部分元素集合
目标总体 待推断的总体(理论范围)
抽样总体 实际抽取样本的总体(操作范围)
抽样单位 抽样的基本单元(个体或一组个体)
抽样框 抽样单位的名册清单

关键提示:抽样框必须完整覆盖抽样总体,否则会引入覆盖误差


三、抽样调查方法与误差(7.2-7.3节)

调查方法

  • 邮寄调查
  • 电话调查
  • 个人采访调查

误差分类

  • 非抽样误差
    • 测量误差
    • 采访者误差
    • 数据处理误差
  • 抽样误差
    • 因未调查全部单位产生的误差

控制策略

  • 非抽样误差:问卷预测试、调查员培训、自动化数据处理
  • 抽样误差:增加样本量或改进抽样设计

四、抽样方法详解

1. 简单随机抽样(SRS)(7.4节)

定义

每个容量为 n n n的样本被抽中的概率相同,样本独立无关联

抽样步骤
  1. 建立抽样框(总体所有个体名册)
  2. 使用随机数表抽取样本
参数估计公式
  • 总体均值 μ \mu μ
    x ˉ ± z α / 2 ⋅ s n 1 − n N \bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \sqrt{1 - \frac{n}{N}} xˉ±zα/2n s1Nn
    使用条件

    • n ≥ 30 n \geq 30 n30(中心极限定理)
    • n / N > 5 % n/N > 5\% n/N>5%时必须使用有限总体修正系数
  • 总体比率 p p p
    p ^ ± z α / 2 ⋅ p ^ ( 1 − p ^ ) n 1 − n N \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \sqrt{1 - \frac{n}{N}} p^±zα/2np^(1p^) 1Nn
    使用条件 n p ^ ≥ 5 n\hat{p} \geq 5 np^5 n ( 1 − p ^ ) ≥ 5 n(1-\hat{p}) \geq 5 n(1p^)5

样本容量确定
  • 估计均值
    n = N ⋅ z α / 2 2 ⋅ s 2 ( N − 1 ) B 2 + z α / 2 2 s 2 n = \frac{N \cdot z_{\alpha/2}^2 \cdot s^2}{(N-1)B^2 + z_{\alpha/2}^2 s^2} n=(N1)B2+zα/22s2Nzα/22s2
  • 估计比率
    n = N ⋅ z α / 2 2 ⋅ p ( 1 − p ) ( N − 1 ) B 2 + z α / 2 2 p ( 1 − p ) n = \frac{N \cdot z_{\alpha/2}^2 \cdot p(1-p)}{(N-1)B^2 + z_{\alpha/2}^2 p(1-p)} n=(N1)B2+zα/22p(1p)Nzα/22p(1p)
    关键参数
    • B B B:允许误差(置信区间半宽)
    • s 2 s^2 s2 p p p:需预先估计(历史数据/预抽样)
    • p p p未知时用 p = 0.5 p=0.5 p=0.5保守估计
案例示范
  • 例7.1(杂志订户收入估计):
    N = 8000 ,   n = 484 ,   x ˉ = 30500 ,   s = 7040 N=8000,\ n=484,\ \bar{x}=30500,\ s=7040 N=8000, n=484, xˉ=30500, s=7040
    95 %   C I :   30500 ± 1.96 × 7040 484 × 1 − 484 8000 → [ 29880 ,   31120 ] 95\%\ CI:\ 30500 \pm 1.96 \times \frac{7040}{\sqrt{484}} \times \sqrt{1-\frac{484}{8000}} \rightarrow [29880,\ 31120] 95% CI: 30500±1.96×484 7040×18000484 [29880, 31120]

  • 例7.3(毕业生收入调查样本量):
    要求: B = 500 ,   N = 5000 ,   s = 3000 B=500,\ N=5000,\ s=3000 B=500, N=5000, s=3000
    n = 5000 × 1.96 2 × 3000 2 4999 × 500 2 + 1.96 2 × 3000 2 ≈ 139 n = \frac{5000 \times 1.96^2 \times 3000^2}{4999 \times 500^2 + 1.96^2 \times 3000^2} \approx 139 n=4999×5002+1.962×300025000×1.962×30002139


2. 分层简单随机抽样(7.5节)

适用场景

总体存在异质子群(如不同专业、地区),层内差异小、层间差异大

抽样步骤
  1. 将总体划分为 H H H
  2. 每层独立抽取简单随机样本
  3. 按层权加权合并结果
参数估计
  • 总体均值
    x ˉ s t r = ∑ h = 1 H ( N h N ) x ˉ h \bar{x}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \bar{x}_h xˉstr=h=1H(NNh)xˉh
    标准误
    s x ˉ s t r = ∑ h = 1 H ( N h N ) 2 s h 2 n h ( 1 − n h N h ) s_{\bar{x}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{s_h^2}{n_h} \left(1 - \frac{n_h}{N_h}\right) } sxˉstr=h=1H(NNh)2nhsh2(1Nhnh)
    置信区间 x ˉ s t r ± 1.96 s x ˉ s t r \bar{x}_{str} \pm 1.96 s_{\bar{x}_{str}} xˉstr±1.96sxˉstr

  • 总体比率
    p ^ s t r = ∑ h = 1 H ( N h N ) p ^ h \hat{p}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \hat{p}_h p^str=h=1H(NNh)p^h
    标准误
    s p ^ s t r = ∑ h = 1 H ( N h N ) 2 p ^ h ( 1 − p ^ h ) n h ( 1 − n h N h ) s_{\hat{p}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{\hat{p}_h(1-\hat{p}_h)}{n_h} \left(1 - \frac{n_h}{N_h}\right) } sp^str=h=1H(NNh)2nhp^h(1p^h)(1Nhnh)

样本分配
  • 比例分配 n h = n × N h N n_h = n \times \frac{N_h}{N} nh=n×NNh
  • 最优分配(Neyman)(各层成本相同时):
    n h = n ⋅ N h s h ∑ h = 1 H N h s h n_h = n \cdot \frac{N_h s_h}{\sum_{h=1}^H N_h s_h} nh=nh=1HNhshNhsh
案例示范
  • 例7.4(管理学院毕业生收入分层估计):
    结果: x ˉ s t r = 29350 ,   s x ˉ s t r = 281.6 → 95 %   C I [ 29074 ,   29626 ] \bar{x}_{str} = 29350,\ s_{\bar{x}_{str}} = 281.6 \rightarrow 95\%\ CI[29074,\ 29626] xˉstr=29350, sxˉstr=281.695% CI[29074, 29626]
  • 例7.5(年薪≥36000元比率估计):
    p ^ s t r = 0.0981 → 95 %   C I [ 0.0575 ,   0.1387 ] \hat{p}_{str} = 0.0981 \rightarrow 95\%\ CI[0.0575,\ 0.1387] p^str=0.098195% CI[0.0575, 0.1387]

3. 整群抽样(7.6节)

适用场景

总体天然分群(如学校、村庄),群内差异大、群间差异小

参数估计
  • 总体均值
    x ˉ c l s = ∑ i = 1 n x i ∑ i = 1 n M i \bar{x}_{cls} = \frac{\sum_{i=1}^{n} x_i}{\sum_{i=1}^{n} M_i} xˉcls=i=1nMii=1nxi x i x_i xi:第 i i i群观测值总和)
    标准误
    s x ˉ c l s = 1 M ˉ 2 ⋅ s r 2 n ( 1 − n N ) s_{\bar{x}_{cls}} = \sqrt{ \frac{1}{\bar{M}^2} \cdot \frac{s_r^2}{n} \left(1 - \frac{n}{N}\right) } sxˉcls=Mˉ21nsr2(1Nn)
    其中:
    s r 2 = ∑ i = 1 n ( x i − x ˉ c l s M i ) 2 n − 1 , M ˉ = ∑ M i n s_r^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}_{cls} M_i)^2}{n-1},\quad \bar{M} = \frac{\sum M_i}{n} sr2=n1i=1n(xixˉclsMi)2,Mˉ=nMi

  • 总体比率
    p ^ c l s = ∑ i = 1 n a i ∑ i = 1 n M i \hat{p}_{cls} = \frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} M_i} p^cls=i=1nMii=1nai a i a_i ai:第 i i i群具有特征的数量)

案例示范(例7.6)
  • 注册会计师年薪估计:
    x ˉ c l s = 42531 元 ,   s x ˉ c l s = 1.730 → 95 %   C I [ 39071 ,   45991 ] \bar{x}_{cls} = 42531\text{元},\ s_{\bar{x}_{cls}} = 1.730 \rightarrow 95\%\ CI[39071,\ 45991] xˉcls=42531, sxˉcls=1.73095% CI[39071, 45991]
  • 女性比率估计:
    p ^ c l s = 0.2734 → 95 %   C I [ 0.2052 ,   0.3416 ] \hat{p}_{cls} = 0.2734 \rightarrow 95\%\ CI[0.2052,\ 0.3416] p^cls=0.273495% CI[0.2052, 0.3416]

4. 系统抽样(7.7节)

方法

固定间隔 k k k抽样(首个单位随机起点)

使用条件

抽样框随机排列(否则有周期性偏差风险)

优缺点
优点 缺点
操作简便 若抽样框存在隐周期性,样本可能有偏
成本低

五、样本容量确定通法

  1. 规定精度 B B B和置信水平
  2. 选择抽样方法
  3. 若有历史数据,用其估计方差 s 2 s^2 s2 p p p
  4. 若无历史数据,进行预抽样估计方差
  5. 代入公式计算 n n n
  6. 验证实际精度

特殊情形处理

  • 分层抽样:先分配样本再计算总样本量
  • 整群抽样:需预先估计群间方差 s r 2 s_r^2 sr2

六、解题步骤模板

1. 简单随机抽样(均值估计)

  1. 确认抽样框和 N N N
  2. 抽取 n ≥ 30 n \geq 30 n30的样本
  3. 计算 x ˉ \bar{x} xˉ s s s
  4. 计算标准误: s e = s n × 1 − n N se = \frac{s}{\sqrt{n}} \times \sqrt{1-\frac{n}{N}} se=n s×1Nn
  5. 确定 z z z值(95%CI取1.96)
  6. 计算CI: x ˉ ± z ⋅ s e \bar{x} \pm z \cdot se xˉ±zse

2. 分层抽样(比率估计)

  1. 按特征分层
  2. 确定各层权 W h = N h / N W_h = N_h/N Wh=Nh/N
  3. 按比例分配样本 n h n_h nh
  4. 各层计算 p ^ h \hat{p}_h p^h
  5. 计算加权估计 p ^ s t r = ∑ W h p ^ h \hat{p}_{str} = \sum W_h \hat{p}_h p^str=Whp^h
  6. 计算标准误 s p ^ s t r s_{\hat{p}_{str}} sp^str
  7. 构造CI: p ^ s t r ± 1.96 ⋅ s p ^ s t r \hat{p}_{str} \pm 1.96 \cdot s_{\hat{p}_{str}} p^str±1.96sp^str

3. 样本量计算题

  1. 读取 N , B , N, B, N,B,置信水平
  2. 选择参数类型(均值/比率)
  3. 若估计均值,查找 s 2 s^2 s2历史值
  4. 若估计比率,采用 p = 0.5 p=0.5 p=0.5或历史值
  5. 代入公式求解 n n n
  6. n / N > 5 % n/N > 5\% n/N>5%,使用有限总体修正

七、易错点警示

  1. 抽样框陷阱

    • 目标总体 ≠ 抽样总体 → 推断结论有偏差
    • :用电话簿抽样框调查网民会遗漏无固话群体
  2. 中心极限定理误用

    • n < 30 n<30 n<30时不可直接使用 z z z值(需查 t t t分布表)
    • 偏态总体需 n ≥ 50 n \geq 50 n50才近似正态
  3. 有限总体修正遗漏

    • n / N > 5 % n/N>5\% n/N>5%时未使用修正系数 → 标准误高估
  4. 整群抽样加权缺失

    • 群大小不等时未用加权均值 → 估计有偏
    • 例7.6必须用总年薪/总人数而非群均值的平均
  5. 分层抽样分配误区

    • 最优分配需已知层标准差 s h s_h sh → 若无数据应先比例分配