机器学习数学基础:36.统计学基础知识

发布于:2025-03-04 ⋅ 阅读:(9) ⋅ 点赞:(0)

统计学基础知识

常见的变量有 6 种:自变量、因变量、控制变量、中介变量、调节变量和协变量。

1. 自变量

自变量是指在实验中由实验者操作和控制的变量,是引起因变量发生变化的因素或条件,又称独立变量、预测变量。

示例:研究光照时长对植物生长的影响时,“光照时长”是自变量。

2. 因变量

因变量是由于自变量变动而直接引起变动的量,又称效果变量、反映变量。

示例:上述实验中,“植物生长高度”是因变量。

3. 控制变量

控制变量是指那些除了实验因素(自变量)以外的所有可能影响实验结果的变量,需在实验设计中被固定或排除。

示例:实验中控制温度、湿度保持一致,避免干扰结果。

4. 协变量

协变量是指对因变量有潜在影响,但并非研究焦点的变量。通常在数据分析阶段通过统计方法(如协方差分析、回归模型)加以控制,以消除其干扰。

示例:研究教育水平对收入的影响时,“工作经验”可能作为协变量纳入模型。

与控制变量的区别:控制变量在实验设计阶段被固定,协变量在数据分析阶段被调整。

5. 中介变量

中介变量是自变量影响因变量的中间机制,解释“如何起作用”。

示例:工作压力(自变量)→ 睡眠质量(中介变量)→ 工作效率(因变量)。

6. 调节变量

调节变量影响自变量与因变量之间关系的强度或方向,即“何时或对谁更有效”。

示例:年龄可能调节社交媒体使用(自变量)与孤独感(因变量)的关系。

总结

协变量的核心作用是剥离其他因素的混杂影响,提升分析结果的准确性。在实际应用中,需根据研究目标区分变量类型,并选择合适的控制或调整方法。

统计学入门教程:变量的测量尺度(小白友好版)

一、什么是测量尺度?

测量尺度是统计学中对变量进行分类和量化的标准,决定了数据的类型和分析方法。理解测量尺度能帮助你:

  • 正确选择统计工具(如计算均值或频数);
  • 避免错误分析(例如对名义变量计算平均值);
  • 优化数据转换(如将标度变量降级为有序变量)。

二、三种基本测量尺度详解

1. 名义尺度(Nominal Scale)

  • 定义:仅用于分类或分组,类别之间无顺序、无大小、无数学意义。
  • 特点
    • 只能计算“数量”和“比例”(频数、频率);
    • 无法进行加减乘除运算。
  • 例子:性别(男/女)、血型(A/B/O/AB)、颜色(红/蓝/绿)。
  • 统计方法:频数表、饼图、卡方检验。

2. 有序尺度(Ordinal Scale)

  • 定义:可以排序或分等级,但类别间距不明确。
  • 特点
    • 能比较顺序(如 A > B > C),但无法量化差距;
    • 依然不能进行算术运算(如“第一名比第二名好多少?”无法回答)。
  • 例子:教育程度(小学/初中/高中/大学)、满意度评分(非常不满意/一般/非常满意)。
  • 统计方法:中位数、百分位数、非参数检验(如秩和检验)。

3. 标度尺度(Scale Scale)

标度尺度分为两类:定距尺度和定比尺度,统称为“连续变量”。

(1)定距尺度(Interval Scale)
  • 定义:有明确数值间距,但没有绝对零点。
  • 特点
    • 可计算差值(如 30℃与 20℃相差 10℃);
    • 但“0”不表示“无”(如 0℃不代表没有温度)。
  • 例子:温度(摄氏度)、智商分数、年份(2020 年与 2021 年相差 1 年)。
  • 统计方法:均值、标准差、t 检验、方差分析。
(2)定比尺度(Ratio Scale)
  • 定义:有绝对零点,可计算比值(如 A 是 B 的 2 倍)。
  • 特点
    • 支持所有数学运算(加减乘除);
    • “0”表示“完全没有”(如 0kg 表示无重量)。
  • 例子:身高、体重、收入、时间(秒)。
  • 统计方法:与定距尺度相同,但可计算比率(如增长率)。

三、测量尺度的等级与转换关系

1. 等级关系

信息量从高到低:
标度变量(定比 > 定距) > 有序变量 > 名义变量

  • 标度变量:包含最多信息(数值、顺序、差值、比值)。
  • 有序变量:仅有顺序信息。
  • 名义变量:仅有分类信息。

2. 转换规则

  • 只能降级,不可逆:
    • 标度变量 → 有序变量 → 名义变量;
    • 例如:将收入(定比)转换为“高/中/低”等级(有序),再转换为“是否高收入”(名义)。
  • 降级会丢失信息:
    • 例如:将温度(定距)转换为“冷/温/热”(有序),丢失了具体温差信息。

四、实际应用中的注意事项

  1. 选择统计方法前,先确认变量类型
  • 标度变量:可用均值、回归分析;
  • 有序变量:用中位数、非参数检验;
  • 名义变量:用频数、卡方检验。
  1. 数据录入时标记清晰
  • 在 Excel 或 SPSS 中,明确标注变量类型(如名义、有序、标度)。
  1. 谨慎降级转换
  • 除非必要(如简化分析),否则保留原始高等级数据。

五、总结与练习

  • 一句话总结
    名义分类型、有序可排序、标度可计算,降级不可逆!

  • 练习题

  1. 判断以下变量的测量尺度:
  • 手机品牌(苹果/三星/华为):______
  • 考试成绩排名(第 1/第 2/第 3):______
  • 每月消费金额(元):______
  1. 能否对“满意度评分(1 - 5 分)”计算平均值?为什么?

答案

  1. 名义尺度;有序尺度;定比尺度(标度)。
  2. 不能,因为有序变量仅支持中位数,均值需标度尺度。

通过本教程,希望你能轻松掌握变量的测量尺度,为后续统计分析打下坚实基础!

统计学常见统计名词入门教程

一、总体

总体就是我们研究对象的整个集合。比如,当你想了解某小学学生的心理健康状况时,这所小学里的所有小学生就构成了研究的总体。在统计学中,总体的数量单位一般用大写的“N”表示。我们研究总体,是为了全面了解相关现象,但在实际中,总体往往数量庞大,很难全部研究。

二、样本

由于总体太大,直接研究不现实,所以我们会抽取一部分个体来研究,这部分个体就是样本。样本的数量单位通常用小写的“n”表示。比如还是调查某小学学生心理健康状况,随机抽取 200 名小学生进行调查,这 200 名学生就是样本。样本必须有代表性,不然根据样本得到的结论就不能准确反映总体情况,比如只抽取成绩好的学生,就不能代表全校学生的心理健康状况。

三、参数

参数是用来描述总体特征的数字。像总体的均值(用符号μ表示)和标准差(用符号σ表示)就是常见参数。比如某小学全体学生的平均心理健康得分就是一个参数。但在实际研究中,总体数量大,我们很难直接知道这些参数的值,所以需要通过其他方式去估计。

四、统计量

统计量是基于样本数据计算出来的,用于分析和检验数据,描述样本特征的数字。比如样本均值(用符号 x ˉ \bar{x} xˉ 表示)和样本标准差(用符号 s 表示)。我们通过计算样本的这些统计量,再利用统计推断的方法,来推测总体的参数情况。

五、四者关系

总体包含了所有研究对象,我们从总体中随机抽样得到样本;参数描述总体特征,统计量描述样本特征;我们通过对样本统计量的分析,进行统计推断,从而推测总体的参数。例如在研究学生成绩时,先从全校学生(总体)中抽取部分学生(样本),计算样本的平均成绩(统计量),再推断全校学生的平均成绩(参数)。

变量类型与统计方法的对应关系

1. 标度变量(定距/定比尺度)

适用方法:均值、回归分析

为什么用均值?

标度变量具有明确的数值意义(如身高、温度、收入),数值之间可以进行加减运算,且差距相等(定距)或存在绝对零点(定比)。

示例:计算班级学生的平均身高(cm),因为身高是连续的数值型数据。

为什么用回归分析?

回归分析研究变量之间的数值关系(如“学习时长”对“考试成绩”的影响)。标度变量支持数学运算,能直接量化变量间的线性关系。

示例:用线性回归分析广告投入(万元)与销售额(万元)的关系。

2. 有序变量(有序尺度)

适用方法:中位数、非参数检验

为什么用中位数?

有序变量仅能排序(如教育程度:小学<初中<高中<大学),但类别间距未知或不相等。中位数基于排序后的中间位置,不依赖具体数值差距,因此更稳健。

示例:调查用户满意度(非常不满意、不满意、一般、满意、非常满意),用中位数表示整体满意度水平。

为什么用非参数检验?

非参数检验(如曼 - 惠特尼 U 检验、秩和检验)不要求数据符合正态分布,也不假设等距间隔。适合处理有序变量无法量化差距的特性。

示例:比较两种教学方法下学生成绩排名(有序)的差异。

3. 名义变量(名义尺度)

适用方法:频数、卡方检验

为什么用频数?

名义变量仅表示类别(如性别:男/女),没有顺序或数值意义。统计各类别的数量(频数)或比例(频率)是唯一有意义的方式。

示例:统计某班级中男生和女生的人数及占比。

为什么用卡方检验?

卡方检验用于检验分类变量之间的独立性或分布差异,适用于名义数据。

示例:检验“性别”与“是否购买某产品”之间的关联性。

常见疑问解答

Q1:有序变量能否计算均值?

  • 不建议。例如满意度评分(1 - 5 分),若强行计算均值,需假设各等级间隔相等(如 1 到 2 分与 4 到 5 分的差距相同),但实际可能不成立。此时中位数更可靠。

Q2:标度变量是否必须用参数检验?

  • 不一定。如果标度数据严重偏离正态分布或方差齐性,可用非参数检验(如秩和检验)。但参数检验(如 t 检验)在条件满足时更高效。

Q3:如何区分定距和定比尺度?

  • 关键看零点是否有意义。例如温度(0℃≠无温度)是定距,体重(0kg = 无重量)是定比。但实际分析中,两者在统计方法上通常不做严格区分。

总结表格

变量类型 数学属性 适用统计方法 示例分析场景
标度变量 数值连续,可加减乘除 均值、回归分析、t 检验、方差分析 分析收入与消费的关系
有序变量 可排序,间隔不等 中位数、非参数检验 比较不同教育程度的满意度
名义变量 仅分类,无顺序或数值 频数、卡方检验 检验性别与购物偏好的关联

通过理解变量类型与统计方法的对应关系,可以避免分析错误(如对性别计算均值),并选择更合适的工具揭示数据背后的规律。

统计学描述指标

在统计学里,描述数据特征的指标主要有集中趋势和离散趋势两类,下面通过实例为你详细讲解。

一、集中趋势描述指标

集中趋势指标能帮我们了解一组数据的“中心位置” ,就像找一群人的“典型水平”。

1. 算术平均数(均值)

  • 定义与计算:它是最常用的指标,也叫均值,用 x ˉ \bar{x} xˉ 表示。计算方式是把所有数据相加,再除以数据的个数。公式为 x ˉ = x 1 + x 2 + x 3 + ⋯ + x n n \bar{x} = \frac{x_{1}+x_{2}+x_{3}+\cdots +x_{n}}{n} xˉ=nx1+x2+x3++xn。比如,某小组 5 名同学的数学成绩分别是 80 分、85 分、90 分、95 分、100 分,那么他们的平均成绩 x ˉ = ( 80 + 85 + 90 + 95 + 100 ) ÷ 5 = 90 \bar{x}=(80 + 85 + 90 + 95 + 100)÷5 = 90 xˉ=(80+85+90+95+100)÷5=90 分。
  • 特点:计算简便,但容易受极端值影响。比如一个班级学生的平均成绩,若有个别学生成绩特别高或特别低,均值就不能很好代表整体水平。

2. 中位数

  • 定义与计算:把一组数据按照从小到大(或从大到小)的顺序排列,如果数据个数是奇数,那么处于中间位置的数就是中位数;如果数据个数是偶数,中位数则是中间两个数的平均值。例如,数据 3,5,7,9,11,排序后中间的数 7 就是中位数;数据 2,4,6,8,中位数为 ( 4 + 6 ) ÷ 2 = 5 (4 + 6)÷2 = 5 (4+6)÷2=5
  • 特点:不受极端值影响。在统计居民收入水平时,若少数人收入极高,用中位数表示更能反映一般居民的收入水平。

3. 众数

  • 定义与计算:一组数据中出现次数最多的数据就是众数。比如,在 1,2,2,3,3,3,4 中,3 出现的次数最多,3 就是众数。若所有数据出现次数都相同,则没有众数;若多个数据出现次数并列最多,则有多个众数。
  • 特点:不受极端值影响,但除了在多选题统计等少数情况,一般较少使用。例如统计消费者对不同颜色商品的偏好,出现次数最多的颜色就是众数。

二、离散趋势描述指标

离散趋势指标用来体现数据的分散程度,即数据的波动大小。

1. 全距(极差)

  • 定义与计算:一组数据中的最大值减去最小值得到的差值,公式是 R = x m a x − x m i n R = x_{max} - x_{min} R=xmaxxmin。比如,某组数据 10,15,20,25,30,全距 R = 30 − 10 = 20 R = 30 - 10 = 20 R=3010=20
  • 特点:计算简单,可快速判断数据的波动范围,常用来初步检查数据录入是否出错。

2. 方差

  • 定义与计算:总体方差公式 σ 2 = ∑ ( x − μ ) 2 n \sigma^{2}=\frac{\sum(x - \mu)^{2}}{n} σ2=n(xμ)2,样本方差公式 S 2 = ∑ ( x − x ˉ ) 2 n − 1 S^{2}=\frac{\sum(x - \bar{x})^{2}}{n - 1} S2=n1(xxˉ)2 ,其中 x x x 是数据, μ \mu μ 是总体均值, x ˉ \bar{x} xˉ 是样本均值, n n n 是数据个数。方差能衡量每个数据与均值的偏离程度,从而反映数据的离散程度。例如,计算数据 2,4,6 的样本方差,先求均值 x ˉ = ( 2 + 4 + 6 ) ÷ 3 = 4 \bar{x}=(2 + 4 + 6)÷3 = 4 xˉ=(2+4+6)÷3=4,再计算方差 S 2 = [ ( 2 − 4 ) 2 + ( 4 − 4 ) 2 + ( 6 − 4 ) 2 ] ÷ ( 3 − 1 ) = 4 S^{2}=[(2 - 4)^{2}+(4 - 4)^{2}+(6 - 4)^{2}]÷(3 - 1)= 4 S2=[(24)2+(44)2+(64)2]÷(31)=4
  • 特点:能充分利用数据信息,但方差的单位是原始数据单位的平方,不太好理解。

3. 标准差

  • 定义与计算:标准差是方差的平方根。比如上述数据 2,4,6 的方差是 4,标准差就是 4 = 2 \sqrt{4}=2 4 =2
  • 特点:解决了方差单位不合理的问题,与方差一样能很好反映数据离散趋势,但受极端值影响,适用于正态分布或近似正态分布的数据。

4. 百分位数、四分位数与四分位间距

  • 定义与计算:百分位数是一种位置指标,用 p x p_{x} px 表示。将 n n n 个观测值按大小排序,处于 p % p\% p% 位置的值就是第 p p p 百分位数,中位数就是 p 50 p_{50} p50。常用的四分位数是 p 25 p_{25} p25 p 50 p_{50} p50 p 75 p_{75} p75 ,可将数据四等分, p 25 p_{25} p25 p 75 p_{75} p75 包含中间 50%的数据,四分位距就是 $p_{7