机器学习数学基础：36.统计学基础知识-EW帮帮网

统计学基础知识

常见的变量有 6 种：自变量、因变量、控制变量、中介变量、调节变量和协变量。

1. 自变量

自变量是指在实验中由实验者操作和控制的变量，是引起因变量发生变化的因素或条件，又称独立变量、预测变量。

示例：研究光照时长对植物生长的影响时，“光照时长”是自变量。

2. 因变量

因变量是由于自变量变动而直接引起变动的量，又称效果变量、反映变量。

示例：上述实验中，“植物生长高度”是因变量。

3. 控制变量

控制变量是指那些除了实验因素（自变量）以外的所有可能影响实验结果的变量，需在实验设计中被固定或排除。

示例：实验中控制温度、湿度保持一致，避免干扰结果。

4. 协变量

协变量是指对因变量有潜在影响，但并非研究焦点的变量。通常在数据分析阶段通过统计方法（如协方差分析、回归模型）加以控制，以消除其干扰。

示例：研究教育水平对收入的影响时，“工作经验”可能作为协变量纳入模型。

与控制变量的区别：控制变量在实验设计阶段被固定，协变量在数据分析阶段被调整。

5. 中介变量

中介变量是自变量影响因变量的中间机制，解释“如何起作用”。

示例：工作压力（自变量）→ 睡眠质量（中介变量）→ 工作效率（因变量）。

6. 调节变量

调节变量影响自变量与因变量之间关系的强度或方向，即“何时或对谁更有效”。

示例：年龄可能调节社交媒体使用（自变量）与孤独感（因变量）的关系。

总结

协变量的核心作用是剥离其他因素的混杂影响，提升分析结果的准确性。在实际应用中，需根据研究目标区分变量类型，并选择合适的控制或调整方法。

统计学入门教程：变量的测量尺度（小白友好版）

一、什么是测量尺度？

测量尺度是统计学中对变量进行分类和量化的标准，决定了数据的类型和分析方法。理解测量尺度能帮助你：

正确选择统计工具（如计算均值或频数）；
避免错误分析（例如对名义变量计算平均值）；
优化数据转换（如将标度变量降级为有序变量）。

二、三种基本测量尺度详解

1. 名义尺度（Nominal Scale）

定义：仅用于分类或分组，类别之间无顺序、无大小、无数学意义。
特点：
- 只能计算“数量”和“比例”（频数、频率）；
- 无法进行加减乘除运算。
例子：性别（男/女）、血型（A/B/O/AB）、颜色（红/蓝/绿）。
统计方法：频数表、饼图、卡方检验。

2. 有序尺度（Ordinal Scale）

定义：可以排序或分等级，但类别间距不明确。
特点：
- 能比较顺序（如 A > B > C），但无法量化差距；
- 依然不能进行算术运算（如“第一名比第二名好多少？”无法回答）。
例子：教育程度（小学/初中/高中/大学）、满意度评分（非常不满意/一般/非常满意）。
统计方法：中位数、百分位数、非参数检验（如秩和检验）。

3. 标度尺度（Scale Scale）

标度尺度分为两类：定距尺度和定比尺度，统称为“连续变量”。

（1）定距尺度（Interval Scale）

定义：有明确数值间距，但没有绝对零点。
特点：
- 可计算差值（如 30℃与 20℃相差 10℃）；
- 但“0”不表示“无”（如 0℃不代表没有温度）。
例子：温度（摄氏度）、智商分数、年份（2020 年与 2021 年相差 1 年）。
统计方法：均值、标准差、t 检验、方差分析。

（2）定比尺度（Ratio Scale）

定义：有绝对零点，可计算比值（如 A 是 B 的 2 倍）。
特点：
- 支持所有数学运算（加减乘除）；
- “0”表示“完全没有”（如 0kg 表示无重量）。
例子：身高、体重、收入、时间（秒）。
统计方法：与定距尺度相同，但可计算比率（如增长率）。

三、测量尺度的等级与转换关系

1. 等级关系

信息量从高到低：
标度变量（定比 > 定距） > 有序变量 > 名义变量

标度变量：包含最多信息（数值、顺序、差值、比值）。
有序变量：仅有顺序信息。
名义变量：仅有分类信息。

2. 转换规则

只能降级，不可逆：
- 标度变量 → 有序变量 → 名义变量；
- 例如：将收入（定比）转换为“高/中/低”等级（有序），再转换为“是否高收入”（名义）。
降级会丢失信息：
- 例如：将温度（定距）转换为“冷/温/热”（有序），丢失了具体温差信息。

四、实际应用中的注意事项

选择统计方法前，先确认变量类型：

标度变量：可用均值、回归分析；
有序变量：用中位数、非参数检验；
名义变量：用频数、卡方检验。

数据录入时标记清晰：

在 Excel 或 SPSS 中，明确标注变量类型（如名义、有序、标度）。

谨慎降级转换：

除非必要（如简化分析），否则保留原始高等级数据。

五、总结与练习

一句话总结：
名义分类型、有序可排序、标度可计算，降级不可逆！
练习题：

判断以下变量的测量尺度：

手机品牌（苹果/三星/华为）：______
考试成绩排名（第 1/第 2/第 3）：______
每月消费金额（元）：______

能否对“满意度评分（1 - 5 分）”计算平均值？为什么？

答案：

名义尺度；有序尺度；定比尺度（标度）。
不能，因为有序变量仅支持中位数，均值需标度尺度。

通过本教程，希望你能轻松掌握变量的测量尺度，为后续统计分析打下坚实基础！

统计学常见统计名词入门教程

一、总体

总体就是我们研究对象的整个集合。比如，当你想了解某小学学生的心理健康状况时，这所小学里的所有小学生就构成了研究的总体。在统计学中，总体的数量单位一般用大写的“N”表示。我们研究总体，是为了全面了解相关现象，但在实际中，总体往往数量庞大，很难全部研究。

二、样本

由于总体太大，直接研究不现实，所以我们会抽取一部分个体来研究，这部分个体就是样本。样本的数量单位通常用小写的“n”表示。比如还是调查某小学学生心理健康状况，随机抽取 200 名小学生进行调查，这 200 名学生就是样本。样本必须有代表性，不然根据样本得到的结论就不能准确反映总体情况，比如只抽取成绩好的学生，就不能代表全校学生的心理健康状况。

三、参数

参数是用来描述总体特征的数字。像总体的均值（用符号μ表示）和标准差（用符号σ表示）就是常见参数。比如某小学全体学生的平均心理健康得分就是一个参数。但在实际研究中，总体数量大，我们很难直接知道这些参数的值，所以需要通过其他方式去估计。

四、统计量

统计量是基于样本数据计算出来的，用于分析和检验数据，描述样本特征的数字。比如样本均值（用符号 $\bar{x}$ 表示）和样本标准差（用符号 s 表示）。我们通过计算样本的这些统计量，再利用统计推断的方法，来推测总体的参数情况。

五、四者关系

总体包含了所有研究对象，我们从总体中随机抽样得到样本；参数描述总体特征，统计量描述样本特征；我们通过对样本统计量的分析，进行统计推断，从而推测总体的参数。例如在研究学生成绩时，先从全校学生（总体）中抽取部分学生（样本），计算样本的平均成绩（统计量），再推断全校学生的平均成绩（参数）。

变量类型与统计方法的对应关系

1. 标度变量（定距/定比尺度）

适用方法：均值、回归分析

为什么用均值？

标度变量具有明确的数值意义（如身高、温度、收入），数值之间可以进行加减运算，且差距相等（定距）或存在绝对零点（定比）。

示例：计算班级学生的平均身高（cm），因为身高是连续的数值型数据。

为什么用回归分析？

回归分析研究变量之间的数值关系（如“学习时长”对“考试成绩”的影响）。标度变量支持数学运算，能直接量化变量间的线性关系。

示例：用线性回归分析广告投入（万元）与销售额（万元）的关系。

2. 有序变量（有序尺度）

适用方法：中位数、非参数检验

为什么用中位数？

有序变量仅能排序（如教育程度：小学<初中<高中<大学），但类别间距未知或不相等。中位数基于排序后的中间位置，不依赖具体数值差距，因此更稳健。

示例：调查用户满意度（非常不满意、不满意、一般、满意、非常满意），用中位数表示整体满意度水平。

为什么用非参数检验？

非参数检验（如曼 - 惠特尼 U 检验、秩和检验）不要求数据符合正态分布，也不假设等距间隔。适合处理有序变量无法量化差距的特性。

示例：比较两种教学方法下学生成绩排名（有序）的差异。

3. 名义变量（名义尺度）

适用方法：频数、卡方检验

为什么用频数？

名义变量仅表示类别（如性别：男/女），没有顺序或数值意义。统计各类别的数量（频数）或比例（频率）是唯一有意义的方式。

示例：统计某班级中男生和女生的人数及占比。

为什么用卡方检验？

卡方检验用于检验分类变量之间的独立性或分布差异，适用于名义数据。

示例：检验“性别”与“是否购买某产品”之间的关联性。

常见疑问解答

Q1：有序变量能否计算均值？

不建议。例如满意度评分（1 - 5 分），若强行计算均值，需假设各等级间隔相等（如 1 到 2 分与 4 到 5 分的差距相同），但实际可能不成立。此时中位数更可靠。

Q2：标度变量是否必须用参数检验？

不一定。如果标度数据严重偏离正态分布或方差齐性，可用非参数检验（如秩和检验）。但参数检验（如 t 检验）在条件满足时更高效。

Q3：如何区分定距和定比尺度？

关键看零点是否有意义。例如温度（0℃≠无温度）是定距，体重（0kg = 无重量）是定比。但实际分析中，两者在统计方法上通常不做严格区分。

总结表格

变量类型	数学属性	适用统计方法	示例分析场景
标度变量	数值连续，可加减乘除	均值、回归分析、t 检验、方差分析	分析收入与消费的关系
有序变量	可排序，间隔不等	中位数、非参数检验	比较不同教育程度的满意度
名义变量	仅分类，无顺序或数值	频数、卡方检验	检验性别与购物偏好的关联

通过理解变量类型与统计方法的对应关系，可以避免分析错误（如对性别计算均值），并选择更合适的工具揭示数据背后的规律。

统计学描述指标

在统计学里，描述数据特征的指标主要有集中趋势和离散趋势两类，下面通过实例为你详细讲解。

一、集中趋势描述指标

集中趋势指标能帮我们了解一组数据的“中心位置” ，就像找一群人的“典型水平”。

1. 算术平均数（均值）

定义与计算：它是最常用的指标，也叫均值，用 $\bar{x}$ 表示。计算方式是把所有数据相加，再除以数据的个数。公式为 $\bar{x} = \frac{x_{1}+x_{2}+x_{3}+\cdots +x_{n}}{n}$ 。比如，某小组 5 名同学的数学成绩分别是 80 分、85 分、90 分、95 分、100 分，那么他们的平均成绩 $\bar{x}=(80 + 85 + 90 + 95 + 100)÷5 = 90$ 分。
特点：计算简便，但容易受极端值影响。比如一个班级学生的平均成绩，若有个别学生成绩特别高或特别低，均值就不能很好代表整体水平。

2. 中位数

定义与计算：把一组数据按照从小到大（或从大到小）的顺序排列，如果数据个数是奇数，那么处于中间位置的数就是中位数；如果数据个数是偶数，中位数则是中间两个数的平均值。例如，数据 3，5，7，9，11，排序后中间的数 7 就是中位数；数据 2，4，6，8，中位数为 $(4 + 6) \div 2 = 5$ 。
特点：不受极端值影响。在统计居民收入水平时，若少数人收入极高，用中位数表示更能反映一般居民的收入水平。

3. 众数

定义与计算：一组数据中出现次数最多的数据就是众数。比如，在 1，2，2，3，3，3，4 中，3 出现的次数最多，3 就是众数。若所有数据出现次数都相同，则没有众数；若多个数据出现次数并列最多，则有多个众数。
特点：不受极端值影响，但除了在多选题统计等少数情况，一般较少使用。例如统计消费者对不同颜色商品的偏好，出现次数最多的颜色就是众数。

二、离散趋势描述指标

离散趋势指标用来体现数据的分散程度，即数据的波动大小。

1. 全距（极差）

定义与计算：一组数据中的最大值减去最小值得到的差值，公式是 $R = x_{max} - x_{min}$ 。比如，某组数据 10，15，20，25，30，全距 $R = 30 - 10 = 20$ 。
特点：计算简单，可快速判断数据的波动范围，常用来初步检查数据录入是否出错。

2. 方差

定义与计算：总体方差公式 $\sigma^{2}=\frac{\sum(x - \mu)^{2}}{n}$ ，样本方差公式 $S^{2}=\frac{\sum(x - \bar{x})^{2}}{n - 1}$ ，其中 $x$ 是数据， $\mu$ 是总体均值， $\bar{x}$ 是样本均值， $n$ 是数据个数。方差能衡量每个数据与均值的偏离程度，从而反映数据的离散程度。例如，计算数据 2，4，6 的样本方差，先求均值 $\bar{x}=(2 + 4 + 6)÷3 = 4$ ，再计算方差 $S^{2}=[(2 - 4)^{2}+(4 - 4)^{2}+(6 - 4)^{2}]÷(3 - 1)= 4$ 。
特点：能充分利用数据信息，但方差的单位是原始数据单位的平方，不太好理解。

3. 标准差

定义与计算：标准差是方差的平方根。比如上述数据 2，4，6 的方差是 4，标准差就是 $\sqrt{4}=2$ 。
特点：解决了方差单位不合理的问题，与方差一样能很好反映数据离散趋势，但受极端值影响，适用于正态分布或近似正态分布的数据。

4. 百分位数、四分位数与四分位间距

定义与计算：百分位数是一种位置指标，用 $p_{x}$ 表示。将 $n$ 个观测值按大小排序，处于 $p\%$ 位置的值就是第 $p$ 百分位数，中位数就是 $p_{50}$ 。常用的四分位数是 $p_{25}$ 、 $p_{50}$ 、 $p_{75}$ ，可将数据四等分， $p_{25}$ 和 $p_{75}$ 包含中间 50%的数据，四分位距就是 $p_{7

机器学习数学基础：36.统计学基础知识