机器学习数学基础:34.点二列

发布于:2025-02-25 ⋅ 阅读:(13) ⋅ 点赞:(0)

点二列相关教程

一、点二列相关的定义

点二列相关是一种统计方法,用于衡量两个变量之间的相关程度。在这种相关分析中,一个变量是正态连续性变量,取值可以是连续的数值,比如身高、体重、考试分数等;另一个是真正的二分名义变量,其两个类别是天然存在、相互独立的,不能再细分,像性别(男/女)、是否吸烟(是/否)、抛硬币的结果(正面/反面)等。

二、适用场景

点二列相关常用于研究天然二分变量与连续变量之间的关系。例如在教育领域,分析学生的性别(二分变量)与学习成绩(连续变量)之间的联系,看男生和女生在成绩上是否存在差异;在医学研究中,探讨患者是否患病(二分变量)与某项生理指标数值(连续变量)的相关性,以辅助疾病诊断和研究;在市场调研里,了解消费者是否购买某产品(二分变量)和他们的收入水平(连续变量)之间的关系,为营销策略提供参考。

三、计算公式解读

点二列相关系数的计算公式为 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq ,公式中各参数含义如下:

  • p p p q q q p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q   = 1 p + q \ = 1 p+q =1。比如在研究性别的例子中,如果男生人数占总人数的 40 % 40\% 40%,那么 p   = 0.4 p \ = 0.4 p =0.4 q   = 1 − 0.4   = 0.6 q \ = 1 - 0.4 \ = 0.6 q =10.4 =0.6
  • X ‾ p \overline{X}_{p} Xp X ‾ q \overline{X}_{q} Xq X ‾ p \overline{X}_{p} Xp是与二分变量中 p p p类别相对应的连续变量的平均数; X ‾ q \overline{X}_{q} Xq是与二分变量中 q q q类别相对应的连续变量的平均数。例如, X ‾ p \overline{X}_{p} Xp可以是男生的平均考试成绩, X ‾ q \overline{X}_{q} Xq是女生的平均考试成绩。
  • σ \sigma σ:表示连续变量的标准差,它衡量的是连续变量的离散程度,也就是数据的分散情况。标准差越大,说明数据越分散;标准差越小,数据越集中。

点二列相关系数 R R R的取值范围在 − 1 -1 1 1 1 1之间。当 R R R接近 1 1 1时,意味着两个变量之间存在很强的正相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于增大;当 R R R接近 − 1 -1 1时,表明存在很强的负相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于减小;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱,几乎没有关联。

四、计算步骤实例

假设我们要研究某学校学生是否住校(二分变量)与英语成绩(连续变量)之间的关系,具体步骤如下:

(一)数据收集

随机选取该校80名学生作为样本,记录他们是否住校(住校记为1,不住校记为0 )以及英语考试成绩(满分100分)。经检验,英语成绩这一连续变量近似正态分布。

(二)数据整理与参数计算

  1. 统计发现住校的学生有30人,不住校的学生有50人。则 p   = 30 80   = 0.375 p\ =\frac{30}{80}\ =0.375 p =8030 =0.375 q   = 1 − 0.375   = 0.625 q \ = 1 - 0.375 \ = 0.625 q =10.375 =0.625
  2. 计算住校学生的英语平均成绩 X ‾ p \overline{X}_{p} Xp,假设为80分;不住校学生的英语平均成绩 X ‾ q \overline{X}_{q} Xq,假设为70分。
  3. 计算这80名学生英语成绩的标准差 σ \sigma σ,假设为12分。

(三)计算点二列相关系数 R R R

将上述值代入公式 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq 可得:
R   = 80 − 70 12 × 0.375 × 0.625   = 10 12 × 0.234375 ≈ 10 12 × 0.484 ≈ 0.40 \begin{align*} R&\ =\frac{80 - 70}{12}×\sqrt{0.375×0.625}\\ &\ =\frac{10}{12}×\sqrt{0.234375}\\ &\approx\frac{10}{12}×0.484\\ &\approx0.40 \end{align*} R =128070×0.375×0.625  =1210×0.234375 1210×0.4840.40

(四)结果分析

计算出的点二列相关系数约为 0.40 0.40 0.40,说明在这个样本中,学生是否住校与英语成绩之间存在一定的正相关关系,即住校学生的英语成绩相对较高。但相关系数并不是特别高,意味着是否住校虽然对英语成绩有影响,但可能不是唯一的决定因素。

五、注意事项

  1. 变量性质:务必确保一个变量是真正的二分名义变量,另一个是正态连续变量,否则点二列相关可能不适用。
  2. 样本代表性:样本要具有足够的代表性,样本容量不能过小,这样计算出的相关系数才更可靠,一般建议样本量在30以上。
  3. 相关与因果:点二列相关系数只能表明两个变量之间的关联程度,不能直接说明它们之间存在因果关系。比如前面例子中发现住校和英语成绩相关,但不能就此认定住校是英语成绩好的原因。