Wilcoxon符号秩检验 (Wilcoxon Signed-Rank Test) 是判断两种算法在同一组数据集上性能指标是否存在统计显著性差异的经典非参数检验方法,尤其适用于配对样本(如多个数据集上两种算法的性能对比)。它能有效区分“实质性差异”与“随机波动”。
适用性分析
1. 核心解决场景
✅ 配对数据:同一组数据集(或交叉验证的相同折)上比较算法A vs 算法B的性能(如准确率、RMSE等)
✅ 小样本:不要求数据正态分布(非参数检验优势)
✅ 序数数据:适用于连续型指标(准确率)或离散型序数数据
2. 与t检验的区别
特征 | Wilcoxon符号秩检验 | 配对t检验 |
---|---|---|
数据分布要求 | 无分布要求 | 要求差值近似正态分布 |
鲁棒性 | 抗异常值干扰 | 对异常值敏感 |
检验目标 | 中位数差异是否显著 | 均值差异是否显著 |
适用样本量 | $n \geq 6$ (推荐) | $n \geq 30$ 更可靠 |
检验步骤与学术报告规范
步骤1:提出假设
$H_0$:两种算法性能差异的中位数 = 0 (无实质性差异)
$H_1$:两种算法性能差异的中位数 ≠ 0 (存在实质性差异)
步骤2:计算差异并排序
对每个数据集$i$计算差异值 $d_i = \text{Perf}{\text{AlgA},i} - \text{Perf}{\text{AlgB},i}$
按$|d_i|$升序排列,赋予秩次$R_i$
分别计算正/负差异的秩和:$W^+$, $W^-$
步骤3:确定统计量
W=min(W+,W−)W=min(W+,W−)
步骤4:结果解读
若$W < W_{\text{critical}}$(查表)或 $p < \alpha$ (通常0.05),则拒绝$H_0$
效应量计算:
r=Zn(Z由W值标准化得到)r=nZ(Z由W值标准化得到)$|r| < 0.3$:弱效应
$0.3 \leq |r| < 0.5$:中等效应
$|r| \geq 0.5$:强效应
实例演示(APA格式报告)
*"采用Wilcoxon符号秩检验比较Algorithm X与Y在25个数据集上的准确率差异。结果显示存在统计显著性差异:$W = 34, p = .003$(双尾),效应量 $r = -.52$。这表明Algorithm X的准确率显著高于Y(中位数差 = 2.7%),且差异具有强实际意义。"*
注意事项
多重检验校正
若同时比较多组算法,需使用Bonferroni或Holm校正调整$\alpha$值效应量必须报告
仅报告$p<0.05$不够:需结合效应量判断差异的实际意义数据依赖结构
⚠️ 若数据集间不独立(如相同数据的不同子集),需用更高级方法(如Hierarchical Testing)替代方案参考
图表
代码
结论
Wilcoxon符号秩检验是验证两种算法性能是否存在实质性差异的可靠方法。当满足:
配对样本设计
性能指标为连续/序数型
样本量≥6且不依赖正态分布假设
时,该检验可有效区分随机波动与真实性能差异,并可通过效应量量化差异程度。