AB实验的灵敏度-EW帮帮网

一、为什么灵敏度是实验系统的生命线？

1. 实验灵敏度的定义

灵敏度指的是AB实验系统检测微小效果变化的能力。

类比：就像体温计的精度——普通体温计只能测到0.1°C的变化，而高精度体温计能测到0.01°C的变化。
在AB实验中：如果实验组（A）和对照组（B）的指标差异很小（比如0.5%），但实验系统只能检测到1%以上的变化，那么这个真实的微小提升就会被忽略。

2. 为什么大公司特别关注灵敏度？

像Amazon、Google这样的公司：

业务规模极大：即使指标提升0.1%，也可能带来数百万美元的收益或损失。
实验数量庞大：每年运行成千上万次实验，灵敏度越高，越能准确判断哪些改动值得上线。
避免误判：如果灵敏度低，可能错误放弃实际有效但效果较小的改动，或者误判无效改动为有效。

3. 灵敏度低的后果

电商平台实验：某个改动真实提升了0.5%的交易额，但实验系统只能检测1%的变化 → 误判为“无效果”，导致错失收益。
成熟业务的问题：在已经很优化的产品上，改进空间往往很小（比如1%以下），如果灵敏度不够，实验结论可能完全错误。

4. 提高灵敏度的价值

更精准的决策：能检测到更小的真实效果，避免误判。
节省资源：在更少用户上跑实验（因为能更快检测到差异），缩短实验周期。
支持更多实验：灵敏度高 → 单次实验所需样本量减少 → 可同时跑更多实验，加速产品迭代。

实验灵敏度就是AB实验系统发现微小真实变化的能力。对大公司来说，提升灵敏度意味着：

不错过小但赚钱的改动（比如0.5%的提升）。
避免误判，减少错误决策的成本。
更高效地做实验，用更少资源得到可靠结论。

就像用高倍显微镜观察细胞——普通显微镜看不到的细节，高倍显微镜能清晰捕捉。实验灵敏度就是AB实验的“放大镜”，越灵敏，越能看清微小但重要的变化。

二、如何提升实验灵敏度？

实验灵敏度取决于对指标变化的准确检测能力，而影响检测能力的关键因素是区间估计的精度（即指标波动的范围）。

1. 提升灵敏度的两个统计学方法

👉 核心思路：减小方差σ比增加样本量n更可行

从统计学角度看，减小边际误差（提高精度） 有两种主要方式：

降低方差（σ²）：使数据波动更小，更容易检测真实变化。
增加样本量（n）：更多数据能提高统计显著性。

但增加样本量在实际应用中有诸多限制：

用户量有限：某些实验仅影响小部分用户，无法大规模扩量。
实验速度要求：公司希望快速迭代，每个实验能分配的用户有限。
风险控制：避免实验对过多用户造成负面影响。

因此，降低方差成为更可行的优化方向。

2. 降低方差σ²的三大方法

(1) 选择方差更小的指标

使用波动较小的指标（如转化率比绝对值更稳定）。
数据标准化：调整数据分布，减少极端值影响。

(2) 优化实验参与单元

更细粒度的实验单元（如按用户而非设备分组）。
触发分析（Trigger Analysis）：仅分析真正触达实验的用户，排除无关数据。

(3) 优化实验分组方法

分层法（Stratification）：按用户特征分层，确保实验组/对照组更均衡。
CUPED（Controlled-experiment Using Pre-Experiment Data）：利用实验前数据调整指标，减少随机波动。
配对法（Pairing）：匹配相似用户对，消除组间差异。

这些方法能帮助实验系统更精准地检测微小但重要的业务变化，避免误判。

三、选择指标

如何通过选择合适的指标及其标准化处理来提升AB实验的灵敏度？

核心思路：减少指标数据的方差，从而提高检测微小变化的能力。

1. 选择方差较小的评估指标

在选择AB实验的评估指标时，应优先考虑方差较小的指标，以减少整体方差并提高灵敏度：

原因：方差小的指标数据更稳定（波动小），更容易检测到实验带来的真实变化。
示例：
- 搜索次数 vs. 搜索人数：搜索次数（用户多次搜索）的方差通常大于搜索人数（单个用户是否搜索）的方差。
- 购买金额 vs. 是否购买：购买金额（连续数值，如具体消费额）的方差远高于是否购买（二元值，0或1）的方差。
  例如：
  - 二元序列： $0,0,1,0,1,0,0,0,1,0,0,\ldots$ ，方差较小。
  - 金额序列： $0,0,100,0,30,0,0,0,80,0,0,\ldots$ ，方差显著较大。
本质：二元或离散指标的方差通常小于连续数值指标，因为在实验中用户行为波动范围更小。

2. 标准化评估指标

通过数据处理方法对指标进行标准化（或转化），以进一步减小方差：

目的：通过转换原始指标分布，降低极端值或尾部数据的影响，减少方差。
常见方法：
1. 二值转化（布尔化）：
  - 将连续变量转换为二元值（0或1）。
  - 示例：将浏览时长小于10分钟转化为0，大于10分钟转化为1。
2. 对数转化（log转化）：
  - 应用对数函数压缩数据范围，减少大值差异导致的方差。
  - 示例：原始数据1,10,100,1000，方差为175380；对数转换后（如log₁₀）变为0,1,2,3，方差降至1.25。
  - 注意事项：对收入等指标可能造成业务优化失真（高消费用户影响被压缩），需谨慎使用。
3. 截断法：
  - 基于80/20原则，大部分业务数据（如收入）由少数头部用户主导，导致方差过高。可截断极端值（如top 0.01%）。
  - 效果：截断头尾部数据后，AA实验的指标均值差值和波动减小（过滤越多用户，相对差值越小，方差越低）。
  - 问题：过滤头部用户后，指标均值显著下降，无法与业务大盘数据对齐，影响整体估计准确性。建议过滤非法用户或假量来维持一致性。
4. 其他标准化手段：包括min-max标准化、atan函数转换、z-score标准化等。

本质上，这些标准化处理通过重塑指标分布，降低统计噪声，使实验结果更可靠。

四、选择实验参与对象

目标：通过优化实验对象选择来降低方差

1. 采用更细粒度的实验单元

原理：将实验的随机化单位从粗粒度（如用户）改为细粒度（如单次行为），可降低指标方差，提高灵敏度。

案例解析：

背景：测试搜索引擎的"新排序算法"对点击率的影响。

粗粒度（用户会话）：用户A在1次会话中搜索5次（点击3次），用户B在1次会话中搜索10次（点击1次）。
→ 指标计算：会话点击率 = 总点击次数 / 总会话数，数据波动大（如用户A点击率60%，用户B点击率10%）。

细粒度（单次搜索查询）：每次搜索视为独立单元。
→ 指标计算：搜索点击率 = 点击次数 / 总搜索次数，数据更稳定（如100次搜索中20次点击，点击率20%）。
方差对比：用户会话级方差 > 搜索查询级方差（细粒度单元更敏感）。

注意事项：

一致性问题：若实验涉及UI（如按钮颜色），同一用户可能看到不同版本，体验割裂。
长期效果失效：无法追踪用户级行为（如留存率、复购率）。

2. 使用触发分析（聚焦有效样本）

原理：仅分析实际触达实验功能的用户（如点击新按钮的用户），排除未参与实验的噪音数据，降低方差。

案例解析：

背景：测试购物车页面的"新结算按钮"对转化率的影响。

未用触发分析：实验组包含所有打开购物车的用户，但80%未注意到新按钮。
→ 转化率指标被大量"未触达用户"稀释（如整体转化率从5%→5.2%），无法检测真实效果。

使用触发分析：仅统计实际看到新按钮并点击的用户（如20%的用户群体）。
→ 剔除80%无效样本，真实效果凸显（转化率从25%→28%），方差显著降低。
效果：样本量减少4倍，灵敏度却更高！

优势与局限：

✅ 相同样本量下统计功效更强，更快检测小变化。
⚠️ 需谨慎处理选择偏差：例如"点击新按钮的用户"本身就是高活跃人群。

方法	适用场景	核心收益
细粒度单元	短期行为实验（如点击率、单次转化）	降方差，提升灵敏度
触发分析	渗透率低的实验（如新功能仅部分用户触达）	聚焦有效样本，避免效果稀释

💡 关键理解：
细粒度单元是拆分观测单位（把用户拆成单次行为），触发分析是筛选观测对象（只看真正参与实验的人）。两者共同目标——排除噪音，放大信号！

五、选择实验分组

（1）使用分层、控制变量或CUPED方法

核心方法：使用分层、控制变量或CUPED方法。

核心目标：降低实验方差，提升统计功效。

1. 分层法

案例：高活用户偏差修正

原理：将总体按维度（如平台、用户活跃度）划分为同质层级，各层独立抽样后合并结果。
优势：减少层内差异，样本量较大时显著降低方差。
局限：小样本或层间差异大时可能无效。
实施：
- 前期分层：抽样时分层（成本高）；
- 后期分层：分析阶段回溯调整（常用）。
问题：高活用户占比不均导致组间指标差异（如表8-2）。
解决步骤：
- 剔除异常用户（如停留时长过长者）；
- 按历史活跃度分桶（如高/低活跃用户）；
- 计算实验组分层权重：

分组1的总人均指标= $(2000\times10+4000\times5)\div6000=6.67$
分组2的总人均指标= $(1000\times10+5000\times5)\div 6000=5.83$
分组1调整权重：

高活用户权重 = (分组2高活占比)/(分组1高活占比) = (1/6)/(2/6) = 0.5  
低活用户权重 = (分组2低活占比)/(分组1低活占比) = (5/6)/(4/6) = 1.25

加权计算指标：

分组1调整后人均时长 = (2000×10×0.5 + 4000×5×1.25)/6000 = 5.83（与分组2一致）

经过调整后，两个分组的总人均指标就一致了，达到具有可比性的标准。

2. 控制变量法

控制变量法（也称为协变量调整法）是一种通过统计回归模型来减少实验方差的方法。它的核心思想是：利用已知的协变量（Covariates）来校正实验指标，从而更准确地估计实验效应。

与分层法的区别

分层法：在抽样或分析阶段，将用户划分为若干层（如高活跃/低活跃），然后在每一层内分别计算指标，最后加权合并。
控制变量法：不显式分层，而是在回归模型中直接引入协变量，通过统计方法调整实验组和对照组的差异。

实现方式

控制变量法通常通过回归模型实现，常见的方法：线性回归调整。

假设我们有一个实验指标 Y（如用户停留时长），实验分组变量 T（T=1 表示实验组，T=0 表示对照组），以及协变量 X（如用户历史活跃度）。我们可以拟合如下回归模型：

$Y = \beta_0 + \beta_1 T + \beta_2 X + \epsilon$

$\beta_1$ 就是调整后的实验效应（即实验组相比对照组的提升）。
$\beta_2$ 表示协变量 X 对 Y 的影响。

调整后的实验效应比直接比较实验组和对照组的均值更准确，因为它去除了 X 对 Y 的影响。

优势

        ✅ 减少方差：通过调整协变量，可以降低实验指标的波动，提高统计功效。
        ✅ 灵活性高：可以同时控制多个协变量（如活跃度、设备、地区等），而分层法通常只能按少数维度分层。
        ✅ 适用于小样本：即使某些分层样本量不足，回归模型仍能利用全局信息进行调整。

适用场景

        📌 用户异质性高：如果用户行为差异大（如高活跃用户和低活跃用户对指标影响不同），控制变量法比简单均值比较更稳健。
        📌 历史数据丰富：如果有实验前的用户行为数据（如CUPED），调整效果会更好。
        📌 多维度调整需求：当需要同时控制多个变量（如设备+地区+活跃度）时，回归模型比分层法更易实现。

案例

假设我们做一个实验，比较新推荐算法（实验组）和旧算法（对照组）的用户停留时长（单位：分钟）。

用户	实验组 `T`	停留时长 `Y`	历史活跃度 `X`
1	1 (实验组)	12	8
2	1 (实验组)	15	10
3	0 (对照组)	8	5
4	0 (对照组)	6	4

(1) 直接比较（未调整）

实验组均值：(12 + 15)/2 = 13.5，对照组均值：(8 + 6)/2 = 7，实验效应：13.5 - 7 = 6.5

但这里有个问题：实验组的用户历史活跃度（X）更高，可能本身就更活跃，导致 Y 偏高。

(2) 控制变量法（回归调整）

拟合回归模型： $Y = \beta_0 + \beta_1 T + \beta_2 X + \epsilon$

假设回归结果：

= 4.0（调整后的实验效应）
= 0.8（历史活跃度每增加1，停留时长增加0.8分钟）

调整后的实验效应（4.0）比直接比较（6.5）更准确，因为它去除了历史活跃度的影响。

3. 实验前数据校正法（CUPED）

CUPED是控制变量法的一种扩展，它利用实验前的历史数据来构建更精准的调整模型。

CUPED(Controlled-experiment Using Pre-Experiment Data) ：“基于实验前数据的受控实验方法”，通常简称为 “预实验数据控制法” 或 “实验前数据校正法”。

核心思想：通过历史数据（如用户实验前的活跃度、点击率等）构建协变量模型，减少实验指标的方差，提升统计敏感性。

原理：利用实验前数据修正实验指标。例如：

$Y_{\text{adjusted}} = Y - \theta \cdot (X - \overline{X})$

调整后指标 = 原始指标 - θ × (实验前指标 - 总体均值)

其中：

Y 是实验指标（如当前实验的停留时长）；
X 是实验前的历史数据（如过去7天的活跃度）；
$\theta$ 是回归系数，表示 X 对 Y 的影响程度；
$\overline{X}$ 是 X 的总体均值。

调整后的 $Y_{\text{adjusted}}$ 方差更小，实验敏感性更高。

效果：Netflix验证可降低方差高达50%，Bing实现相同统计功效所需样本量/时长减半。

与控制变量法的对比

CUPED是前瞻性校正（利用历史规律主动调整），而控制变量法是被动控制（通过统计模型抵消干扰）。

维度	控制变量法	CUPED
数据来源	实验期间收集的协变量（如用户属性、设备类型）	实验前历史数据（如过去30天的活跃度）
调整方式	通过回归模型直接控制协变量影响	用历史数据构建线性调整公式（Y-θ(X-X̄)）
核心目标	消除混杂变量干扰	降低指标方差，提升统计敏感性
计算复杂度	需拟合多变量回归模型	只需计算θ系数和均值，计算更轻量

案例

某视频平台测试「新推荐算法」对观看时长（Y）的影响，实验周期7天。已知：

用户历史活跃度（X）与观看时长强相关
实验组（新算法）和对照组（旧算法）各10,000用户，但随机分组后历史活跃度分布不均
目标指标（Y）：实验期间日均观看时长（分钟）
历史数据（X）：实验前30天的用户日均观看时长

1. 控制变量法应用

模型：Y = β₀ + β₁T + β₂X + ε
- T=1（实验组），X=历史日均观看时长（协变量）
结果：
- 实验组原始均值：25分钟，对照组原始均值：20分钟，原始差异：+5分钟
- 回归后调整效应（β₁）：+3.2分钟（因控制了X的影响）

2. CUPED应用

假设数据分布：

实验组历史观看时长均值（X̄₁）= 20分钟
对照组历史观看时长均值（X̄₀）= 16分钟
全体用户历史均值（X̄）= 18分钟

步骤1：计算历史数据统计量

统计量	公式/值	计算过程
历史总体均值（X̄）	全体用户X的均值	(10,000×20 + 10,000×16)/20,000 = 18
历史数据方差（Var(X)）	Σ(Xᵢ - X̄)²/n	假设计算得 Var(X) = 25
X与Y的协方差（Cov(X,Y)）	Σ(Xᵢ - X̄)(Yᵢ - Ȳ)/n	假设计算得 Cov(X,Y) = 17.5

步骤2：计算调整系数θ

物理意义：历史观看时长每增加1分钟，当前实验期观看时长预计增加0.7分钟。

咋理解？

若 Cov(X,Y)=17.5，Var(X)=25：

历史数据 X 每波动1个单位，X 和 Y 会共同波动 17.5/25=0.7 个单位。

这正是 θ=0.7 的含义。

步骤3：计算调整后指标 $Y_{adj}$

对每个用户计算： $Y_{adj} = Y - 0.7 \times (X - 18)$

示例用户计算：

实验组用户A：
- X = 25分钟（历史），Y = 30分钟（实验期）
- $Y_{adj}$ = 30 - 0.7×(25-18) = 25.1分钟
对照组用户B：
- X = 10分钟（历史），Y = 15分钟（实验期）
- Y_adj = 15 - 0.7×(10-18) = 20.6分钟

咋理解？

逐用户调整：对实验组和对照组的每一个用户，分别执行以下操作：

计算历史偏离值：(Xi−18)

衡量该用户历史表现与整体平均水平的差异。

示例：若用户A的 Xi=25，则偏离值为 25−18=7（活跃度高于均值）。

预测当前偏差：0.7×(Xi−18)

根据历史偏离值，预估当前指标因历史行为产生的偏差。

接上例：0.7×7=4.9 分钟（预测该用户当前指标因历史活跃度高而偏高4.9分钟）。

修正观测值：Yi−4.9

从实际观测值中扣除历史行为带来的预期偏差，得到调整后指标 $Y_{adj}$ 。

（2）设计配对实验

核心思想：消除用户个体差异，直接比较同一用户对实验组/对照组的反馈。

代表方法：交错设计 (Interleaving)

流程：
1. 将实验组（A）和对照组（B）的推荐结果混合（如交错排序）；
2. 同一用户同时看到混合列表（如A-B-A-B）；
3. 根据用户交互行为（点击/停留）判断组间优劣。
优势：方差显著降低（因用户自身变异性被控制）。
问题：
- 结果展示顺序可能引入偏差（如位置效应）
- 需确保实验组/对照组内容无互斥性冲突

典型应用场景：搜索排名算法优化；推荐系统策略迭代。

（3）总结对比

方法	核心机制	适用条件
分层法	组内同质化 + 分层加权	大样本、明确分层维度
CUPED	实验前数据校正指标	历史数据丰富且可靠
配对实验	同一用户对比两组方案	无顺序干扰的交互场景

六、定向触发技术和评估

1. 核心概念

想象你在游乐场测试新冰淇淋口味。传统方法是给所有游客发问卷（全量实验），但很多人根本不吃冰淇淋。更聪明的做法是：只调查那些主动买冰淇淋的人（触发用户），这样数据更精准。

2. 为什么能提高灵敏度？（关键原理）

噪声过滤：就像用筛子过滤杂质，排除不受影响的用户（如不结账的用户）
方差减小：触发用户的指标波动更小（公式示例：σ=√(p(1-p))，当p从5%提升到50%，σ从0.22降到0.25）
样本量需求降低：6400个触发用户 vs 64000全量用户（电商案例）

最小样本量计算公式 $n = \frac{16\sigma^2}{\Delta^2}$

σ²：指标方差（波动程度）

Δ：希望检测的最小变化量

16：95%置信度+80%功效的常数

场景1：全量用户测试
原始转化率 p = 5% = 0.05
方差 σ² = 0.05×(1-0.05) = 0.0475
检测Δ=5%的变化时：
n = 16×0.0475/(0.05×0.05)² = 121,600人
场景2：触发用户测试（仅分析结账用户）
触发比例 = 10%
触发用户转化率 p = 50% = 0.5
方差 σ² = 0.5×(1-0.5) = 0.25
检测Δ=5%的变化时：
n = 16×0.25/(0.5×0.05)² = 6,400人
等效全量用户 = 6,400 / 10% = 64,000人

用外卖APP案例解释：测试新的"加购按钮"颜色

全量测试需10万用户（点击率3%±1%）

仅测试实际点击加购按钮的用户（占15%）→ 只需测试1,500触发用户（等效全量1万）

节省90%测试时间

3. 触发类型

① 特征触发：基于用户固有属性进行实验分组

地域（一线/二线城市）
人口统计（性别/年龄）
设备类型（iOS/Android）
用户活跃度（周活跃/月活跃）

必须使用实验开始前的历史数据定义特征，需要持续追踪"特征漂移"用户。

案例：电商平台会员价测试

触发条件：过去30天购买≥3次的用户
特殊处理：
- 用户A：实验初期符合条件（第1周购买4次）
- 用户A：第2周降级为普通用户
- → 仍须包含该用户所有行为数据
常见错误：
- 错误：排除实验期间特征变化的用户
- 正确：只要初始符合条件，后续所有行为都应纳入

② 行为触发

实施流程

定义关键行为节点（如：红包展示、个人页访问）
建立实时触发监控系统
记录首次触发时间点
追踪后续所有关联行为

典型场景

实验类型	触发条件	需记录行为链
红包策略	看到红包弹窗	查看→点击→使用
结账流程	点击"去支付"按钮	每一步停留时长
视频推荐	播放超过10秒	后续完播率

特殊注意事项

反事实记录：对照组也需记录"假设触发"的行为路径（对对照组用户，在满足触发条件时（尽管未实际展示实验改动），仍记录其后续行为）
时间窗口：合理定义行为关联期（如触发后24小时内的行为）
漏斗效应：注意区分自然流失与实验影响

对比

维度	特征触发	行为触发
适用场景	长期用户分层	即时交互场景
数据准备	需要历史数据预处理	可实时判断
用户确定性	实验前已知目标用户	行为发生时才确认
系统开销	较低（一次性分组）	较高（需实时计算）
典型应用	地域定价策略	结账流程优化

数据一致性保障

特征触发：固化实验开始时的用户快照
行为触发：建立全局唯一的触发事件ID

maybe可以混合使用？

先通过特征触发筛选用户群，再结合行为触发精准捕捉关键节点
例：针对iOS高端用户（特征）测试新的支付按钮（行为）

4. 常见陷阱

错误做法：某银行APP修改转账流程后...
× 只分析完成转账的用户（漏掉中途放弃的用户）
√ 应包含所有点击转账按钮的用户

5. 效果计算

全局影响 = (触发提升率) × (触发用户贡献度)
案例：

机票预订流程优化
触发用户转化率提升10%（从20%→22%）
但触发用户仅占整体流量的15%
真实全局影响：10% × (15%用户贡献40%收入) = 4%

6. 实施检查清单

SRM检验：触发组/对照组人数比例是否异常
AA测试：未触发用户指标应无显著差异
反事实记录：对照组也需记录"假设触发"的数据

7. 现实权衡

某社交APP发现：全量测试需要200万用户（3周时间），触发测试（仅发布动态用户）只需20万用户（5天），但需注意触发用户仅占8%，需确保其行为具有代表性。

触发技术就像显微镜的调焦旋钮，通过精确聚焦关键用户群体，更清晰地观察到实验的真实效果。

七、补充说明

1. 协变量（Covariate）是什么

协变量（Covariate）是指在实验或统计分析中，可能对结果变量（因变量）产生影响的其他变量。它的作用是帮助更准确地估计实验效应，减少误差。

1. 协变量的核心特点

✅ 与因变量相关：协变量通常会影响实验结果（如用户历史活跃度影响当前停留时长）。
✅ 不是实验变量：它不是实验直接操纵的变量（如实验组/对照组），但可能干扰实验结果。
✅ 可用于调整分析：通过统计方法（如回归、CUPED）控制协变量，能提高实验准确性。

2. 协变量的常见例子

场景	因变量（Y）	实验变量（T）	协变量（X）
推荐算法实验	用户点击率	新算法 vs. 旧算法	用户历史点击率、设备类型
广告投放实验	广告转化率	广告A vs. 广告B	用户地理位置、过往购买行为
留存率优化实验	7日留存率	新功能 vs. 旧功能	用户活跃度、注册时长

为什么需要协变量？
如果实验组和对照组的协变量分布不均（如实验组高活跃用户更多），直接比较结果会产生偏差。通过控制协变量，可以更公平地比较实验效果。

3. 协变量 vs. 混淆变量

协变量（Covariate）：
- 泛指所有可能影响因变量的额外变量，无论是否与实验变量相关。
- 用于提高模型精度（如回归分析中的控制变量）。
混淆变量（Confounder）：
- 特指既影响实验变量又影响因变量的变量，会导致虚假因果关联。
- 必须通过随机化或统计方法（如分层、回归）控制。

举例：
在研究“吸烟（T）是否导致肺癌（Y）”时：

协变量：年龄（年龄越大，肺癌风险越高，但年龄与吸烟无关）。
混淆变量：职业（矿工吸烟率高，同时接触致癌物，直接导致肺癌）。

4. 如何控制协变量？

(1) 实验设计阶段

随机化：通过随机分组，使协变量在实验组/对照组均衡分布（如A/B测试）。
分层抽样：按协变量分层后随机分配（如确保高/低活跃用户比例一致）。

(2) 数据分析阶段

回归调整：在回归模型中直接加入协变量：

$Y = \beta_0 + \beta_1 T + \beta_2 X + \varepsilon$

其中，X 是协变量，β₁ 是调整后的实验效应。
CUPED：利用实验前数据（如历史活跃度）调整当前指标：

$Y_{\text{adjusted}} = Y - \theta (X - \bar{X})$

5. 协变量的实际应用案例

问题：某社交App测试新界面（实验组）对用户停留时长（Y）的影响，但发现：

实验组中iOS用户占比更高，而iOS用户本身停留时间更长。
直接比较会高估新界面的效果。

解决方案：

识别协变量：设备类型（iOS/Android）、用户历史活跃度。

回归调整：

停留时长 ~ 实验分组 + 设备类型 + 历史活跃度

结果：回归系数会剔除设备类型和活跃度的影响，得到更纯净的实验效应。

总结

协变量是影响实验结果的额外变量，但不是实验操纵的核心变量。
通过控制协变量（如回归、CUPED），可以减少实验误差，提升结论可靠性。
与混淆变量不同，协变量不一定与实验变量相关，但均需在分析中考虑。

一句话理解：协变量就是那些“虽然不直接研究它，但不管它就会干扰实验结果”的变量！

2. 协方差（Covariance）是什么

1. 协方差是啥？

专业解释：协方差（Covariance）是衡量两个随机变量联合变化趋势的统计量，用于描述它们的线性相关性。

设 X 和 Y 是两个随机变量，其协方差定义为：

$\text{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]$

其中：

$\mathbb{E}[X]$ 和 $\mathbb{E}[Y]$ 分别是 X 和 Y 的期望（均值）。
$\mathbb{E}[\cdot]$ 表示期望运算。

样本协方差（基于观测数据）的计算公式为：

$\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})$

其中：

$\bar{X}, \bar{Y}$ 是样本均值。
$n$ 是样本量。

协方差就像两个小朋友的“默契程度”：

如果两个小朋友总是一起变高或一起变矮，他们的“默契”很强（协方差是正数）。

如果一个小朋友长高，另一个却变矮，他们“反着来”（协方差是负数）。

如果他们的身高变化完全没关系，协方差接近零。

例子：

正协方差：冰淇淋销量（A）和天气温度（B）——天越热，冰淇淋卖得越多（A↑, B↑）。

负协方差：雨伞销量（A）和晴天天数（B）——晴天越多，雨伞卖得越少（A↓, B↑）。

2. 协方差的性质

符号决定相关性：
- 正协方差（ $\text{Cov}(X, Y) > 0$ ）：X 和 Y 倾向于同向变化（X 增大时 Y 也增大）。
- 负协方差（ $\text{Cov}(X, Y) < 0$ ）：X 和 Y 倾向于反向变化（X 增大时 Y 减小）。
- 零协方差（ $\text{Cov}(X, Y) = 0$ ）：X 和 Y 无线性相关性（但不一定独立）。
与方差的关系：协方差是方差的推广，因为 $\text{Var}(X) = \text{Cov}(X, X)$ 。
量纲依赖：协方差的数值受变量单位影响（如 X 是“米”，Y 是“千克”时，协方差的单位是“米·千克”）。因此，标准化后的协方差（即相关系数）更常用：

其中 $\sigma_X, \sigma_Y$ 是标准差。

3. 协方差在统计推断中的作用

回归分析：在最小二乘法中，回归系数 $\beta$ 的估计依赖于 $\text{Cov}(X, Y)$ 。
方差估计（Delta方法）：当估计比率 $\frac{\bar{X}}{\bar{Y}}$ 的方差时，需考虑 $\text{Cov}(\bar{X}, \bar{Y})$ 以修正偏差。
多元统计分析：协方差矩阵（Covariance Matrix）描述多个变量间的联合变化，是PCA、因子分析等的基础。

4. 为啥要算协方差？

在算点击率的时候：

A = 每个用户的点击量（比如用户1点1次，用户2点3次…）。
B = 每个用户的浏览量（比如用户1看10页，用户2看20页…）。

问题：如果用户看的页面越多（B↑），通常点击也越多（A↑），那么A和B就是正相关的！这时候，如果只算A和B各自的方差，会漏掉它们“一起变”的关系，导致点击率（A/B）的方差算不准。

在点击率中：

如果协方差是正数（通常如此），说明浏览越多的人，点击也越多。
如果不考虑协方差，会低估点击率的波动（比如误以为点击率很稳定，其实不是！）。

5. 案例

假设班级有3个小朋友，统计他们：

A = 每天吃几块糖（点击量）
B = 每天喝几杯水（浏览量）

小朋友	糖（A）	水（B）
小红	1	2
小蓝	3	4
小绿	2	3

步骤1：算平均值

平均糖 $\bar{A} = \frac{1+3+2}{3} = 2$
平均水 $\bar{B} = \frac{2+4+3}{3} = 3$

步骤2：算协方差

$\text{cov}(A,B) = \frac{(A_1-\bar{A})(B_1-\bar{B}) + (A_2-\bar{A})(B_2-\bar{B}) + \cdots}{n-1}$

计算：

小红：(1-2)(2-3) = (-1)(-1) = 1
小蓝：(3-2)(4-3) = (1)(1) = 1
小绿：(2-2)(3-3) = 0

协方差 =

结论：协方差=1（正数），说明吃糖多的孩子，喝水也多！

AB实验的灵敏度

一、为什么灵敏度是实验系统的生命线？

​1. 实验灵敏度的定义​

​2. 为什么大公司特别关注灵敏度？​​

​3. 灵敏度低的后果​

​4. 提高灵敏度的价值​

二、如何提升实验灵敏度？

​1. 提升灵敏度的两个统计学方法

​2. 降低方差σ²的三大方法

​​​(1) 选择方差更小的指标​

​​(2) 优化实验参与单元​

​​(3) 优化实验分组方法​

三、选择指标

1. 选择方差较小的评估指标

2. 标准化评估指标

四、选择实验参与对象

1. 采用更细粒度的实验单元​

2. 使用触发分析（聚焦有效样本）​​

五、选择实验分组

（1）使用分层、控制变量或CUPED方法

1. 分层法​

2. ​​控制变量法

3. ​​实验前数据校正法（​CUPED）

（2）设计配对实验​​

​​（3）总结对比​​