告别Zoo of Factor：净化因子分析中的数据挖掘与p值操纵-EW帮帮网

告别Zoo of Factor：净化因子分析中的数据挖掘与p值操纵 – 潘登同学的Quant笔记

文章目录

- 告别Zoo of Factor：净化因子分析中的数据挖掘与p值操纵 -- 潘登同学的Quant笔记
背景
如何解决数据挖掘与p值操纵的问题？
参考文献

背景

Cochrane的铿锵三问

2011年，时任美国金融协会（AFA）主席的John Cochrane在他的主席演讲调侃了 zoo of factors，并提出了铿锵三问。

哪些特征（characteristics）对解释预期收益提供了增量信息？
如何理解异象变量之间的关系？
哪些因子是真正重要的？

“How many of these factors are really important?”

这个问题引发了关于随机贴现因子（SDF）是否有稀疏表达（sparsity）的大讨论。由资产定价理论可知，SDF 可以被表示为一系列资产的线性组合（Hansen and Richard 1987）：

$m = 1 - w^{'} r$
式中m为随机贴现因子，N维向量r表示资产的超额收益率，N维向量w表示它们在 SDF 中的权重。理论上我们可以用个股作为资产来构造（span）SDF。但由于参数估计问题，常见的做法是使用投资组合（即因子）代替个股作为资产。因此，Cochrane 的第三个问题就可以重述为，m的表达式中到底需要多少个因子。

关于这个问题，稀疏 vs. 稠密两派均有人支持：

稀疏派：认为 SDF 有稀疏表达的研究包括使用正则化（进行变量选择）或者降维技术来估计低维 SDF
稠密派：认为 SDF 没有稀疏表达的研究则指出，在估计 SDF 时应该考虑尽可能多的因子。(机器学习)

首先来看稀疏 SDF 的相关研究。为寻求低维 SDF，一个自然的想法就是在模型中稀疏性约束（sparsity constraint）。这可以通过加入 $l_1$ 正则化来实现。Feng, Giglio and Xiu (2020) 的研究展示了每个因子被模型选择的概率。该文的实证发现显示，在 120 多个候选因子中只有 17 个因子是有用的，而其他大多数因子则是冗余或无用的。

在这里插入图片描述

除了变量选择之外，另一个思路是降维（dimension reduction）。近年来诸多基于 PCA 及其变化的方法已经将这条研究线发挥的淋漓尽致。这其中一篇代表作是 Lettau and Pelger (2020)。该文认为传统 PCA 方法仅仅利用了收益率的二阶矩信息，丢失掉了原始因子和资产收益率在截面上的关系，即一阶矩信息。因此，它在 PCA 的 loss function 中加入了一阶矩信息，进而提出了 PR-PCA（risk premium PCA）估计量。

实证分析表明，RP-PCA 在绝大多数情况下都优于 PCA，且可以将大量因子涵盖的信息聚合到 5 个低维主成分上。其中，第一主成分有非常高的方差和较为显著的平均收益，表现非常类似市场因子；第三主成分可视作价值因子；第五主成分近似于短期反转因子。而第二和第四主成分更偏重是诸多原始因子的组合。

谈到非稀疏(稠密) SDF，不得不提的另一个 research agenda 就是 Bryan Kelly 的“复杂度美德”系列文章。在最新的 Didisheim et al. (2023) 中，几位作者将复杂度美德推广到了截面定价模型。该文的结果显示，来自因子定价模型的样本外定价误差会随着因子数量的增加而减少。无疑，这种偏好复杂度的观点挑战了传统的 APT（Ross 1976），即少量的风险因子应该捕捉资产之间的风险和收益率的权衡。然而，用该文自己的话说，即使不存在套利且真实 SDF 存在，人们也能够在实证中持续地挖出新的、未被已有因子定价的因子（或异象），而将它们加到 SDF 中会持续改善样本外的表现。

该文的理论和实证结果对业界的启发是，随着纳入投资组合的因子个数的增多，其样本外的风险调整后收益会提高。也就是说，对投资者来说，最优的 MVE 组合是使用大量因子，从而提高样本外的夏普比率。此外，Kelly 他们的发现对于 zoo of factors 也有新的解读。即实证中的大量异象既不是令人头疼的难题，更不意味着学术界的 p-hacking 风气盛行（Jensen, Kelly and Pedersen 2023）。反之，它是在复杂的资产定价环境中的必然结果。

近年来，机器学习领域一个令人兴奋的发现就是样本外误差随模型复杂度变化的 double descend 现象。

Belkin et al (2019) 指出，当模型复杂度突破样本个数这个“禁忌之地”后，神奇的事情发生了：样本外总误差并没有“爆炸”，而是随着复杂度的提升单调下降。正因为在样本个数两侧都出现了误差单调下降的情况，这个现象被称为 double descent。

在这里插入图片描述

这背后的直觉解释是：当协变量个数超过样本个数的时候，样本内的解是不唯一的，而最优的解可以理解为让参数的方差最小的那个解。随着变量越来越多，最优解的方差总能单调下降。再来看偏差，通常来说，偏差确实会随着复杂度的提升而增加。但是所有模型都是真实 DGP 的某个 mis-specified 版本。当存在模型设定偏误的时候，可以证明当变量个数超过样本个数时，偏差也会在一定范围内随着复杂度而下降。因此，二者的综合结果就是模型在样本外的误差表现会随复杂度的上升而下降。对于 double descent 现象背后的理论，感兴趣的小伙伴请参考 Hastie et al. (2022)。

在实证资产定价方面， Kelly, Malamud and Zhou (forthcoming) 将上述理念应用到了美股择时之中，并发现了类似的 double descent 现象：当采用协变量个数远远超过样本个数的模型时，样本外的夏普比率提升了。

Harvey

AFA前主席 Campbell Harvey 于 2017 年协会年会上做的题为《The Scientific Outlook in Financial Economics》的主席报告。

以一个学者应有的科学态度和操守，Dr. Harvey 深刻剖析了近年来西方学术界在收益率风险多因子模型研究中的一个错误趋势：

为了竞逐在顶级期刊上发表文章，学者们过度追求因子在原假设下的低 p-value 值（即统计意义上“显著”）；不幸的是，由于有意或无意的数据操纵、使用不严谨的统计检验手段、错误地解释 p-value 传达的意义、以及忽视因子本身的业务含义，很多在功利心驱使下被创造出来的收益率因子在实际投资中根本站不住脚。

在这个急功近利的时代，Dr. Harvey 大声呼吁学术界应该后退一步（take a step back），重新审视一下学术氛围和文化，真正做到以推动人们对金融经济学的正确认知为己任。这无疑是量化投资领域的福音。此外，Dr. Harvey 还提出了贝叶斯 p-value 的概念，它可以正确地评价因子的有效性。

对于股票收益率因子模型领域，因为我们希望找到可以带来超额正收益的因子，所以 p-value 一般指的是上面第一种定义，即 p-value = prob(X ≥ x|H)。例如，当 p-value = 0.05 时，我们说在原假设 H 下观测到不小于 x 的超额收益的条件概率为 5%；当 p-value = 0.01 时，我们说在原假设 H 下观测到不小于 x 的超额收益的条件概率仅有 1%。显然，p-value 越小说明在原假设 H 下观测到不小于 x 的超额收益的可能性越低，即发生“不小于 x 超额收益”这个事件和原假设 H 越不相符，我们越倾向于拒绝原假设。

当“因子 A 对解释股票超额收益没有作用”这个原假设被拒绝时，人们便会推论出“因子 A 能够解释一部分股票的超额收益”。如此，人们习惯把“p-value 越低”和“因子 A 在解释超额收益上越有效”等价起来了。这就是为什么我们都喜欢低的 p-value。

然而，低的 p-value 仅仅是某个因子有效的必要条件；但是它远不是充分条件。有意或者无意的数据操纵（data manipulation）以及不完善的统计检验所得到的低的 p-value 在说明因子是否有效方面毫无作用。

在如今的金融经济学领域，这样的做法无奈的导致了一种发表偏差（publication bias）：学者们更愿意把时间和精力花到可以利用各种手段来找到低 p-value 的因子上，只愿意发表“看上去最显著”的研究成果。他们不愿意冒险来研究“无效的因子”。

从推动学科发展的角度，“无效的因子”和“有效的因子”同样重要。如果我们能够确切的证明某个因子就是无法带来超额收益，那么它对实际中选股也是非常有价值的（我们可以放心的避开该因子）。然而，在追求超低 p-value 之风下，学者不愿意进行这样的研究，因为顶级期刊上鲜有它们的容身之处。

下图出自 Harvey, Liu, and Zhu (2016)。他们分析了 1963 年到 2012 年间发表在金融领域最顶级期刊上的 300 多个因子模型的 t-statistics的分布情况。这个分布清晰地说明了学术界的发表偏差。比如，t-statistics 取值在 2 到 2.57 的文章数和 t-statistics 取值在 2.57 到 3.14 的文章数十分接近。要知道，t-statistics = 2.57 对应的 p-value 大概是 0.005；而 t-statistics = 3 对应的 p-value 则是 0.001！显然，找到 p-value = 0.001 的因子要比找到 p-value = 0.005 的因子要困难得多，但它们的文章数量却大致相当。这只能说明在顶级期刊发表文章时，学者们倾向于更低的 p-value。

在这里插入图片描述

正确认识P-value

人们对 p-value 的正确含义充满了误解。为了说明这一点，Dr. Harvey 给出了一个假想的例子。假设一个选股因子为董事会的规模。由此我们把上市公司分为两类：小型董事会的公司和大型董事会的公司。原假设 H 是：董事会规模与超额收益无关。比较这两类股票的收益率均值，我们得到该因子的 p-value 小于 0.01。那么，下面 4 种关于 p-value 的陈述哪些是正确的呢？

我们证明了原假设是错误的。
我们找到了原假设为真的概率，即 $p ro b (H ∣ D)$ 。
我们证明了小型董事会的公司比大型董事会的公司有更高的超额收益。
我们可以推断出“小型董事会的公司比大型董事会的公司有更高的超额收益”为真的概率，即 $prob(H^c|D)$ 。

怎么样？你觉着上面四个陈述中有几个是正确的？答案是：它们都是错的。

p-value 代表着原假设下观测到某（极端）事件的条件概率。以 D 代表极端事件，则 p-value = $p ro b (D ∣ H)$ 。从它的定义出发，p-value 不代表原假设或者备择假设是否为真实的。因此，上述中的 1 和 3 都是错的。

p-value 是原假设 H 成立下，D 发生的条件概率，即 $p ro b (D ∣ H)$ ；它不是 $p ro b (H ∣ D)$ ，即 D 发生时 H 为真的条件概率。因此 2 也是错的。同理，p-value 也和 $p(H^c|D)$ —— $H^c$ 代表备择假设——没有任何关系，因此 4 也是错的。

在这个例子中，最重要的信息就是 p-value 等于 $p ro b (D ∣ H)$ ；而人们往往把它和 $p ro b (H ∣ D)$ 混淆，这是因为我们太想知道 $p ro b (H ∣ D)$ 了，因为它告诉我们原假设 H 在 D 发生时为真的条件概率。然而 p-value 不等于它。把 $p ro b (D ∣ H)$ 当成 $p ro b (H ∣ D)$ 是一个非常严重的错误。来看一个形象的例子（出自 Carver 1978）：

定义两个事件：人死了，记为 D；人上吊，记为 H。那么，prob(D|H) 表示人因为上吊而死的概率。这个概率可能是很高的，比如 0.97。让我们把 D 和 H 的位置调换一下，即 prob(H|D)，则问题变成了在人死了的前提下，他是因为上吊而死的条件概率。怎么样？在这个问题中，因为我们知道人的死法有很多种，比如上吊、跳楼、服毒、割腕……我们不会将 prob(D|H) 的取值等价于 prob(H|D) 而脱口而出 0.97。在这个问题中，prob(D|H) ≠ prob(H|D) 显而易见。然而当我们解释因子分析的 p-value 时，却总绕不过弯，总将它俩混为一谈。

最后，来看美国统计协会（American Statistical Association）关于 p-value 的 6 个准则（Wasserstein and Lazar 2016）：

P-values can indicate how incompatible the data are with a specified statistical model.(P-value 可以表示数据和给定统计模型的不兼容程度。)
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.(P-value 不表示所研究的假设为真的概率；同时，它也不表示数据仅由随机因素产生的概率。)
cientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.(科学结论和商业或政策决策不应只根据 P-value 是否通过给定的阈值而确定。)
Proper inference requires full reporting and transparency.(全面的分析报告和完全的透明度是适当的统计推断的必要前提。（这说的就是要摒除 p-hacking 的问题。）)
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.(P-value 或统计上的重要性并不能衡量效用的大小或结果的重要性。（这是我们通常说的统计上显著未必具有重要的经济意义——economic significance）)
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.(关于模型或者假设是否有效，p-value 本身并不提供足够的证据。)

HXZ的 Replicating Anomalies

几年前，这三位教授(侯恪惟、薛辰以及张橹)在一篇题为 Replicating Anomalies 的文章中惊人的复现了学术界的 447 个选股异象（anomalies），涵盖动量（57个）、价值/成长（68个）、投资（38个）、盈利（79个）、无形资产（103个）、以及交易摩擦（102个）六大类。对于这 447 个异象，当排除了微小市值股票的影响后，其中 286 个（64%）不再显著（在 5% 的显著性水平下，下同）；如果按照 Harvey, Liu and Zhu (2016) 的建议把 t-statistic 阈值提升到 3.0，则其中 380 个（85%）异象不再显著；最后，如果使用 Hou, Xue and Zhang (2015) 提出的 4 因子模型作为定价模型，那么其中 436 个（98%）异象不再显著，剩余存活的仅有 11 个。

多因子模型是 empirical asset pricing 的一种常见方法；其研究的核心问题是找到一组能够解释股票预期收益率截面差异的因子。假使我们根据基本面特征或量价指标（或 whatever，下面统称为特征）挑选出一揽子股票并构建多空投资组合；如果该组合的收益率无法被用于 asset pricing 的多因子模型解释，则称该特征为一个异象（anomaly）。

在数学上，这意味着该组合有模型无法解释的 α 收益率：以使用该特征构建的多空组合收益率为被解释变量放在回归方程的左侧，以多因子模型中因子收益率为解释变量放在回归方程的右边，进行时序回归，回归的截距项就是 α 收益率；如果 α 显著不为零，则说明该特征是一个异象。

产生如此多的异象主要有两个原因：

第一个也是最主要的一个原因是数据挖掘。在 p-hacking 的激励和 multiple testing 的盛行下，大量所谓的异象在样本内被挖出。Harvey, Liu and Zhu (2016) 研究了学术界发表的 316 个所谓显著异象，并指出再考虑了 multiple testing 的影响后，异象收益率的 t-statistic 至少要超过 3.0（而非人们传统认为的 5% 的显著性水平对应的 2.0）才有可能是真正有效、而非来自运气。
第二个原因和回归方程右侧的定价模型有关。比如，如果仅以 CAPM 为定价模型，那么很多异象都能获得 CAPM 无法解释的 α 收益率；随着定价模型中因子个数的增加，更多的异象变得不再显著。然而，真正的定价模型是未知的。

一个因子应该能够对解释资产（可以是个股也可以是个股组成的投资组合）预期收益率的截面差异有显著的增量贡献。如果异象满足上述条件，它就可以被称之为一个因子。在这个定义中，有两个关键词值得解读，它们是“解释”和“增量贡献”：

“解释”说明这个异象（或者潜在因子）已经从回归方程的左侧移到了回归方程的右侧，它被用来当作解释变量来对资产的收益率做回归，考察它是否能够解释预期收益率的截面差异。
“增量贡献”暗示着同时考虑多个异象（因子）时，由于它们之间不完全独立，需要排除相关性的影响。

举个例子。我们知道价值因子是一个靠谱的选股因子。然而，很多指标 —— 比如 E/P 或 B/P 都可以用来构建价值因子的 High-Minus-Low 组合。如果同时基于 E/P 和 B/P 构建了 HML_EP 和 HML_BP 两个因子，它们之间的相关性注定是非常高的。一旦选择了其中之一作为价值因子，另一个对于资产预期收益率截面差异解释能力的增量贡献就不再显著、无法成为因子。

从资产定价的理论角度来说，多因子模型中的因子之间应尽可能独立；但是从投资实践来说，上面例子中的 E/P 和 B/P 可以被同时使用构建一个 HML 价值因子，这有助于降低波动且增加因子的鲁棒性。

在从一揽子异象中筛选因子时，常见的做法是将它们同时作为回归分析中的解释变量，采用 Fama-MacBeth Regression（Fama and MacBeth 1973）来分析这些异象的收益率是否显著。在这方面，Green, Hand and Zhang (2017) 是一个很好的例子。

Green, Hand and Zhang (2017) 使用 Fama-MacBeth Regression 同时检验 94 个异象，并考虑了 multiple testing 对 t-statistic 以及 p-value 造成的影响，最终发现仅有 12 个异象可能成为潜在的因子：1. 账面市值比；2. 现金；3. 分析师数量的变化；4. 盈余公告宣告收益；5. 一个月的动量；6. 六个月动量的变化；7. 盈利同比增长的季度数量；8. 年度研发支出占市值的比重；9. 收益波动性；10. 股票换手率；11. 股票换手率的波动性；12. 零交易的天数。

上述结果告诉我们：在修正 multiple testing 的数据挖掘、以及考察了不同异象的相关性之后，真正能够解释资产预期收益率截面差异的独立因子少之又少。

如何解决数据挖掘与p值操纵的问题？

多重假设检验（multiple hypothesis testing）

在单一假设检验中，通常以 0.05 作为 p-value 的阈值来判断是否接受原假设，其对应的 t-statistic 为 2.0。这也早已成为实证资产定价中挖因子的依据。然而多重假设检验的存在使得低 p-value 无法准确说明因子是否有效。假设我们同时检验 100 个独立的因子并发现某个因子的 t-statistic = 2.0。在这种情况下，我们不能说该因子在 0.05 的显著性水平下显著。这是因为哪怕这 100 个原假设都为真（即它们的超额收益都为零），那么仅仅靠运气，其中出现 t-statistic 大于 2.0 的概率高达 99%。如果仍然按照传统意义上的 2.0 作为 t-statistic 的阈值来评价因子是否显著，注定会有很多伪发现（false discoveries 或 false rejections），即第 I 类错误。因此，正确处理多重假设检验的影响成为实证资产定价的关键。

在这方面，学术界的研究成果可以被划分为两大类，即频率主义方法和贝叶斯方法。为了排除运气（噪声）的影响，频率主义方法以控制第 I 类错误为目标，通过增大标准误（standard errors）来修正单个因子的显著性水平。直觉上说，增大标准误意味着增大置信区间，因而这使得单个检验的显著性门槛更加严格：只有当一个因子原始的 t-statistic （远）超过传统意义上的 2.0 水平，其才有可能在被修正后依然显著。

频率主义方法

早期的方法多属于频率主义方法，目标是控制第 I 类错误。在统计学中，族错误率（family-wise error rate，简称 FWER）、伪发现率（false discovery rate，简称 FDR）以及伪发现比例（false discovery proportion，简称 FDP）是常见的第 I 类错误指标。

在这里插入图片描述

假如一共有 $K$ 个因子，其中 $K_0$ 个原假设为真， $K_1$ 个原假设为假。根据事先选定的显著性水平（比如 0.05），共有 $L$ 个原假设被拒绝了，其中包括 $T_1$ 个真实的显著因子（true discoveries）和 $F_1$ 个虚假的显著因子（伪发现）。接下来利用 $F_1$ 和 $L$ 分别定义族错误率、伪发现率以及伪发现比例。

族错误率 FWER 定义为出现至少一个伪发现的概率，即 $prob(F_1>1)$ 。在给定的显著性水平 $\alpha$ 下，控制 FWER 的数学表达式为 $prob(F_1>1)<\alpha$ 。不难看出，控制族错误率对单个假设来说相当严格，所以会大大提升第 II 类错误。针对族错误率，最早的算法包括 Bonferroni (1936) 和 Holm (1979) 修正，它们均是直接修正单一假设检验的 p-value 以实现控制族错误率的目的：
$p_i^\text{Bonferroni}=\min\{Kp_i,1\},i=1,\cdots,K,$
其中 $p_i$ 和分别代表第 $p_i^\text{Bonferroni}$ 个因子原始和经过修正后的 p-value；以及
$\min \{ \max \{ ( K - j + 1 ) p _ { j } \} , 1 \} , i = 1 , \cdots , K ,$
其中 $p _ { i } ^ { H o l m }$ 第 i 个因子经修正后的 p-value。需要说明的是，Holm (1979) 按照因子原始 p-value 从小到大依次修正。无论是哪种方法，由于修正后的 p-value 往往大于原始 p-value（即修正后的 t-statistic 会比原始 t-statistic 更低），因此降低了因子的显著性（即很多因子不再显著）。

近年来，还有一些以控制族错误率为目标的算法被提出，包括 White (2000) 的 bootstrap reality check 方法和 Romano and Wolf (2005, 2007) 的 StepM、k-StepM 方法等。这三种算法均通过自助法（bootstrap）对因子收益率数据进行重采样，并在此基础上结合正交化求出 t-statistic 的阈值，因而无需对数据的分布做任何假设。

在上述描述中，正交化和自助法两个词反映了这些算法以及频率主义方法的核心。正交化的作用是消除因子在样本内的收益率均值，使因子收益率在时序上成为均值为零的随机扰动；自助法的作用是通过对正交化后的收益率进行采样从而得到仅靠运气成分而造成的检验统计量的分布，以此就可以判断原始因子的显著性是真实的还是仅仅是噪声造成的。值得一提的是，由于太过严苛，以控制族错误率为目标并不是很适合金融领域。

贝叶斯方法

为了竞逐在顶级期刊上发表文章，学者们通过各种数据窥探手段过度追求因子的低 p-value（即 p-hacking）。由于有意或无意的数据操纵、使用不严谨的统计检验手段、错误地理解 p-value 的含义、以及忽视因子的内在经济学逻辑，很多在功利心驱使下被创造出来的因子在实际投资中根本站不住脚（McLean and Pontiff 2016）。此外，发源于因子投资、在业界早已成为主流的 Smart Beta ETF 基金也饱受 p-hacking 问题困扰。Huang, Song and Xiang (forthcoming) 记录了这类基金被推出后其表现相较于其样本内表现急剧下滑的实证发现，并指出过度的数据挖掘是这背后的罪魁祸首。

要论为学术界敲响多重假设检验警钟的代表性论文，Harvey, Liu and Zhu (2016) 当仁不让。该文研究了学术界发表的 316 个因子。以控制伪发现率为目标，该文发现只有一个因子原始 t-statistic 超过 3.0 时，其才在排除多重假设检验的影响后依然是有效的。除此之外，该文指出在全部三百多个因子中，伪发现的比例高达 27%。

在试图消除多重假设检验的影响时，除了选择合适的统计手段外，另一个必须面对的问题是到底有多少个原假设被同时检验（即有多少因子被挖出）。这个问题之所以重要，是因为基数决定了运气的多寡。比如，检验 100 个和 10000 个因子相比，万里挑一的肯定要比百里挑一的更显著。所以，只有知道学术界到底挖了多少因子，才有可能准确修正多重假设检验问题。

Harvey, Liu and Zhu (2016) 考虑了 300 多个因子、Hou, Xue and Zhang (2020) 复现了 450 个左右因子，它们是否就是学术界挖掘的全部呢？不幸的是，答案是否定的。因为这些仅仅是被发表出来的因子，而学术界在这背后到底尝试了额外多少因子是无从而知的。由于已发表的因子是所有被研究因子的子集，因此我们可以判断 Harvey, Liu and Zhu (2016) 发现的 3.0 阈值仅仅是保守估计。幸运的是，Chordia, Goyal and Saretto (2020) 创造性使用模拟推断出基于研究的因子集的统计特征如何消除多重假设检验的影响。该文将 t-statistic 的阈值进一步提升至 3.4 以上，且模拟计算显示，伪发现比例高达 45.3%。

与频率主义方法相对应的，是贝叶斯方法。贝叶斯方法允许人们引入从经济学理论得出的关于因子是否为真的先验。但缺点是完整的贝叶斯框架计算十分复杂，因此人们有时不得不做出一些妥协和简化。

Scott and Berger (2006) 在贝叶斯框架下提出了研究因子收益率的一个三层模型。利用该模型，人们可以计算出每个因子为真的后验概率。随着同时检验的假设个数（即因子个数）的增加，后验概率将更加接近 0。换句话说，随着噪声信号（虚假因子）个数的增多，真实因子传递出来的证据也会随之而降低，这体现出和频率主义方法相对应的对多重假设检验的惩罚。这正是贝叶斯框架自带奥卡姆剃刀效应，即根据同时被检验的因子的个数自动调整因子为真的后验概率的原因。

若以 D 代表极端事件，则 p-value 表示 prob(D|H)。然而，“p-value 越低”和“因子越能获得超额收益”这二者并不等价。对于后者而言，人们关心的应该是在极端事件 D 发生的前提下，原假设为真的条件概率，即prob(H|D) ，但这并非 p-value 回答的问题。把 p-value $\equiv$ prob(D|H) 错当成 prob(H|D) 是一个非常严重的错误。

Harvey (2017) 通过最小贝叶斯因子计算了贝叶斯后验概率，从而回答人们真正关心的问题 $p ro b (H ∣ D)$ 。由贝叶斯统计可知，先验机会比（prior odds ratio）、后验机会比（posterior odds ratio）以及贝叶斯因子（Bayes factor）之间满足如下关系：
$先验机会比\times贝叶斯因子$

令 $H_0$ 和 $H_1$ 代表关于因子预期收益率的原假设和备择假设，则贝叶斯因子定义为两个似然函数之比

$\frac{f(data|H_0)}{f(data|H_1)}$

令 $\theta_0$ 表示 $H_0$ 的参数。在检验因子预期收益率时，通常原假设为 0，因此可以将 $H_0$ 写成 $\theta_0=0$ 。但是对于备择假设，为了让分析更具一般性，往往认为在 $H_1$ 下，对应的参数 $\theta_1$ 服从先验分布 $\pi_A(\theta_1)$ 。在这种情况下，其似然函数为$ \int f ( d a t a | \theta _ { 1 } ) \pi _ { A } ( \theta _ { 1 } ) d \theta _ { 1 }$ ，因此贝叶斯因子变为

$\frac { f ( d a t a | \theta _ { 0 } ) } { \int f ( d a t a | \theta _ { 1 } ) \pi _ { A } ( \theta _ { 1 } ) d \theta _ { 1 } } .$

对于检验因子来说，后验机会比是我们真正关注的问题。它告诉我们原假设和备择假设后验概率的高低——一个特别低的后验机会比意味着原假设的后验概率很低，因此我们可以安全地拒绝原假设，即认为因子是真实的。不过，想要计算后验机会比，就必须要先算出贝叶斯因子。但从上面的定义可知，计算它时需要指定备择假设下的先验分布，但这往往非常困难。不过好消息是，在众多贝叶斯因子的取值中，有一个特殊的取值，它就是最小贝叶斯因子（minimum Bayes factor，简称 MBF）。

为了直观理解最小贝叶斯因子，我们来回顾一下后验机会比=先验机会比 $\times$ 贝叶斯因子。上式可以理解为，对于 $H_0$ 和 $H_1$ 来说，我们从先验机会比出发，通过乘以贝叶斯因子得到后验机会比。当给定先验机会比时，贝叶斯因子越小（因此后验机会比越低），那么相对于先验，我们在后验中对原假设仍然持有的信念就越弱；贝叶斯因子越大（因此后验机会比越高），那么相对于先验，我们在后验中对原假设仍然持有的信念就越强。因此，贝叶斯因子衡量了当我们看到样本数据之后，会在多大程度上偏离先验机会比，而最小贝叶斯因子提供了对于原假设而言最强烈程度的偏离。

直观理解最小贝叶斯因子后，我们便能够顺水推舟地搞懂如何计算它。最小贝叶斯因子对应着一个特殊的备择假设下的先验分布，提供了反对原假设的最强烈证据。考虑下面这个例子，假设有 1000 个因子收益率的观测值，其样本均值为 4%。那么在什么情况下我们会得到最小贝叶斯因子呢？这个问题的答案是：在备择假设的先验分布中，所有的数据都集中在 4% 这个样本均值，即备择假设的先验分布的密度集中在数据的最大似然估计值时，贝叶斯因子是最小的。

通过以上论述可知，最小贝叶斯因子允许人们计算原假设后验概率的下界。更为关键的是，它回答的是人们真正关心的问题，即给定数据时原假设为真的条件概率。利用原始 p-value 或 t-statistic， Harvey (2017) 给出了计算最小贝叶斯因子的两种方法：

$\times p - v a l u e \times \ln ( p - v a l u e ) , \\ M B F = e x p ( - \text{t - statistic} ^ { 2 } / 2 )$
此外，利用后验机会比=先验机会比 $\times$ 贝叶斯因子并经过简单代数运算，可以方便地求出原假设为真的后验概率，即贝叶斯后验 p-value：

$\text{贝叶斯后验 p-value} = \frac{MBF\times\text{先验机会比}}{1+MBF\times\text{先验机会比}}$

为了在实际操作中应用贝叶斯后验 p-value，除了需要知道最小贝叶斯因子外，还需要指定先验机会比。为此，一些经验法则为：（1）对于严重缺乏经济学依据的因子，先验机会比 49:1；（2）对于似是而非的因子，先验机会比 4:1；（3）对于具备经济学理论依据的因子，先验机会比 1:1。

除了以上标准意义上的贝叶斯方法，近年来的另一个新的思路是对贝叶斯思想的拓展，即通过先验知识决定真实因子在所有因子中的占比，然后通过 bi-modal mean 分布对真实和虚假因子的预期收益率建模。这方面的代表是 Harvey and Liu (2020, 2021)。在我看来，它们代表实证资产定价中多重假设检验的未来。(这里就不再赘述了)

近年来，Harvey 教授和他的长期合作者刘岩教授（对，Harvey and Liu 里面的 Liu！）一直致力于呼吁学术界抵制追逐超低 p-value 的不良学术风气。两位的诸多实证结果不仅质疑了过去几十年来学术研究中挖掘出的相当一部分因子，更是从某种程度上挑战了学术研究的权威。然而，出于对学术风气和学术成果的保护，站在他们对立面的质疑之声也同样此起彼伏。这其中首当其冲的要数 Chen (2021) 和 Jensen, Kelly and Pedersen (2023)。

Chen (2021) 通过思想实验指出仅靠 p-hacking 根本无法解释学术界发现的诸多非常显著的因子，并通过他的模型得出了一系列推论，间接指出对于 p-hacking 的担忧可能被夸大了。然而，无论是学术界还是业界，大家的共识是所有因子预期收益联合为零（即前文提到的 ensemble null 先验）这个原假设一定会被拒绝，即人们都认可存在一部分显著因子。因此，根本没有人否认仅靠 p-hacking 无法解释一些非常显著的真实因子被发现。但是人们也同样相信，多重假设检验和发表偏差的影响促使一些虚假因子的诞生。所以，在所有因子中，到底有多少是真实的？更进一步，对于通过多重假设检验修正的真实因子，它们的收益率在样本外的收缩系数又是多少？然而 Chen (2021) 并没有回答这些问题。

面对质疑，Harvey and Liu (2021) 做出了回应。在检验因子时，除去被发表的之外，还需要考虑因为不够显著而被学者们放弃的因子，这些构成了总共被尝试的因子。但现实中，总共尝试的因子个数是未知的。为了解决这个难题，Harvey and Liu (2021) 再次对因子预期收益率使用了 bi-modal mean 先验分布，并通过理论模型和参数校准回答了关键问题。

参数校准的结果或许让人有些意想不到（但细想其实是合理的），即这个问题本身是未识别的（lack of identification）。换句话说，它的最优参数不唯一。在三组参数下，模拟得到的统计指标均和实际值较好地吻合。而这个问题之所以是未识别的，原因恰恰是人们观察到的只有被发表的因子，而学术界到底尝试了多少个因子永远是未知的。这是在研究 p-hacking 问题时注定无法逃避的现实。至于它可能的取值范围则取决于研究者的经验和对实证数据的理解。

Jensen, Kelly and Pedersen (2023) 是另一篇维护既往实证研究发现的文章。该文通过经验贝叶斯模型发现，即便考虑了多重假设检验问题，因子平均收益率的标准误也无需被扩大（即显著性不会受到明显影响），因此绝大多数已发表因子都是成立的，金融实证研究不存在复制危机。然而，他们的模型也隐含着让人们指定真实因子的比例（即 $p_0$ ）。

如果先验认为真实因子的比例足够高，那么多重假设检验确实不会造成太大的影响，而传统意义上的 2.0 阈值也仍然可以被用来检验因子。使用前文实证中的 95 个因子，我们发现当 $p_0$ 等于 50% 时（即认为一半的因子为真）， 2.0 的 t-statistic 阈值可以将伪发现率控制在 4% 以下（因此满足常见的 5% 的要求）。归根到底，人们关于真实因子的合理先验对于正确应对多重假设检验问题至关重要。

谈到多重假设检验，其他学科对它的重视其实由来已久，而金融学对它的重视则相对较晚。但好消息是，Harvey 和刘岩两位教授在这项 research agenda 上的探索，已经让人们充分意识到这个问题，并开始通过各种手段来降低 p-hacking 的影响。

由于多重假设检验的危害颇具争议性，因此学术界以开放的心态来讨论它至关重要。正如前文所述，因为人们只观测到了被发表的因子，而不知道到底尝试了多少因子，所以这个问题注定是未识别的。正因如此，对 p-hacking 的研究确实存在主观的一面。坦然承认这个计量上的系统问题，并通过合理的先验得到令人信服的结论，才是应有的研究态度。

在这里插入图片描述

我的看法

我在拜读多篇川总的文章后，我感觉自己深深受到了这种学术批判的影响。结合现实，确实有大量的未发表、未成功的因子挖掘工作，似乎只需要做的工作量足够大、尝试的次数足够，在这种p-hacking下总能找到一些能work的因子，已经逐渐脱离了金融学理论的讨论，完全成了数据挖掘竞赛的形式。事实上许多工作宣称的样本外结果，只不过是在众多次尝试中一个比较理想的结果，实际根本就不是样本外的数据，借用川总的一句话，“所有历史数据都是样本内”。我不禁思考，既然学术界已经意识到了这个问题，为什么每一年，在各大顶刊上，还是有不少的因子研究的工作被发表？

我跟投资学的一个老师进行了讨论，老师则认为找到一个显著work的因子不是特别困难，但是如何做出合理的经济学解释是困难的。我想这可能也跟HXZ高产的结果对应上，HXZ就是从 Investment-based CAPM 基础提出了 q-factor model。虽然不知道到底是结果指导理论还是理论指导实践的，但是一个自洽的经济学理论，加上一个亮眼的、打遍天下无敌手的实证结果确实无懈可击。

在学术的争论与文献的阅读中，我认为使我转变最大的是，大学刚开始的时候，我觉得经济理论很重要，实证论文对学界理论的演进毫无帮助。在大二大三的时候，我认为理论遥不可及完全漂泊于现实之外，实证工作才能指导实践经世致用。现在研一，了解了实证资产定价领域的学术批判，让我看到了另一种视角，如何通过理论来指导实践，用实践来发展理论。我认为这是我螺旋上升的认知的改变，但我知道，这也不是终点，这也不一定是正确的答案，也许以后还会有更好的回答…

如何避免潜在的数据挖掘式科研呢？除非有超强的经济学逻辑支撑，如果还是在不停地尝试各种因子的话，我的选择是不做这方面的研究。我认为，资产定价是金融领域很经典的研究方向，很多有价值的研究值得我们学习，在没有那个实力之前，我觉得作为局外人，听听各位大佬对实证资产定价的看法，也能有很多收获，也许能找到一些新的思路。

参考文献

从 Factor Zoo 到 Factor War，实证资产定价走向何方？作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。
Factor War 外传作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。
多重假设检验的源起、中兴和未来作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。《因子投资：方法与实践》领衔作者，《机器学习与资产定价》译者。
Anomalies, Factors, and Multi-Factor Models 作者：石川，量信投资创始合伙人，清华大学学士、硕士，麻省理工学院博士
Harvey, C. R., Y. Liu and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies, Vol. 29(1), 5 – 68.
Hou, K., C. Xue and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies, Vol. 28(3), 650 – 705.
Hou, K., C. Xue and L. Zhang (2017). Replicating Anomalies. Fisher College of Business Working Paper No. 2017-03-010; Charles A. Dice Center Working Paper No. 2017-10. Available at SSRN: https://ssrn.com/abstract=2961979.
Feng, G., S. Giglio, and D. Xiu (2020). Taming the factor zoo: A test of new factors. Journal of Finance 75(3), 1327-1370.

告别Zoo of Factor：净化因子分析中的数据挖掘与p值操纵

告别Zoo of Factor：净化因子分析中的数据挖掘与p值操纵 – 潘登同学的Quant笔记

文章目录

背景

Cochrane的铿锵三问

Harvey

正确认识P-value

HXZ的 Replicating Anomalies

如何解决数据挖掘与p值操纵的问题？

多重假设检验（multiple hypothesis testing）

频率主义方法

贝叶斯方法

我的看法

参考文献

网站公告

今日签到

热门文章

最新发布