【金融机器学习】第五章:最优投资组合——Bryan Kelly, 修大成(中文翻译)
第五章:最优投资组合
本章讨论并分析投资组合选择的机器学习方法。投资组合选择问题是金融学的核心问题,其目标是通过有效配置投资者资源实现增长最优的储蓄,且资产定价中的所有主要问题都与之密切相关。在弱经济假设(如无套利)下,经济中的均值-方差有效组合(MVE)是可交易随机贴现因子(SDF)的体现,因此概括了市场参与者在均衡价格中权衡风险与回报的方式(Hansen and Richard, 1987)。类似地,单个资产对MVE组合的暴露与其预期收益率一一对应,这意味着MVE相当于一个单因子贝塔定价模型,可以解释平均收益率的横截面差异(Roll, 1977)。此外,在第3章分析的收益率预测问题中,预测性能普遍通过其对最优投资组合的贡献来评估。
实现最优投资组合的统计方法多种多样。所有方法都结合了资产的分布特性(风险与收益)和投资者对风险-回报权衡的偏好。Markowitz(1952)的开创性研究假设投资者已知收益率分布。若无需估计这一分布,投资组合选择就简化为效用最大化的一步问题。正如引言中哈耶克所言,“如果我们掌握了可用手段的完整知识,剩下的问题就纯粹是逻辑问题。”但这显然不是投资者面临的经济问题。投资者的投资组合选择问题与估计密不可分,因为他们缺乏对收益率分布的了解。投资者是在信息高度不完善的情况下做出组合决策的。
1 ^1 1大量理论文献扩展了Markowitz问题,引入了复杂的偏好形式、收益率分布、组合约束和市场摩擦,同时保持投资者已知收益率分布的假设。Brandt(2010)和Fabozzi等(2010)综述了这部分文献。
自Markowitz以来,大量文献提出了解决估计问题并实现更优投资组合的方法论工具。这是一个棘手的问题,其细微差别常常阻碍巧妙的方法创新。实际成功的关键在于如何利用有限数据为效用目标提供信息。换句话说,投资组合问题非常适合机器学习解决方案。
新兴文献提出了基于机器学习思想的收缩、模型选择和灵活参数化的新解决方案。首先,纯粹基于统计考虑(如收益率或风险预测模型)的机器学习预测可以代入投资组合选择问题并视为已知量。然而,将估计与组合目标完全隔离的投资者行为是次优的。估计噪声是投资者组合的风险来源,因此完全分离估计问题会不必要地牺牲效用。直观上,投资者可以通过理解估计噪声的特性并在风险-回报权衡计算中加以考虑来做得更好。这要求将估计与效用优化整合考虑,从而再次形成适合机器学习方法解决的问题。我们首先通过说明分离估计与效用最大化问题的朴素解决方案的局限性展开讨论,为后续构建改进组合选择的机器学习工具奠定基础。
5.1 “插件”投资组合
我们从Kan和Zhou(2007)的一个启发性推导开始,他们在可处理的组合选择问题中分析了参数估计的影响。假设 N N N种资产相对于无风险利率的单期超额收益率 R t R_t Rt是独立同分布的正态向量,其一阶和二阶矩分别为 μ ∈ R N \mu \in \mathbb{R}^N μ∈RN和 Σ ∈ R N × N \Sigma \in \mathbb{R}^{N \times N} Σ∈RN×N。投资者态度由风险厌恶系数为 γ \gamma γ的二次效用概括,投资者寻求一个风险资产组合 w ∈ R N w \in \mathbb{R}^N w∈RN(与无风险资产组合)以最大化单期预期效用:
E [ U ( w ) ∣ μ , Σ ] = w ′ μ − γ 2 w ′ Σ w . (5.1) E[U(w)|\mu, \Sigma] = w'\mu - \frac{\gamma}{2} w'\Sigma w. \tag{5.1} E[U(w)∣μ,Σ]=w′μ−2γw′Σw.(5.1)
当收益率分布已知时,效用最大化的组合解为
w ∗ = 1 γ Σ − 1 μ . (5.2) w^* = \frac{1}{\gamma} \Sigma^{-1} \mu. \tag{5.2} w∗=γ1Σ−1μ.(5.2)
一旦考虑到收益率分布知识不完善的现实,投资者必须决定如何利用可用信息以优化其组合带来的效用。我们假设投资者有一个由前述收益率分布生成的 T T T个独立同分布观测样本。
一种简单且常见的组合选择方法将估计收益率分布的统计目标独立处理。首先,投资者在不考虑效用设定的情况下推断收益率的均值和协方差;其次,投资者将估计值 μ ^ \hat{\mu} μ^和 Σ ^ \hat{\Sigma} Σ^视为真实收益率矩,并据此选择组合权重以优化效用。这通常被称为“插件”估计量,因为它通过将解(5.2)的输入替换为估计对应项来得到解:
w ^ = 1 γ Σ ^ − 1 μ ^ . (5.3) \hat{w} = \frac{1}{\gamma} \hat{\Sigma}^{-1} \hat{\mu}. \tag{5.3} w^=γ1Σ^−1μ^.(5.3)
插件解的动机在于,如果 μ ^ \hat{\mu} μ^和 Σ ^ \hat{\Sigma} Σ^是一致的估计量,那么 w ^ \hat{w} w^对 w ∗ w^* w∗也是一致的。它提供了一种简单直接的方法,利用机器学习预测实现经济目标。虽然 w ^ \hat{w} w^的一致性是一个吸引人的理论性质,但我们很少拥有足够的数据使收敛性质生效。当 N N N较大时,一致性面临威胁。因此,不幸的是,插件组合解在实践中往往表现不佳,当资产数量接近训练观测数量时更是灾难性的(Jobson and Korkie, 1980; Michaud, 1989)。
Kan和Zhou(2007)通过将组合估计问题与统计决策理论联系起来,指出由“真实”最优组合( w ∗ w^* w∗)与插件组合( w ^ \hat{w} w^)产生的投资者效用差异可视为经济损失函数,其期望值为
E [ L ( w ∗ , w ^ ) ∣ μ , Σ ] = U ( w ∗ ) − E [ U ( w ^ ) ∣ μ , Σ ] . (5.4) E[L(w^*, \hat{w})|\mu, \Sigma] = U(w^*) - E[U(\hat{w})|\mu, \Sigma]. \tag{5.4} E[L(w∗,w^)∣μ,Σ]=U(w∗)−E[U(w^)∣μ,Σ].(5.4)
这是著名的统计“风险函数”,在当前环境下可视为使用次优组合权重的确定性等价成本。
假设投资者使用样本充分统计量估计 μ \mu μ和 Σ \Sigma Σ:
μ ^ = 1 T ∑ t = 1 T R t , Σ ^ = 1 T ∑ t = 1 T ( R t − μ ^ ) ( R t − μ ^ ) ′ , \hat{\mu} = \frac{1}{T} \sum_{t=1}^T R_t, \quad \hat{\Sigma} = \frac{1}{T} \sum_{t=1}^T (R_t - \hat{\mu})(R_t - \hat{\mu})', μ^=T1t=1∑TRt,Σ^=T1t=1∑T(Rt−μ^)(Rt−μ^)′,
Kan和Zhou(2007)证明插件组合的风险函数为
E [ L ( w ∗ , w ^ ) ∣ μ , Σ ] = a 1 S R 2 2 γ + a 2 (5.5) E[L(w^*, \hat{w})|\mu, \Sigma] = a_1 \frac{SR^2}{2\gamma} + a_2 \tag{5.5} E[L(w∗,w^)∣μ,Σ]=a12γSR2+a2(5.5)
其中 S R 2 SR^2 SR2是真实最优策略 w ∗ w^* w∗的平方夏普比率,( a 1 , a 2 a_1, a_2 a1,a2)是仅依赖于样本观测数 T T T和资产数 N N N的常数。公式表明, w ∗ w^* w∗的期望损失为零,其他权重的期望损失严格为正。固定 N N N,随着 T T T增大, a 1 a_1 a1和 a 2 a_2 a2都趋近于零,表明当 T T T相对于 N N N较大时损失可以忽略。固定 T T T, a 1 a_1 a1和 a 2 a_2 a2都随 N N N增加而增大,意味着其他条件不变时,参数(资产)越多损失越严重。当夏普比率较高或风险厌恶较低时,投资者损失更大,因为这两者都会使投资者倾向于风险资产,从而增加对估计不确定性的暴露。
2 ^2 2显式公式为 a 1 = 1 − T T − N − 2 [ 2 − T ( T − 2 ) ( T − N − 1 ) ( T − N − 4 ) ] , a 2 = N T ( T − 2 ) ( T − N − 1 ) ( T − N − 2 ) ( T − N − 4 ) a_1 = 1 - \frac{T}{T-N-2} \left[ 2 - \frac{T(T-2)}{(T-N-1)(T-N-4)} \right], a_2 = \frac{NT(T-2)}{(T-N-1)(T-N-2)(T-N-4)} a1=1−T−N−2T[2−(T−N−1)(T−N−4)T(T−2)],a2=(T−N−1)(T−N−2)(T−N−4)NT(T−2)。
方程(5.5)可以量化插件估计量在合理校准下的效用成本。这些成本表明,过度依赖 w ^ \hat{w} w^一致性的投资者将面临巨大的效用缺口。但除了高维挑战外,插件解的一个明显劣势是其不可容许性。其他组合规则,如基于收缩或贝叶斯决策理论的方法,对于真实矩 μ \mu μ和 Σ \Sigma Σ的任何值都能提高预期样本外性能。从这个意义上说,插件估计量是一个特别不具吸引力的组合解决方案。其不可容许性源于未能考虑最终用途效用对参数估计的依赖性。
通过将分析置于决策理论框架中,Kan和Zhou(2007)进一步证明,投资者有工具可以减轻样本外效用损失,并轻松改进插件组合。特别是,投资者可以事前理解估计不确定性如何影响其样本外效用,以及如何通过修改组合规则来内化这种影响,从而减少估计噪声的有害影响。Kan和Zhou(2007)通过证明简单的组合调整(如将插件解向无风险资产倾斜或将其与插件最小方差组合混合)对 μ \mu μ和 Σ \Sigma Σ的任何值都能产生更高的预期效用,从而证明了插件组合的不可容许性。这一见解是统计决策理论的精髓——通过将投资者的效用目标整合到权重估计的统计问题中,而不是将估计与效用最大化视为独立的问题,可以提高结果。 3 ^3 3
3 ^3 3大量文献通过贝叶斯和经济决策理论视角分析投资组合选择(参见Avramov和Zhou(2010)的综述)。早期示例如Jorion(1986)和Frost与Savarino(1986)展示了贝叶斯-斯坦收缩解决方案带来的效用收益。该领域的其他贡献使用信息性和经济动机的先验(Black and Litterman, 1992; Pastor, 2000; Pastor and Stambaugh, 2000; Tu and Zhou, 2010)。虽然这些严格来说并非机器学习方法,但它们为现在成为机器学习组合方法规范的集成估计与效用优化解决方案的发展铺平了道路。
但决策理论方法也引发了一个悖论。上述问题表述极其简单。收益率是独立同分布的正态分布。偏好是二次的。问题没有任何模糊或未指定的方面。因此,似乎任何解决此问题的方法(决策理论或其他)都同样明确且无歧义。但事实并非如此!为了理解这一点,让我们审视每个假设的作用。独立同分布的正态假设意味着样本均值和协方差是投资者信息集( T T T个收益率观测样本)的充分统计量。由此我们知道,任何有效的二次效用问题解决方案都应仅通过这两个统计量依赖数据,因此我们将解限制为以下形式:
w ^ = f ( μ ^ , Σ ^ ) . (5.6) \hat{w} = f(\hat{\mu}, \hat{\Sigma}). \tag{5.6} w^=f(μ^,Σ^).(5.6)
其次,二次效用加上独立同分布正态性为我们提供了方程(5.5)中预期损失的一些分析可处理性。我们寻求一个最小化 E [ L ( w ∗ , w ^ ) ∣ μ , Σ ] E[L(w^*, \hat{w})|\mu, \Sigma] E[L(w∗,w^)∣μ,Σ]的组合规则。但是,在没有进一步指导函数 f f f的情况下,最小化预期损失的问题是病态的。这就是悖论所在。Markowitz问题的看似完整表述仅在参数已知时产生明确的解。一旦必须考虑估计不确定性,问题就无法为估计最大化样本外预期效用的组合规则提供充分指导。
4 ^4 4但这种分析可处理性仅对某些 f f f的选择成立(例如,那些关于 μ ^ \hat{\mu} μ^、 Σ ^ − 1 \hat{\Sigma}^{-1} Σ^−1或 Σ ^ − 1 μ ^ \hat{\Sigma}^{-1}\hat{\mu} Σ^−1μ^线性的函数)。
一些人通过施加 f f f的特定形式取得进展。例如,为了证明插件解的不可容许性,Kan和Zhou(2007)将 f f f限制为一组线性函数,并证明在该集合内存在组合解决方案一致优于插件规则。同时他们指出, w ^ \hat{w} w^的良好选择“可能是 μ ^ \hat{\mu} μ^和 Σ ^ \hat{\Sigma} Σ^的非常复杂的非线性函数,并且可以有无限多种构造方式。然而,确定最优的 f ( μ ^ , Σ ^ ) f(\hat{\mu}, \hat{\Sigma}) f(μ^,Σ^)并非易事。”Tu和Zhou(2010)和Kan等(2022)通过替代组合组合扩展了这一思想,并提出在估计不确定性下旨在最小化效用损失的投资组合规则。Yuan和Zhou(2022)将这一分析扩展到高维情况,其中 N > T N > T N>T。Da等(2022)没有限制组合策略 f f f的函数形式,而是通过对收益率的数据生成过程施加限制来推进这一问题。
5.2 集成估计与优化
那么,不可容许性悖论将我们引向何方?我们有一个出现在经济问题中的未知函数 f f f——这是利用机器学习优势的理想机会。在当前背景下,这可能如何运作?也许我们可以选择一个灵活的模型,如神经网络,来参数化 f f f,并搜索最大化样本外预期效用(或等效地最小化风险函数 E [ L ( w ∗ , w ^ ) ∣ μ , Σ ] E[L(w^*, \hat{w})|\mu, \Sigma] E[L(w∗,w^)∣μ,Σ])的函数参数值?问题在于 E [ L ( w ∗ , w ^ ) ∣ μ , Σ ] E[L(w^*, \hat{w})|\mu, \Sigma] E[L(w∗,w^)∣μ,Σ]仅对某些特殊情况(如插件估计量)可以导出。对于一般的 f f f,样本外预期效用的闭式不可得,即使可得,它也依赖于未知的真实参数 μ \mu μ和 Σ \Sigma Σ。
一个可行的替代方法是选择组合规则 f f f以优化样本内效用,并通过正则化(如交叉验证)鼓励稳定的样本外组合表现。这完全符合典型的两步机器学习工作流程:
步骤1. 选择由调谐参数索引的一类函数(例如,类可以是线性岭模型,由岭惩罚 z z z索引)并使用训练样本估计模型参数(每个 z z z值对应一组估计)。注意简单的、解析的Markowitz范式如何立即转变为机器学习问题。当真实参数已知时,严格指定的Markowitz环境给出了一个简单直观的闭式组合解。然而,只需加入一点估计不确定性,决策理论问题就变得部分未指定,且最小化样本外损失的组合规则无法确定。这引导我们使用经济目标作为估计目标。换句话说,问题的决策理论结构迫使我们整合统计和经济目标,并考虑开放的机器学习规范。
步骤2. 在验证样本中,选择调谐参数(例如特定的岭惩罚 z z z)以优化预期样本外性能。正则化的理论基础植根于估计风险的最小化。在Kan和Zhou(2007)的框架中,这些基础是明确的,正则化通过分析计算进行。更标准的做法是用实证替代理论计算。预期样本外效用由验证样本中的已实现效用近似,选择最大化验证效用的 z z z值。这种经验交叉验证消除了直接优化预期效用所需的理论简化。
一旦将组合选择问题置于机器学习框架中,就可以开始推广任何限制性假设。例如,收益率分布不必是正态的或独立同分布的,因为我们不需要显式计算预期样本外效用。因此,我们可以将一般组合规则写为
w ^ = f ( X T ) , (5.7) \hat{w} = f(X_T), \tag{5.7} w^=f(XT),(5.7)
其中 X T X_T XT汇集了与决策过程相关的所有数据。它可以包括收益率样本 { R t } t = 1 T \{R_t\}_{t=1}^T {Rt}t=1T本身以及调节条件收益率分布的任何条件变量。同样,我们可以替换偏好设定以适应尾部风险担忧、多期目标或其他复杂情况。
5.3 最大夏普比率回归
前沿的机器学习组合选择方法在估计组合规则时直接考虑效用优化。机器学习组合选择的重要早期进展来自Ait-Sahalia和Brandt(2001)、Brandt和Santa-Clara(2006)以及Brandt等(2009)。他们的核心贡献是将组合问题形式化为一个一步过程,将效用最大化整合到权重函数估计的统计问题中。该方法不对收益率做任何分布假设,而是指定投资者效用和投资者组合权重函数关于可观测协变量的显式函数形式。权重函数的参数通过最大化样本内平均效用进行估计。遵循Brandt(1999),我们称之为“参数化组合权重”方法。
为了使我们的表述具体化,我们延续Markowitz的精神,将分析专门用于均值-方差效用框架。这样做的主要动机是我们可以将“参数化组合权重”视为OLS回归。为此,我们依赖Britten-Jones(1999)的定理1,该定理表明方程(5.3)中的Markowitz插件解与常数向量对样本资产收益率的OLS回归系数成比例。特别是,OLS回归
1 = w ′ R t + u t (5.8) 1 = w'R_t + u_t \tag{5.8} 1=w′Rt+ut(5.8)
给出系数 5 ^5 5
w O L S ∝ Σ ^ − 1 μ ^ . w^{OLS} \propto \hat{\Sigma}^{-1}\hat{\mu}. wOLS∝Σ^−1μ^.
5 ^5 5推导这一结果时,注意 w O L S = ( Σ ^ + μ ^ μ ^ ′ ) μ ^ = Σ ^ − 1 μ ^ ( 1 + μ ^ ′ Σ ^ − 1 μ ^ ) − 1 w^{OLS} = (\hat{\Sigma} + \hat{\mu}\hat{\mu}')\hat{\mu} = \hat{\Sigma}^{-1}\hat{\mu}(1 + \hat{\mu}'\hat{\Sigma}^{-1}\hat{\mu})^{-1} wOLS=(Σ^+μ^μ^′)μ^=Σ^−1μ^(1+μ^′Σ^−1μ^)−1。
直观上,回归(5.8)寻求一种风险超额收益率 R t R_t Rt的组合,其行为尽可能接近正常数。这等同于寻找具有最高样本内夏普比率的风险资产组合。虽然这与识别风险资产的样本内切线组合完全成比例,但我们将看到,回归公式对于将机器学习方法纳入参数化组合问题具有吸引力。今后,我们将形式(5.8)的回归称为“最大夏普比率回归”(MSRR)。
Brandt等(2009)关注组合权重参数化
w i , t = w ˉ i , t + s i , t ′ β (5.9) w_{i,t} = \bar{w}_{i,t} + s_{i,t}'\beta \tag{5.9} wi,t=wˉi,t+si,t′β(5.9)
其中 w ˉ i , t \bar{w}_{i,t} wˉi,t是资产 i i i在时间 t t t的某个已知基准权重, s i , t s_{i,t} si,t是一组 K K K个信号,线性进入组合规则,具有 K K K维系数向量 β \beta β。这为动态组合权重引入了空间,权重随条件变量变化。为简化符号,我们将 w ˉ i , t \bar{w}_{i,t} wˉi,t归一化为零,并将权重和信号堆叠成向量方程 6 ^6 6
w t = S t β , (5.10) w_t = S_t \beta, \tag{5.10} wt=Stβ,(5.10)
其中 w t w_t wt为 N × 1 N \times 1 N×1, S t S_t St为 N × K N \times K N×K。代入(5.8),MSRR变为
1 = β ′ ( S t − 1 ′ R t ) + u t = β ′ F t + u t . (5.11) 1 = \beta' (S_{t-1}' R_t) + u_t = \beta' F_t + u_t. \tag{5.11} 1=β′(St−1′Rt)+ut=β′Ft+ut.(5.11)
我们可以将 w t w_t wt视为基础资产 R t R_t Rt的一组动态权重。或者等价地, β \beta β是 K K K个“因子”(特征管理组合)的静态权重:
F t = S t − 1 ′ R t . (5.12) F_t = S_{t-1}' R_t. \tag{5.12} Ft=St−1′Rt.(5.12)
换句话说,相同信号组合适用于所有资产的限制立即将其转化为横截面交易策略(因为 F F F表示作为每个信号与收益率的横截面协方差单独形成的组合)。估计的组合系数为 β ^ = C o v ^ ( F ) − 1 E ^ ( F ) \hat{\beta} = \widehat{Cov}(F)^{-1}\hat{E}(F) β^=Cov
(F)−1E^(F)。用Brandt和Santa-Clara(2006)的话说,方程(5.10)中的MSRR权重参数化“扩展了资产空间”,从基础收益空间扩展到因子空间。通过这种扩展,我们回到了方程(5.8)中估计因子固定权重的基本问题。MSRR公式的一个好处是,我们可以使用简单的OLS检验统计量来评估每个信号的贡献(如Britten-Jones(1999)最初提出的)。
6 ^6 6Brandt等(2009)还指出,适应行业中性或其他权重居中选择以及处理时变横截面规模(在这种情况下,他们建议在(5.9)中进行归一化 1 N t s i , t ′ β \frac{1}{N_t} s_{i,t}'\beta Nt1si,t′β,其中 N t N_t Nt为时期 t t t的资产数量)的便利性。为了符号简洁,我们抽象了这些考虑。
Brandt(1999)总结了参数化组合规则的好处,指出
“收益率建模步骤无疑是传统计量经济学方法的致命弱点……直接关注最优组合权重因此大大减少了模型误设和估计误差的空间。”
他们强调,估计误差控制源于高度精简的参数维度(相对于估计所有资产的均值和协方差)。
Brandt等(2009)的实证应用研究了仅使用三个参数(即仅以股票的规模、价值和短期反转特征为条件)的数千只股票的组合规则。参数化组合规则的最小二乘公式促使我们考虑适应机器学习结构的多种变化。我们立即想到考虑大 K K K回归以纳入丰富的条件信息集,例如完整的因子信号动物园及其与宏观经济状态变量的交互作用,以及用于收缩和模型选择的常规机器学习正则化策略。Brandt和Santa-Clara(2006)和Brandt等(2009)提出了套索正则化参数化组合的想法,并由DeMiguel等(2020)彻底研究。MSRR的美妙之处在于,可以现成地部署用于套索和弹性网络回归的高效软件来解决组合选择问题。这基本上涵盖了所有使用 ℓ 1 \ell_1 ℓ1或 ℓ 2 \ell_2 ℓ2参数惩罚的惩罚回归变体,包括一系列现实的组合考虑,如杠杆控制(通常表述为 ℓ 1 \ell_1 ℓ1惩罚)或交易成本调整(通常建模为 ℓ 2 \ell_2 ℓ2惩罚)。在惩罚为 z z z的岭回归的特殊情况下,惩罚MSRR目标为
min w ∑ t ( 1 − β ′ F t ) 2 + z β ′ β (5.13) \min_{w} \sum_{t} (1 - \beta' F_t)^2 + z \beta'\beta \tag{5.13} wmint∑(1−β′Ft)2+zβ′β(5.13)
解为
β ^ ∝ ( C o v ^ ( F ) + z I ) − 1 E ^ ( F ) , (5.14) \hat{\beta} \propto (\widehat{Cov}(F) + zI)^{-1}\hat{E}(F), \tag{5.14} β^∝(Cov
(F)+zI)−1E^(F),(5.14)
这通过将样本协方差向单位矩阵收缩来修改标准的因子样本切线组合。这自然与Ledoit和Wolf(2004)及Ledoit和Wolf(2012)讨论的更广泛的协方差收缩用于组合优化的主题相联系。
7 ^7 7Ao等(2018)也研究了一个相关的套索正则化组合选择问题,他们称之为MAXSER。
结合MSRR规范的易操作性和惩罚线性公式的可行性,为参数化组合设计带来了令人兴奋的前景。例如,我们可以打破方程(5.10)中所有资产相同系数的限制,修改为
w i , t = s i , t ′ β i (5.15) w_{i,t} = s_{i,t}'\beta_i \tag{5.15} wi,t=si,t′βi(5.15)
及相关回归表示
1 = v e c ( B ) ′ { v e c ( S t − 1 ) ⊙ ( R t ⊗ 1 K ) } + u t , (5.16) 1 = vec(B)'\{vec(S_{t-1}) \odot (R_t \otimes 1_K)\} + u_t, \tag{5.16} 1=vec(B)′{vec(St−1)⊙(Rt⊗1K)}+ut,(5.16)
其中 B = [ β 1 , . . . , β N ] B = [\beta_1, ..., \beta_N] B=[β1,...,βN]。该回归的解释是在 N K NK NK个“管理”策略中找到切线组合,每个单独策略是资产 i i i的收益率与其信号之一的交互作用。对此问题的一个微小修改使得适应具有不同预测变量集的资产成为可能。作为惩罚MSRR适用性的一个变体,一个有趣的方法是惩罚 β i − β ˉ \beta_i - \bar{\beta} βi−βˉ,这允许跨资产的某些异质性,但将所有资产的权重规则向平均规则收缩,符合经验贝叶斯的精神。
Brandt等(2009)讨论了其参数化组合问题的许多扩展和改进,包括用于纯多头策略的权重非负变换、交易成本考虑和多期投资期限。只要保持均值-方差目标,这些扩展大多可以纳入此处概述的MSRR框架。对于更一般的效用函数,估计必须走出OLS回归框架,需要数值优化。这对于高维参数化更具计算挑战性,但几乎不增加概念复杂性。
5.4 高复杂度MSRR
图5.1:MSRR神经网络
注:简单神经架构示意图,将条件变量 X i , t X_{i,t} Xi,t映射为最优组合权重 w i , t w_{i,t} wi,t。
MSRR适用于神经网络等复杂的机器学习模型。图5.1展示了一个潜在的MSRR网络架构示例。股票 i i i的一组 L L L个“原始”信号 X i , t X_{i,t} Xi,t作为网络输入。这些通过一系列非线性变换(由网络系数 θ \theta θ参数化)传播,生成 K K K个输出信号的向量 S i , t ( θ ) = q ( X i , t ; θ ) S_{i,t}(\theta) = q(X_{i,t};\theta) Si,t(θ)=q(Xi,t;θ),其中 q ∈ R L → R K q \in \mathbb{R}^L \rightarrow \mathbb{R}^K q∈RL→RK。然后,一个标准的MSRR公式使用转换后的特征推导均值-方差有效组合规则:
1 = β ′ S t − 1 ( θ ) ′ R t + u t . (5.17) 1 = \beta' S_{t-1}(\theta)' R_t + u_t. \tag{5.17} 1=β′St−1(θ)′Rt+ut.(5.17)
参数 ( β , θ ) (\beta, \theta) (β,θ)的估计是一个非线性最小二乘问题,可以使用现成的神经网络软件包轻松实现。这种估计的解释是,它搜索原始信号集的灵活非线性变换,以设计新的资产特征,可以主动管理基础资产的仓位并产生高夏普比率策略。
Simon等(2022)在前馈神经网络中采用这一框架,组合权重函数具有三个隐藏层,每层分别有32、16和8个神经元。他们表明,神经网络增强了参数化组合的性能。相同预测变量的线性组合设定在样本外实现了年化夏普比率1.8,而神经网络组合的夏普比率为2.5,提升了40%。
Didisheim等(2023)从理论上证明“复杂性的优势”也适用于均值-方差有效组合构建。在弱假设下,机器学习组合的夏普比率随模型参数化增加而提高。实证上,他们提出了一种特别便利的神经规范,源自第2章的框架。具体而言,他们提出了一种使用随机特征岭回归的神经架构。该公式与(5.17)相同,只是神经系数 θ \theta θ是随机生成而非估计的。正如理论预测,其实证分析中实现的样本外夏普比率随模型参数数量增加而提高,并在使用30,000个参数时稳定在4左右。
5.5 SDF估计与组合选择
组合效率与其他资产定价限制(如贝塔定价模型中的零阿尔法或基于SDF的欧拉方程满足)之间的等价性意味着,在估计最优组合时,还有其他统计目标(除了效用目标)可供选择。许多金融机器学习文献关注SDF估计。了解SDF对许多经济问题都很有趣,例如推断投资者偏好、量化定价错误以及识别影响资产价格的关键风险来源。然而,在实践中,金融机器学习文献对SDF估计问题施加的限制不足,无法回答有关特定经济机制的问题。相反,该文献倾向于根据估计SDF的样本外夏普比率评估估计结果。也就是说,SDF估计的机器学习方法聚焦于均值-方差组合选择问题,其动机是Hansen和Richard(1987)关于SDF与均值-方差前沿等价性的定理。
SDF估计问题的典型表述如下。如果存在SDF(例如,给定无套利),它可以表示为超额收益率的组合 w w w(排除常数项)
M t = 1 − w ′ R t . (5.18) M_t = 1 - w'R_t. \tag{5.18} Mt=1−w′Rt.(5.18)
此外,SDF必须满足资产定价理论核心的标准投资者欧拉方程:
E [ M t R t ] = 0. (5.19) E[M_t R_t] = 0. \tag{5.19} E[MtRt]=0.(5.19)
结合这些,我们看到:
E [ R t − R t R t ′ w ] = 0. (5.20) E[R_t - R_t R_t' w] = 0. \tag{5.20} E[Rt−RtRt′w]=0.(5.20)
该方程识别了一个可交易的SDF。注意,它也是Britten-Jones(1999)MSRR问题的一阶条件,
min w E [ ( 1 − w ′ R t ) 2 ] , \min_{w} E \left[ (1 - w'R_t)^2 \right], wminE[(1−w′Rt)2],
这正式连接了SDF估计与夏普比率最大化问题,因此它将切线组合作为估计的SDF权重。
Kozak等(2020)提出了一个条件化且参数化的SDF估计问题,与MSRR密切相关。特别是,他们假设一个组合 w t = S t β w_t = S_t \beta wt=Stβ,如(5.10)所示,并指出这意味着SDF的形式为
M t = 1 − β ′ F t (5.21) M_t = 1 - \beta' F_t \tag{5.21} Mt=1−β′Ft(5.21)
其中 F t F_t Ft定义于(5.12)。换句话说,条件定价资产的SDF可以视为特征管理因子的静态组合。Kozak等(2020)的主要贡献是将正则化引入条件SDF估计问题。他们主要分析岭正则化,直接映射到方程(5.14)中的MSRR岭估计量。将估计量旋转到因子的主成分空间,Kozak等(2020)表明岭收缩对较低排名的成分施加了更重的收缩。他们对此推导提供了一个深刻的见解:“经济学解释是,我们认为一个低特征值的主成分不太可能对SDF的波动性以及整体最大平方夏普比率有实质性贡献。”Kozak(2020)使用核方法估计高维SDF,巧妙地实现了“核技巧”,避免了估计过多参数的需要。
8 ^8 8 Kozak等(2020)将SDF归一化为均值1: M t = 1 − β ′ ( F t − E ( F t ) ) M_t = 1 - \beta'(F_t - E(F_t)) Mt=1−β′(Ft−E(Ft))。我们采用不同的归一化以符合Britten-Jones(1999)中的MSRR问题。
Kozak等(2020)的实证结果表明,他们通过惩罚回归估计基于因子的SDF的方法,相对于标准基准资产定价模型,产生了经济上强劲(且统计显著)的样本外表现。从50个异象因子组合构建的SDF相对于CAPM的年化信息比率为0.65。如果不使用50个特征作为信号集,而是补充原始特征的二次和三次幂以及成对特征交互项(总计1,375个信号),这一信息比率增加到1.32。
9 ^9 9信息比率是根据Kozak等(2020)表4中报告的阿尔法和标准误差推断的。
Giglio等(2021b)在一个共同的无条件因子模型框架(4.1)中,分析和比较了Kozak等(2020)的估计量与Giglio和Xiu(2021)及Lettau和Pelger(2020a)提出的PCA和RP-PCA基估计量的渐近性质。定义 γ ^ \hat{\gamma} γ^和 V ^ \hat{V} V^为(4.6)和(4.4),基于PCA的SDF估计量为
M ^ t = 1 − γ ^ ′ V ^ t . \hat{M}_t = 1 - \hat{\gamma}' \hat{V}_t. M^t=1−γ^′V^t.
Giglio等(2021b)表明,只要因子是弥漫的,岭和基于PCA的估计量都是一致的。
与Kozak等(2020)将SDF建模为异象因子的组合不同,Chen等(2021)通过建模单个股票的权重扩展了SDF估计问题。他们的模型在几个有趣方面偏离了MSRR和参数化组合问题。首先,他们允许一个灵活的权重函数,包括一个循环神经网络组件。其次,他们通过GMM制定估计量,采用复杂的工具方案。从(5.20)中基本欧拉方程的条件版本出发,Chen等(2021)将GMM目标函数重写为
min w max g 1 N ∑ j = 1 N ∥ E [ ( 1 − ∑ i = 1 N w ( S M , t , S i , t ) R i , t + 1 ) R j , t + 1 g ( S M , t , S j , t ) ] ∥ . (5.22) \min_{w} \max_{g} \frac{1}{N} \sum_{j=1}^{N} \left\| E \left[ \left( 1 - \sum_{i=1}^{N} w(S_{M,t}, S_{i,t}) R_{i,t+1} \right) R_{j,t+1} g(S_{M,t}, S_{j,t}) \right] \right\|. \tag{5.22} wmingmaxN1j=1∑N
E[(1−i=1∑Nw(SM,t,Si,t)Ri,t+1)Rj,t+1g(SM,t,Sj,t)]
.(5.22)
函数 w ( S M , t , S i , t ) w(S_{M,t}, S_{i,t}) w(SM,t,Si,t)描述了第 i i i只股票在可交易SDF中的权重,它是宏观经济预测变量( S M , t S_{M,t} SM,t,影响所有资产的权重)和股票特定预测变量( S i , t S_{i,t} Si,t,仅直接影响股票 i i i的权重)的标量函数。它使用LSTM捕捉 S M , t S_{M,t} SM,t的动态行为,其输出流入一个前馈网络,与股票级预测变量结合生成最终组合权重输出(见图5.2顶部)。
图5.2:Chen等(2021)的网络架构
注:本图展示了带有LSTM细胞的RNN(循环神经网络)的GAN(生成对抗网络)模型架构。
SDF网络有两部分:
- LSTM估计少量宏观经济状态。
- 这些状态与公司特征一起在FFN中用于为给定测试资产集构建候选SDF。
条件网络也有两个网络:
- 它创建自己的宏观经济状态集,
- 将其与公司特征结合在FFN中,为给定SDF M M M找到错误定价的测试资产。
这两个网络竞争直至收敛,即SDF和测试资产都无法进一步改进。
函数 g ( S M , t , S j , t ) g(S_{M,t}, S_{j,t}) g(SM,t,Sj,t)是一组 D D D个工具变量,为估计组合权重函数提供了必要的矩条件系统。然而,工具变量是从基础数据通过网络函数 g g g导出的。 g g g的结构与 w w w的结构镜像。宏观经济动态由LSTM捕捉,输出与股票特定变量 S j , t S_{j,t} Sj,t在前馈网络中结合,为资产 j j j的欧拉方程定价错误生成工具。损失函数是所有股票定价错误的范数之和,通过最小化损失函数得到权重函数估计。
也许这一设定最有趣的方面是工具变量是以对抗方式生成的。虽然估计量搜索在给定一组工具的情况下最小化定价错误的SDF权重函数((5.23)中的外部最小化目标),但它同时搜索使给定SDF处于最不利位置的工具变量函数((5.23)中的内部最小化目标)。
受这些机器学习SDF实证研究的启发,Didisheim等(2023)从理论上分析了模型复杂性在塑造SDF估计量性质中的作用。与Kelly等(2022a)类似,他们关注高维岭估计量,但有两点主要区别。首先,他们从单一资产时间序列设定转向具有任意数量风险资产的横截面设定。其次,他们将统计目标从时间序列预测重新定位为SDF优化。在此背景下,Didisheim等(2023)明确推导了SDF的预期样本外夏普比率和横截面定价错误作为其复杂性的函数。他们的核心结果是,当采用适当的收缩时,预期样本外SDF性能随SDF模型复杂性严格提高。他们报告的实证分析与理论预测密切吻合。具体而言,他们发现最佳实证资产定价模型具有极大量的因子(超过训练观测数量或基础资产数量)。
5.5.1 不可交易SDF估计
前一节重点讨论在超额收益率空间或作为可交易组合表示的SDF估计。如前所述,这些估计问题中施加的经济结构非常有限,使得研究经济机制变得困难。一个较小但同样有趣的文献通过将(半)非参数模型组件嵌入部分结构框架并进行假设检验来推断SDF。
有趣的是,早在Bansal和Viswanathan(1993)的文献中就出现了使用神经网络参数化资产定价模型的想法。这些具有前瞻性的规范包含了最近工作中出现的所有基本成分,但由于数据集较小,因此研究了小型网络规范。
Chen和Ludvigson(2009)可能是迄今为止这种方法的最佳示例。他们的模型环境广泛植根于Campbell和Cochrane(1999)的非线性习惯消费效用规范,以及Menzly等(2004)、Wachter(2006)和Yogo(2006)的相关模型。正如作者正确指出的那样,文献中习惯规范的各种形式表明,“习惯的函数形式应被视为任何实证研究的一部分,而不是给定的”,因此他们通过“尽可能少地对习惯的设定施加限制,并且不对消费的运动规律施加任何参数限制”来追求习惯模型。
Chen和Ludvigson(2009)的模型最好由其习惯消费的设定概括,这是投资者边际效用的关键驱动因素。具体而言,习惯消费为
X t = C t g ( C t − 1 C t , . . . , C t − L C t ) , X_t = C_t g \left( \frac{C_{t-1}}{C_t}, ..., \frac{C_{t-L}}{C_t} \right), Xt=Ctg(CtCt−1,...,CtCt−L),
其中 C t C_t Ct为时间 t t t的消费水平, g g g为“习惯函数”,调节最近 L L L期消费的习惯水平。习惯通过效用函数影响投资者福祉:
U = E ( ∑ t = 0 ∞ δ t ( C t − X t ) 1 − γ − 1 1 − γ ) , U = E \left( \sum_{t=0}^{\infty} \delta^t \frac{(C_t - X_t)^{1-\gamma} - 1}{1 - \gamma} \right), U=E(t=0∑∞δt1−γ(Ct−Xt)1−γ−1),
这进而定义了SDF(其中 δ \delta δ和 γ \gamma γ分别为时间贴现因子和风险厌恶系数)。与Campbell和Cochrane(1999)明确指定 g g g的函数形式不同,Chen和Ludvigson(2009)使用前馈神经网络作为习惯函数的通用近似模型。
与Chen等(2021)类似,他们通过最小化模型隐含欧拉方程条件矩的范数与宏观金融数据作为工具来估计SDF。分析中一个特别吸引人的方面是谨慎选择神经网络大小并进行符合其依赖的渐近理论的统计检验。首先,他们扩展了Ai和Chen(2003)及Ai和Chen(2007)关于神经网络“筛最小距离(SMD)”估计的渐近理论,以适应资产定价数据中的序列相关性。最终,他们决定采用一个以机器学习标准来看较小的模型(仅18个参数),但在仅有200个观测样本的情况下,这种克制为其检验增添了可信度。
仔细的渐近分析的回报是能够对投资者偏好中习惯持续性的各个方面进行假设检验。结果支持非线性习惯函数优于线性,以及内部习惯形成(即由个人消费历史决定)而非外部习惯(或“与邻居攀比”)。最后,他们将估计的习惯模型与其他领先资产定价模型(如Fama和French(1993)的三因子模型和Lettau和Ludvigson(2001)的对数消费-财富比率CAPM模型)的定价错误进行比较,发现神经网络习惯公式在规模和账面市值比排序组合的定价上有显著改进。
5.5.2 Hansen-Jagannathan距离
GMM(及相关SMD)SDF估计方法植根于最小化平方定价错误的问题。定价错误由欧拉方程定义,可以表示为平均折现超额收益率(根据欧拉方程应为零)或未折现平均超额收益率与基于模型的该数量预测之间的差异。虽然直接根据定价错误比较模型很方便,但Hansen和Jagannathan(1997)强调,有效GMM估计量使用依赖于模型的加权矩阵来聚合定价错误,这意味着我们不能根据优化的GMM损失函数值比较模型。作为模型比较问题的解决方案,Hansen和Jagannathan(1997)建议根据一个共同损失函数评估所有模型,其加权矩阵独立于模型。特别是,他们提出了一个距离度量,形式为
H J m 2 = min θ m e ( θ m ) ′ Σ ~ − 1 e ( θ m ) , (5.23) HJ_m^2 = \min_{\theta_m} e(\theta_m)'\tilde{\Sigma}^{-1}e(\theta_m), \tag{5.23} HJm2=θmmine(θm)′Σ~−1e(θm),(5.23)
其中 e ( θ m ) e(\theta_m) e(θm)是与第 m m m个模型(由 θ m \theta_m θm参数化)相关的定价错误向量。方程(5.26)的平方根称为“HJ距离”。其表述中有两个关键方面需要注意。首先,定价错误由 Σ ~ = 1 T ∑ t R t R t ′ \tilde{\Sigma} = \frac{1}{T}\sum_{t}R_tR_t' Σ~=T1∑tRtRt′加权,这是独立于模型的,因此为所有模型比较提供了平等基础。其次,定价错误基于最小化HJ距离的参数,而不是由有效GMM目标决定的参数。
虽然这些与标准GMM目标函数的差异很微妙,但它们赋予HJ距离一些非凡的理论特性。首先,Hansen和Jagannathan(1997)表明, H J m HJ_m HJm等于由模型 m m m引起的基础资产(对应于向量e)最错误定价组合的定价错误。也就是说,HJ距离描述了模型 m m m在最小化最坏情况定价错误方面能做到的最好程度。其次,HJ距离描述了模型 m m m的(可能错误设定的)SDF与正确为所有资产定价的SDF族之间的最小二乘距离。
10 ^{10} 10 这种最坏情况组合本质上是定价错误的“Markowitz组合”,实现了每单位波动率的最高定价错误。
这两个特性意味着HJ距离是训练SDF和最优组合机器学习模型的一个特别有吸引力的目标函数。最小化HJ距离的机器学习模型将是稳健的(因为它寻求最小化最坏情况模型性能),并将提供一个在 ℓ 2 \ell_2 ℓ2意义上最小错误设定的模型。通过HJ距离训练机器学习模型与Ludvigson(2013)的告诫一致:
“在实证工作中更强调便于比较竞争性错误设定模型的方法论,同时减少对单个模型是否无错误设定的假设检验的强调。”
在将HJ距离整合到金融机器学习问题方面已取得进展。Kozak等(2020)将其SDF估计方法与带有岭(或套索)惩罚的HJ距离最小化问题联系起来。他们的可以视为应用于因子空间的无条件HJ距离。最近,Gagliardini和Ronchetti(2019)、Antoine等(2018)和Nagel和Singleton(2011)分析了通过条件HJ距离进行模型比较的方法。Didisheim等(2023)推导了复杂机器学习模型中HJ距离的理论行为,并表明该距离随模型复杂性降低。未来在研究通过条件或无条件HJ距离训练的机器学习模型方面仍有很大空间。
5.6 交易成本与强化学习
金融机器学习文献提供了一个灵活的框架,将多个特征组合成一个整体预期收益率的单一度量(例如Gu等,2020b)。同一文献记录了不同收益率预测特征的相对“特征重要性”(例如Chen等,2021)。这些发现表明,机器学习方法的预测成功通常由对小市值和低流动性股票有效的短暂特征驱动(例如Avramov等,2022a),暗示它们对实体经济可能不太重要(例如Van Binsbergen和Opp,2019)。基于机器学习的组合策略的高交易成本意味着这些策略在实践中难以实施,更广泛地,提出了关于该文献中记录的预测性的相关性和解释的问题。机器学习预期收益率估计是否仅仅告诉我们投资者不愿套利消除的错误定价,因为成本太高、错误定价太短暂且错误定价的市场太小而不重要?或者,考虑交易成本的机器学习预测是否也适用于大市值股票、显著的时间段,并以对许多投资者类型重要的方式起作用,从而带来新的重要经济见解?
在金融研究中,通常将组合可实施性问题与收益率预测(或组合权重估计)问题分开。在这种方法中,估计问题抽象于交易成本和换手率,由此产生的投资策略在扣除交易成本后产生负收益并不罕见。对此结果有一个自然的解释。并不是市场不知道预测模式的存在;而是因为这些模式成本太高而无法交易,或其他套利限制导致它们存在。这是金融预测方法的一个关键挑战。如果没有以某种方式将套利限制嵌入统计预测模型,模型将倾向于隔离当前市场中未被利用的、因此不切实际的预测模式。这并不排除存在可实际利用的预测现象的可能性;即扣除交易成本后仍有利可图的预测性。这只是意味着,在没有成本指导的情况下,统计模型无法区分可实施和不可实施的预测模式。因此,如果收益率中最突出的可预测模式与套利限制相关(考虑到证券市场的无情竞争,这是一个合理的场景),这些将是ML预测模型首先隔离的模式。
本节讨论尝试推导可由管理大规模资产的市场参与者(如大型养老基金或其他专业资产管理人)实际实施的机器学习组合。如果一个策略可以大规模实施,那么驱动此类组合需求的预测变量可能对均衡贴现率具有信息性。
5.6.1 交易成本
关于交易成本下组合选择的文献通常通过假设交易成本函数已知或交易成本数据可用来解决问题。这避免了机器学习组合选择算法中的“探索”步骤的需要,使问题基本保持在标准监督学习框架内,避免了强化学习机制。Brandt等(2009)在基线参数化组合设定中采用了这种方法。最近,Jensen等(2022)将已知交易成本函数引入组合选择目标,然后结合机器学习与经济限制来学习最优组合规则。我们在此概述他们的模型和学习解决方案。
金融文献长期致力于解决组合选择中交易成本摩擦的技术挑战(例如Balduzzi和Lynch,1999;Lynch和Balduzzi,2000)。Garleanu和Pedersen(2013)推导了交易成本下的解析组合。他们的关键理论结果是,在存在交易成本的情况下,最优组合不仅依赖于单期预期收益率 E t [ R t + 1 ] E_t[R_{t+1}] Et[Rt+1],还依赖于所有未来期限的预期收益率 E t [ R t + τ ] τ = 1 , 2 , … E_t[R_{t+\tau}] \tau = 1, 2, \ldots Et[Rt+τ]τ=1,2,…。由于这一点,在考虑交易成本的情况下用机器学习处理收益率预测问题的想法面临张力。Garleanu和Pedersen(2013)通过将所有期限与线性自回归规范联系起来实现了一个可处理的组合解,这保持了参数化的小规模并将期望序列折叠为当前信号值的线性函数。机器学习通常寻求收益率预测模型的灵活性;但如果需要所有未来期限的单独收益率预测模型,环境即使以机器学习标准也会迅速爆炸为难以处理的规范。我们如何在保持模型规范灵活性的同时不对预期收益率的动态做出限制性假设?
11 ^{11} 11 这是直观的——如果投资者预期下一期有高收益率,但也预期高收益率将持续,她会更积极地交易以在当前期捕获高收益率。相反,如果高预期收益率由于频繁的组合调整而迅速消失。
12 ^{12} 12 该设定中的另一个互补张力是,如果交易成本组合解决方案必须为许多收益率期限构建预测,随着预测期限的增加,训练观测数量减少,因此通常很少有数据为长期预测提供信息。
Jensen等(2022)通过三个关键创新解决了这一张力。首先,他们放宽了预期收益率对预测信号的线性关系,允许非线性预测函数。其次,他们放宽了Garleanu和Pedersen(2013)的预期收益率自回归假设,要求平稳但其他方面不受限制的时间序列动态。从这两个解决方案出发,他们能够理论上推导组合规则作为条件信号的通用函数。他们的第三个贡献是表明该组合规则的一个组成部分(投资者逐渐迁移其组合的“目标”函数)可以用神经网络规范参数化,这绕过了前述需要不同机器学习收益率预测模型用于不同投资期限的困难。他们的解决方案是一个结合经济结构优势与机器学习灵活性的模型示例。经济学以投资者效用最大化问题的解的形式出现,这对组合规则施加了一种动态一致性。只有在这一步骤之后,灵活的机器学习函数才被注入组合规则,同时保持规则的经济一致性。
13 ^{13} 13 这需要信号是马尔可夫的假设,但其动态无需进一步指定。
具体而言,投资者寻求组合 w t w_t wt以最大化扣除成本后的二次效用:
效用 = E [ μ ( s t ) ′ w t − κ t 2 ( w t − g t w t − 1 ) ′ Λ ( w t − g t w t − 1 ) − γ t 2 w t ′ Σ w t ] (5.24) \text{效用} = E \left[ \mu(s_t)'w_t - \frac{\kappa_t}{2} (w_t - g_tw_{t-1})' \Lambda (w_t - g_tw_{t-1}) - \frac{\gamma_t}{2} w_t' \Sigma w_t \right] \tag{5.24} 效用=E[μ(st)′wt−2κt(wt−gtwt−1)′Λ(wt−gtwt−1)−2γtwt′Σwt](5.24)
其中 μ ( s t ) \mu(s_t) μ(st)、 Σ \Sigma Σ和 Λ \Lambda Λ分别概括资产均值、协方差和交易成本。这些随时间以与条件变量集 s t s_t st相关的可预测方式变化,尽管为了此处目的,我们讨论具有静态协方差和交易成本的简化模型。 κ t \kappa_t κt是投资者管理资产(组合规模是交易成本的一阶考虑)和 g t g_t gt是上一期的财富增长。Jensen等(2022)的命题3表明,存在交易成本时的最优组合规则为
w t ≈ m g t w t − 1 + ( I − m ) A t (5.25) w_t \approx mg_tw_{t-1} + (I - m)A_t \tag{5.25} wt≈mgtwt−1+(I−m)At(5.25)
其中投资者部分从继承的组合 w t − 1 w_{t-1} wt−1交易到时间 t t t的“目标”组合 A t A_t At:
A t = ( I − m ) − 1 ∑ τ = 0 ∞ ( m Λ − 1 g ˉ Λ ) τ c E t [ 1 γ Σ − 1 μ ( s t + τ ) ] . (5.26) A_t = (I - m)^{-1} \sum_{\tau=0}^{\infty} (m\Lambda^{-1}\bar{g}\Lambda)^\tau cE_t \left[ \frac{1}{\gamma} \Sigma^{-1} \mu(s_{t+\tau}) \right]. \tag{5.26} At=(I−m)−1τ=0∑∞(mΛ−1gˉΛ)τcEt[γ1Σ−1μ(st+τ)].(5.26)
目标组合依赖于 m m m,交易成本和协方差的非线性矩阵函数,以及平均组合增长率 g ˉ = E [ g t ] \bar{g} = E[g_t] gˉ=E[gt]。目标组合是逐期Markowitz组合的指数平滑平均,这反映了调整是有成本的,因此平滑随时间变化的组合观点是有利的。组合解可以重写为过去目标组合及其随时间增长的无限和:
w t = ∑ θ = 0 ∞ ( ∏ τ = 1 θ m g t − τ + 1 ) ( I − m ) A ( s t − θ ) . (5.27) w_t = \sum_{\theta=0}^{\infty} \left( \prod_{\tau=1}^{\theta} mg_{t-\tau+1} \right)(I - m)A(s_{t-\theta}). \tag{5.27} wt=θ=0∑∞(τ=1∏θmgt−τ+1)(I−m)A(st−θ).(5.27)
(5.30)中的这一解决方案嵌入了存在交易成本时最优组合所需的所有相关动态经济结构。但它也表明,如果我们将此解代入原始效用最大化问题,学习任务可以简化为找到最大化预期效用的目标组合函数 A ( ⋅ ) A(\cdot) A(⋅)。基于这一见解,Jensen等(2022)使用随机傅里叶特征神经网络规范(如Kelly等,2022a;Didisheim等,2023),但他们不是近似收益率预测函数,而是直接近似目标函数 A ( ⋅ ) = f ( s t ) β A(\cdot) = f(s_t) \beta A(⋅)=f(st)β,其中 f f f是一组 P P P个已知的随机特征函数, β \beta β是 R P \mathbb{R}^P RP中的回归系数向量。实证上,他们的一步、考虑交易成本的组合学习算法与文献中标准的先学习不考虑交易成本的组合然后随时间平滑学习组合以减轻成本的两步方法相比,提供了更好的净成本表现。
5.6.2 强化学习
强化学习广义上包括在不确定性下解决顺序决策问题的机器学习模型。它们特别适用于建模代理采取行动以最大化某些累积奖励函数但系统状态及因此未来结果分布受代理行动影响的环境。在这种情况下,代理的选择是学习奖励函数的关键条件变量。但由于过去大多数状态/行动对未被观察,数据可以被视为大部分未标记,因此模型不适合直接监督。由于相关标签仅由代理的行动引发,大部分强化学习将努力分散在通过实验学习(“探索”)和根据所学优化未来预期奖励(“利用”)之间。
代理寻求优化未来奖励意味着强化学习可能是组合选择的一个有价值的工具。然而,在前面概述的基本组合选择问题中,系统状态不受投资者决策的影响。投资者被视为价格接受者,因此她构建的任何组合都不会干扰未来的风险和收益率动态。因此,给定基础资产的已实现收益率数据,可以使用监督学习技术进行机器学习组合选择。换句话说,价格接受者从强化学习中获益可能有限。
当然,价格接受者假设对许多投资者来说是不现实的。金融机构如资产管理人和银行通常是金融市场中最活跃的参与者。他们作为“边际交易者”的突出地位和倾向于大额交易意味着他们的组合决策具有价格影响,从而改变系统状态。这样的投资者必须学习其决策如何影响市场动态,这引入了将实验作为学习算法一部分的激励。也就是说,一旦投资者必须内化其自身的价格影响,强化学习的工具就非常适合组合选择问题。
主流金融文献关于强化学习用于组合选择的工作很少,尽管计算机科学文献中有大量关于该主题的文献。代理的价格影响在决定其未来奖励方面越突出,强化学习方法就越有价值。因此,金融行业倾向于关注相对低频的投资策略,这使得强化学习尚未普及并不奇怪,尽管我们预计未来几年会有所改变。同时,计算机科学文献主要将强化学习应用于与做市和交易执行相关的高频组合问题。虽然我们在此不涵盖这一文献,但建议感兴趣的读者参考Hambly等(2022)的综述。
14 ^{14} 14Cong等(2020)是一个例子。