从指数族到混合模型的全新视角
目录
- 多变量模型与指数族
- 指数族模型的基本公式
- 公式的逐步解析与直观例子
- 混合模型的魅力
- 混合高斯模型(GMM)
- 伯努利混合模型
- 概率图模型与板条符号
- 概率图模型的简介
- 板条符号的作用与解释
- 模型的推理与学习
- 经典推理算法解析
- 学习过程中的数学支撑
1. 多变量模型与指数族
在机器学习中,很多概率分布都可以归纳到一个统一的框架中,这就是 指数族。指数族模型不仅形式优雅,而且具备很多良好的数学性质,为后续的推理与学习提供了坚实基础。
1.1 指数族模型的基本公式
指数族分布的一般形式可以写作:
p ( x ; θ ) = h ( x ) exp ( η ( θ ) ⋅ T ( x ) − A ( θ ) ) p(x; \theta) = h(x) \exp\Big(\eta(\theta) \cdot T(x) - A(\theta)\Big) p(x;θ)=h(x)exp(η(θ)⋅T(x)−A(θ))
其中:
- h ( x ) h(x) h(x) 表示基函数(或称作基底函数),它只依赖于数据 x x x;
- η ( θ ) \eta(\theta) η(θ) 是自然参数,它由模型参数 θ \theta θ 映射而来;
- T ( x ) T(x) T(x) 是充分统计量,提取了数据 x x x 中最关键信息;
- A ( θ ) A(\theta) A(θ) 是对数配分函数,用来保证概率的归一化。
1.2 公式逐步解析与直观例子
设想你正在研究抛硬币的实验,硬币正反面的概率分别为 p p p 与 1 − p 1-p 1−p。这其实就是一个伯努利分布,其概率质量函数可以写作:
p ( x ; p ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } p(x; p) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\} p(x;p)=px(1−p)1−x,x∈{0,1}
经过对数变换,我们可以将其转化为指数族形式。具体来说,令:
- T ( x ) = x T(x) = x T(x)=x,
- η = ln p 1 − p \eta = \ln\frac{p}{1-p} η=ln1−pp,
- h ( x ) = 1 − p h(x) = 1-p h(x)=1−p 的某种形式(具体化简后可以归入 h ( x ) h(x) h(x) 中),
- A ( θ ) = − ln ( 1 − p ) A(\theta) = -\ln(1-p) A(θ)=−ln(1−p)。
这样,复杂的分布表达式就可以通过简单的数学结构展示出来,极大地方便了后续推理和参数估计的工作。
2. 混合模型的魅力
混合模型的核心思想是:我们的数据可能来源于多个不同的分布,而每个分布都有自己的参数。通过混合模型,我们能够同时考虑多种数据生成机制。
2.1 混合高斯模型(GMM)
混合高斯模型(Gaussian Mixture Model,简称 GMM)是最常见的混合模型之一。它假设数据由 K K K 个高斯分布混合生成,公式表示为:
p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x|\mu_k, \Sigma_k) p(x)=k=1∑KπkN(x∣μk,Σk)
其中:
- x x x 表示观测数据;
- π k \pi_k πk 为第 k k k 个高斯分布的混合系数,满足 ∑ k = 1 K π k = 1 \sum_{k=1}^{K} \pi_k = 1 ∑k=1Kπk=1;
- N ( x ∣ μ k , Σ k ) \mathcal{N}(x|\mu_k, \Sigma_k) N(x∣μk,Σk) 表示均值为 μ k \mu_k μk,协方差为 Σ k \Sigma_k Σk 的高斯分布。
举个例子: 设想你在研究人群的身高分布,而人群中可能存在男性和女性两种不同的分布。使用 GMM,我们可以用两个高斯分布来描述这种现象,其中 π 1 \pi_1 π1 代表男性比例, π 2 \pi_2 π2 代表女性比例。通过公式,我们不仅能够估计每个群体的均值和方差,还可以推断出各自的比例。
2.2 伯努利混合模型
与连续数据常用的 GMM 不同,对于离散数据(例如是否购买、是否点击等二元状态)我们常使用伯努利混合模型。其基本公式为:
p ( x ) = ∑ k = 1 K π k Bernoulli ( x ∣ θ k ) p(x) = \sum_{k=1}^{K} \pi_k \text{Bernoulli}(x|\theta_k) p(x)=k=1∑KπkBernoulli(x∣θk)
其中:
- Bernoulli ( x ∣ θ k ) \text{Bernoulli}(x|\theta_k) Bernoulli(x∣θk) 表示在第 k k k 个成分下,数据 x x x 服从伯努利分布,其成功概率为 θ k \theta_k θk;
- π k \pi_k πk 同样代表每个成分的混合系数。
简单说明: 想象一下你在研究某网站的点击率,不同用户群体可能有不同的点击倾向。用伯努利混合模型,我们能够捕捉到这种群体间的差异,为个性化推荐等应用提供理论支持。
3. 概率图模型与板条符号
概率图模型(Probabilistic Graphical Models, PGM)是将复杂概率模型结构化的一种方法,通过图结构直观地展示变量之间的依赖关系。板条符号(Plate Notation)则是一种简洁表示重复结构的工具。
3.1 概率图模型简介
在 PGMs 中,每个节点代表一个随机变量,而边表示变量之间的依赖关系。通过这种图形化表达,我们可以清楚地看到哪些变量是相互独立的,哪些变量之间存在联系。例如,在混合模型中,我们可以用一个隐藏变量来表示数据来源于哪个分布,而观测数据则由该隐藏变量决定。
3.2 板条符号的作用与解释
当模型中存在大量重复变量时,用普通图形表示会显得非常冗长。板条符号就是为了解决这一问题而出现的,它用一个矩形框将重复出现的部分“打包”起来。假设我们有 N N N 个观测数据,每个数据都服从相同的分布,用板条符号可以简洁地写作:
x 1 , x 2 , … , x N (在板条内) x_1, x_2, \ldots, x_N \quad \text{(在板条内)} x1,x2,…,xN(在板条内)
这种方式不仅减少了图的复杂度,同时也方便理解数据生成过程和模型的整体结构。
4. 模型推理与学习:数学公式背后的秘密
掌握了模型的数学表示之后,如何进行推理和学习就成为了核心任务。我们需要从观测数据出发,利用数学工具来估计模型参数,并对隐藏变量进行推断。
4.1 推理的基本思路
对于很多混合模型,我们往往采用期望最大化(EM)算法来进行参数估计。EM 算法可以分为两步:
- E 步骤(Expectation): 根据当前参数,计算隐藏变量的后验分布;
- M 步骤(Maximization): 固定隐藏变量的分布,最大化似然函数以更新参数。
一个简化的 EM 算法推导过程可以表达为:
Q ( θ ∣ θ ( t ) ) = E z ∣ x , θ ( t ) [ ln p ( x , z ; θ ) ] Q(\theta|\theta^{(t)}) = \mathbb{E}_{z|x,\theta^{(t)}} \Big[\ln p(x, z; \theta)\Big] Q(θ∣θ(t))=Ez∣x,θ(t)[lnp(x,z;θ)]
接着更新参数:
θ ( t + 1 ) = arg max θ Q ( θ ∣ θ ( t ) ) \theta^{(t+1)} = \arg \max_{\theta} Q(\theta|\theta^{(t)}) θ(t+1)=argθmaxQ(θ∣θ(t))
这里, z z z 表示隐藏变量, θ ( t ) \theta^{(t)} θ(t) 表示第 t t t 次迭代时的参数估计。通过反复迭代,模型的参数将不断逼近最优值。
4.2 学习过程中的数学支撑
在学习过程中,我们常常需要计算对数似然函数,并利用梯度下降等方法进行优化。例如,对于指数族模型,对数似然函数可以写为:
ln p ( x ; θ ) = ln h ( x ) + η ( θ ) ⋅ T ( x ) − A ( θ ) \ln p(x; \theta) = \ln h(x) + \eta(\theta) \cdot T(x) - A(\theta) lnp(x;θ)=lnh(x)+η(θ)⋅T(x)−A(θ)
对参数求导,得到梯度信息:
∂ ln p ( x ; θ ) ∂ θ = ∂ η ( θ ) ∂ θ ⋅ T ( x ) − ∂ A ( θ ) ∂ θ \frac{\partial \ln p(x; \theta)}{\partial \theta} = \frac{\partial \eta(\theta)}{\partial \theta} \cdot T(x) - \frac{\partial A(\theta)}{\partial \theta} ∂θ∂lnp(x;θ)=∂θ∂η(θ)⋅T(x)−∂θ∂A(θ)
通过将这些公式拆分、逐步计算,每一个细节都可以追溯到数学的本质,使得整个学习过程既严谨又直观。这样,即使是初学者也能通过具体的例子一步步理解参数更新的每一个细节。