混合密度模型GMM的似然函数(二)

发布于:2025-06-29 ⋅ 阅读:(15) ⋅ 点赞:(0)

Θ = { π k , θ k } k = 1 K \varTheta= \{ \pi_k, \boldsymbol {\theta}_k \}_{k=1}^{K} Θ={πk,θk}k=1K为参数向量, X = { x 1 , ⋯   , x n } \mathcal {X} = \{ {\bm x}_1, \cdots, {\bm x}_n \} X={x1,,xn}为观测数据,给定数据点的独立性,似然函数可以写成:
L ( Θ ) = p ( X ∣ Θ ) = p ( X ∣ { π k , θ k } i = 1 K ) = ∏ i = 1 n p ( x i ∣ { π k , θ k } i = 1 K ) = ∏ i = 1 n ( ∑ k = 1 K π k p ( x i ∣ θ k ) ) (10) L(\varTheta) = p(\mathcal {X} \mid {\varTheta})= p(\mathcal {X} | \{ \pi_k, {\bm \theta}_k \}_{i=1}^{K}) \\= \prod_{i=1}^{n} p(\boldsymbol{x}_i | \{ \pi_k, {\bm \theta}_k \}_{i=1}^{K}) = \prod_{i=1}^{n} \left( \sum_{k=1}^{K} \pi_k p(\boldsymbol{x}_i | {\bm \theta}_k) \right) \tag{10} L(Θ)=p(XΘ)=p(X{πk,θk}i=1K)=i=1np(xi{πk,θk}i=1K)=i=1n(k=1Kπkp(xiθk))(10)

因此,对数似然函数为:

L ( Θ ; X ) = ln ⁡ p ( X ∣ Θ ) = ln ⁡ p ( X ∣ { π k , θ k } i = 1 K ) = ln ⁡ ∏ i = 1 n p ( x i ∣ { π k , θ k } i = 1 K ) = ∑ i = 1 n ln ⁡ ( ∑ k = 1 K π k p ( x i ∣ θ k ) ) (11) L(\varTheta;\mathcal {X}) = \ln p(\mathcal {X} \mid {\varTheta}) = \ln p(\mathcal {X} | \{ \pi_k, {\bm \theta}_k \}_{i=1}^{K}) \\=\ln \prod_{i=1}^{n} p(\boldsymbol{x}_i \mid \{ \pi_k, {\bm \theta}_k \}_{i=1}^{K}) =\sum\limits_{i=1}^{n} \ln \left( \sum\limits_{k=1}^{K} \pi_k p( \boldsymbol{x}_i \mid \boldsymbol {\theta}_k) \right) \tag{11} L(Θ;X)=lnp(XΘ)=lnp(X{πk,θk}i=1K)=lni=1np(xi{πk,θk}i=1K)=i=1nln(k=1Kπkp(xiθk))(11)

求梯度

∇ θ k L = ∑ i = 1 n 1 p ( x i ∣ Θ ) ∇ θ k [ ∑ k = 1 K π k p ( x i ∣ θ k ) ] \nabla_{\bm{\theta}_k} L = \sum_{i=1}^{n} \frac{1}{p(\bm{x}_i|\boldsymbol{\varTheta})} \nabla_{\bm{\theta}_k} \left[ \sum_{k=1}^{K} \pi_kp(\bm{x}_i|\boldsymbol{\theta}_k) \right] θkL=i=1np(xiΘ)1θk[k=1Kπkp(xiθk)]
式中
p ( x i ∣ Θ ) = ∑ k = 1 K π k p ( x i ∣ θ k ) , (12) p(\boldsymbol{x}_i \mid \varTheta) = \sum_{k=1}^{K} \pi_k p(\boldsymbol{x}_i \mid \boldsymbol{\theta}_k), \tag{12} p(xiΘ)=k=1Kπkp(xiθk),(12)

最大似然参数估计由下式决定:
{ π ^ k , θ ^ k } i = 1 K = arg ⁡ max ⁡ { π k , θ k } i = 1 K ∑ i = 1 n ln ⁡ ( ∑ k = 1 K π k p ( x i ∣ θ k ) ) (13) \{ \hat{\pi}_k, \hat{\bm \theta}_k \}_{i=1}^{K} = \arg \max_{\{ \pi_k, {\bm \theta}_k \}_{i=1}^{K}} \sum_{i=1}^{n} \ln \left( \sum_{k=1}^{K} \pi_k p(\boldsymbol{x}_i | {\bm \theta}_k) \right) \tag{13} {π^k,θ^k}i=1K=arg{πk,θk}i=1Kmaxi=1nln(k=1Kπkp(xiθk))(13)

在单个高斯函数 ( K = 1 K=1 K=1) 的情况下,这种最大化可以以解析形式实现,从而得到常用的样本均值和样本协方差矩阵估计量( π 1 = 1 \pi_1 = 1 π1=1 且没有混合系数可估计)。然而,对于 K ⩾ 2 K \geqslant 2 K2,最大参数的解析表达式是未知的,并且最大化必须以数值形式进行。
这是因为式 (11) 中对数内存在求和,而非乘积,无法直接对(高斯)密度求对数,这使得 L ( Θ ; X ) L(\varTheta;\mathcal {X}) L(Θ;X)的最大化变得复杂,难以求解。

在下一节中,将介绍一个著名的数值方法——期望-最大化算法来解决最大似然问题。


在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到