此示例是 什么是极大似然估计 中的一个例子,本文的目的是给出更加详细的方程求解步骤,便于数学基础不好的同学理解。
回顾问题
我们在使用伯努利分布的极大似然估计时,目标是找到参数 p p p,使得观测数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn 出现的概率最大。每个 x i x_i xi 可能是 0 或 1,因此可以使用伯努利分布来描述。
伯努利分布的概率质量函数为:
P ( X = x i ∣ p ) = p x i ( 1 − p ) 1 − x i P(X = x_i | p) = p^{x_i} (1 - p)^{1 - x_i} P(X=xi∣p)=pxi(1−p)1−xi其中 p p p 是 X X X 取值为 1 的概率。
似然函数(Likelihood Function)为:
L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i L(p) = \prod_{i=1}^n p^{x_i} (1 - p)^{1 - x_i} L(p)=i=1∏npxi(1−p)1−xi这个公式表示,在给定参数 p p p 的条件下,观测数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn 出现的联合概率。
对数似然函数
为了简化计算,我们通常将似然函数取对数,得到对数似然函数(Log-likelihood Function)。取对数后,可以将乘积变成求和,简化导数的计算。对数似然函数为:
ℓ ( p ) = log L ( p ) = ∑ i = 1 n log ( p x i ( 1 − p ) 1 − x i ) \ell(p) = \log L(p) = \sum_{i=1}^n \log \left( p^{x_i} (1 - p)^{1 - x_i} \right) ℓ(p)=logL(p)=i=1∑nlog(pxi(1−p)1−xi)
可以进一步展开为:
ℓ ( p ) = ∑ i = 1 n ( x i log p + ( 1 − x i ) log ( 1 − p ) ) \ell(p) = \sum_{i=1}^n \left( x_i \log p + (1 - x_i) \log (1 - p) \right) ℓ(p)=i=1∑n(xilogp+(1−xi)log(1−p))
这是我们要最大化的对数似然函数。
求导并令导数为 0
为了找到最大似然估计值,我们需要对 p p p 求导,并找到使导数为 0 的 p p p。
对 ℓ ( p ) \ell(p) ℓ(p) 求导:
d ℓ ( p ) d p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) \frac{d\ell(p)}{dp} = \sum_{i=1}^n \left( \frac{x_i}{p} - \frac{1 - x_i}{1 - p} \right) dpdℓ(p)=i=1∑n(pxi−1−p1−xi)
把求和符号展开为两部分:
d ℓ ( p ) d p = ∑ i = 1 n x i p − ∑ i = 1 n ( 1 − x i ) 1 − p \frac{d\ell(p)}{dp} = \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} dpdℓ(p)=p∑i=1nxi−1−p∑i=1n(1−xi)
接下来我们令导数等于 0,以找到最大化的 p p p:
∑ i = 1 n x i p − ∑ i = 1 n ( 1 − x i ) 1 − p = 0 \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = 0 p∑i=1nxi−1−p∑i=1n(1−xi)=0
解方程
我们通过这个方程来解 p p p。
先将 ∑ i = 1 n x i p \frac{\sum_{i=1}^n x_i}{p} p∑i=1nxi 移到等式的右边:
∑ i = 1 n ( 1 − x i ) 1 − p = ∑ i = 1 n x i p \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = \frac{\sum_{i=1}^n x_i}{p} 1−p∑i=1n(1−xi)=p∑i=1nxi接着交叉相乘:
( ∑ i = 1 n ( 1 − x i ) ) p = ( ∑ i = 1 n x i ) ( 1 − p ) \left( \sum_{i=1}^n (1 - x_i) \right) p = \left( \sum_{i=1}^n x_i \right) (1 - p) (i=1∑n(1−xi))p=(i=1∑nxi)(1−p)展开并整理方程:
( ∑ i = 1 n ( 1 − x i ) ) p = ∑ i = 1 n x i − ( ∑ i = 1 n x i ) p \left( \sum_{i=1}^n (1 - x_i) \right) p = \sum_{i=1}^n x_i - \left( \sum_{i=1}^n x_i \right) p (i=1∑n(1−xi))p=i=1∑nxi−(i=1∑nxi)p将含 p p p 的项移到方程的左侧:
p ( ∑ i = 1 n ( 1 − x i ) + ∑ i = 1 n x i ) = ∑ i = 1 n x i p \left( \sum_{i=1}^n (1 - x_i) + \sum_{i=1}^n x_i \right) = \sum_{i=1}^n x_i p(i=1∑n(1−xi)+i=1∑nxi)=i=1∑nxi由于 ∑ i = 1 n ( 1 − x i ) + ∑ i = 1 n x i = n \sum_{i=1}^n (1 - x_i) + \sum_{i=1}^n x_i = n ∑i=1n(1−xi)+∑i=1nxi=n,所以方程变为:
p × n = ∑ i = 1 n x i p \times n = \sum_{i=1}^n x_i p×n=i=1∑nxi最后,解出 p p p:
p = ∑ i = 1 n x i n p = \frac{\sum_{i=1}^n x_i}{n} p=n∑i=1nxi
结论
这意味着参数 p p p 的极大似然估计值 p ^ \hat{p} p^ 是样本中 1 的比例,或者说是数据集中 1 的出现频率。换句话说,极大似然估计认为最可能的 p p p 是观测数据中 1 出现的频率。
直观理解
通过极大似然估计,我们假设观测数据来自一个伯努利分布,并通过求解最大化对数似然函数的参数 p p p,找到使观测数据出现的概率最大的那个参数。在这种情况下, p p p 其实就是样本中 1 出现的频率。