机器学习:贝叶斯派和频率派

发布于:2025-08-30 ⋅ 阅读:(14) ⋅ 点赞:(0)

对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
X N × P = ( x 1 , x 2 , x 3 , ⋅ ⋅ ⋅ , x N ) T , x i = ( x i 1 , x i 2 , x i 3 , ⋅ ⋅ ⋅ , x i p ) T X_{N \times P}= (x_1,x_2,x_3,\cdot \cdot \cdot,x_N)^T, x_i =(x_{i1},x_{i2},x_{i3}, \cdot \cdot \cdot,x_{ip})^T XN×P=(x1,x2,x3,,xN)T,xi=(xi1,xi2,xi3,,xip)T
这个记号表示有 N N N个样本,每个样本都是 p p p维向量。其中每个观测都是由 p ( x ∣ θ ) p(x|\theta) p(xθ) 生成的。

贝叶斯派

贝叶斯派认为 p ( x ∣ θ ) p(x|θ) p(xθ) θ θ θ不是一个常量。这个 θ θ θ满足一个预设的先验的分布 θ ∼ p ( θ ) θ\sim p(θ) θp(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) p ( x ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ p(θ|X)= \frac{ p(X|θ) \cdot p(θ)}{p(x)} = \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} p(θX)=p(x)p(Xθ)p(θ)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
这里的解释:

参数 θ \theta θ 视为随机变量,他有自己的先验分布 p ( θ ) p(\theta) p(θ)。当我们要计算观测数据 X X X 出现的 “绝对概率$ p(X)$ 时,需要考虑参数 θ \theta θ 所有可能取值对 p ( X ) p(X) p(X) 的贡献 。根据全概率公式,对于连续型随机变量 θ \theta θ ,观测数据 X X X的边缘概率(也叫证据) p ( X ) p(X) p(X) ,需要对在给定的 θ \theta θ 条件下 X X X 发生的概率 p ( X ∣ θ ) p(X|\theta) p(Xθ) ,乘以 θ \theta θ 自身的先验概率密度 p ( θ ) p(\theta) p(θ),然后对 θ \theta θ​所有的可能取值范围进行积分即:
p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} θp(Xθ)p(θ)dθp(Xθ)p(θ)

为了求 θ \theta θ的值,我们要最大化这个参数后验MAP:
θ M A P = arg ⁡ max ⁡ θ   p ( θ ∣ X ) = arg ⁡ max ⁡ θ   p ( X ∣ θ ) ⋅ p ( θ ) \theta_{MAP} = \underset{\theta}{\arg\max} \space p(\theta \mid X) = \underset{\theta}{\arg\max} \space p(X \mid \theta) \cdot p(\theta) θMAP=θargmax p(θX)=θargmax p(Xθ)p(θ)
其中第二个等号由于和 θ \theta θ 没有关系。求解这个 θ \theta θ值后计算
p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ} θp(Xθ)p(θ)dθp(Xθ)p(θ)

,就得到了参数的后验概率。其中 p ( X ∣ θ p(X|\theta p(Xθ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
p ( x n e w ∣ X ) = ∫ θ   p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) ) d θ p(x_{new}|X) = \int\limits_{\theta} \space p(x_{new} | \theta) \cdot p(\theta| X))d\theta p(xnewX)=θ p(xnewθ)p(θX))dθ
其中积分中的被乘数是模型,乘数是后验分布。

频率派

p ( x ∣ θ ) p(x|\theta) p(xθ) 中的 θ \theta θ是一个常量。对于 N N N个观测集来说观测集的概率为 p ( X ∣ θ ) = i i d ∏ i = 1 N p ( x i ∣ θ ) p(X \mid \theta) \stackrel{iid}{=} \prod_{i=1}^{N} p(x_i \mid \theta) p(Xθ)=iidi=1Np(xiθ。为了求 θ \theta θ的大小,我们采用最大似然MLE的方法:
θ M L E = argmax θ log ⁡ p ( X ∣ θ ) = i i d argmax θ ∑ i = 1 N log ⁡ p ( x i ∣ θ ) \theta_{MLE} = \underset{\theta}{\text{argmax}} \log p(X \mid \theta) \stackrel{iid}{=} \underset{\theta}{\text{argmax}} \sum_{i=1}^{N} \log p(x_i \mid \theta) θMLE=θargmaxlogp(Xθ)=iidθargmaxi=1Nlogp(xiθ)

总结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。

全概率公式与贝叶斯公式

全概率公式(Law of Total Probability)

**核心思想:**将复杂事件的概率分解为多个简单互斥事件的概率之和。

**适用条件:**事件组 A 1 , A 2 , A 3 ⋅ ⋅ ⋅ A n A_1,A_2,A_3 \cdot \cdot \cdot A_n A1,A2,A3An 需满足:

  • 互斥性:任意两个事件不同时发生( A i ∩ A j = ∅ A_i \cap A_j = \emptyset AiAj=

  • 穷尽性:所有事件的并集构成样本空间( A 1 ∪ A 2 ∪ A 3 ⋅ ⋅ ⋅ A n = Ω A_1 \cup A_2 \cup A_3 \cdot \cdot \cdot A_n = \Omega A1A2A3An=Ω

公式:
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B) = \sum_{i=1}^n P(B \mid A_i) P(A_i) P(B)=i=1nP(BAi)P(Ai)

假设某工厂有3条生产线( A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3),产量占比分别为50%、30%、20%,次品率分别为1%、2%、3%。求随机抽取一件产品是次品(事件B)的概率。

  • P ( A 1 ) = 0.5 , P ( B ∣ A 1 ) = 0.01 P(A_1)=0.5,P(B|A_1)=0.01 P(A1)=0.5,P(BA1)=0.01
  • P ( A 2 ) = 0.3 , P ( B ∣ A 2 ) = 0.02 P(A_2)=0.3,P(B|A_2)=0.02 P(A2)=0.3,P(BA2)=0.02
  • P ( A 3 ) = 0.5 , P ( B ∣ A 3 ) = 0.03 P(A_3)=0.5,P(B|A_3)=0.03 P(A3)=0.5,P(BA3)=0.03

P ( B ) = 0.5 × 0.01 + 0.3 × 0.02 + 0.5 × 0.03 = 0.017 P(B)=0.5 \times 0.01 + 0.3 \times 0.02 + 0.5 \times 0.03 = 0.017 P(B)=0.5×0.01+0.3×0.02+0.5×0.03=0.017

连续形式的全概率公式:
P ( B ) = ∫ − ∞ + ∞ P ( B ∣ X = x ) ⋅ f X ( x )   d x P(B) = \int_{-\infty}^{+\infty} P(B \mid X = x) \cdot f_X(x) \, dx P(B)=+P(BX=x)fX(x)dx

贝叶斯公式

核心思想:基于已知结果(事件B发生),反向推断某个原因(事件 A i A_i Ai)的概率。
P ( A i ∣ B ) = P ( B ∣ A i ) ⋅ P ( A i ) P ( B ) = P ( B ∣ A i ) ⋅ P ( A i ) ∑ j = 1 n P ( B ∣ A j ) ⋅ P ( A j ) ( 离散 ) = P ( B ∣ A i ) ⋅ P ( A i ) ∫ − ∞ + ∞ P ( B ∣ X = x ) ⋅ f X ( x )   d x ( 连续 ) P(A_i \mid B) =\frac{P(B \mid A_i) \cdot P(A_i)}{P(B)} = \frac{P(B \mid A_i) \cdot P(A_i)}{\sum_{j=1}^n P(B \mid A_j) \cdot P(A_j)}(离散)=\frac{P(B \mid A_i) \cdot P(A_i)}{\int_{-\infty}^{+\infty} P(B \mid X = x) \cdot f_X(x) \, dx}(连续) P(AiB)=P(B)P(BAi)P(Ai)=j=1nP(BAj)P(Aj)P(BAi)P(Ai)(离散)=+P(BX=x)fX(x)dxP(BAi)P(Ai)(连续)
**例子:**接上例接上例,若抽到一件次品,求它来自第2条生产线( A 2 A_2 A2)的概率。

计算:
P ( A 2 ∣ B ) = 0.3 × 0.02 0.017 ≈ 0.3529 ( 即 35.29 ) P(A_2 | B) = \frac{0.3 \times 0.02}{0.017} \approx 0.3529 \quad (\text即35.29)% P(A2B)=0.0170.3×0.020.3529(35.29)


网站公告

今日签到

点亮在社区的每一天
去签到