本专题为《Pattern Recognition and Machine Learning》(作者:Bishop)系列学习笔记,对于书中的内容不会全部涉及到。(目录后的页码为对应内容在书中的页码),有需要电子版书的我把链接放在最后了。
2.最大似然估计和最大后验概率在回归中的应用 MLE AND MAP FOR REGRESSION
- 1.2 1.2 1.2 概率论回顾 P r o b a b i l i t y T h e o r y Probability \ Theory Probability Theory( P 16 P16 P16)
-
- 1.2.1 1.2.1 1.2.1 常用公式( P 17 P17 P17)
- 1.2.2 1.2.2 1.2.2 期望和方差 E x p e c t a t i o n a n d V a r i a n c e Expectation \ and \ Variance Expectation and Variance ( P 17 P17 P17)
- 1.2.3 1.2.3 1.2.3 贝叶斯概率 B a y e s i a n P r o b a b i l i t i e s Bayesian \ Probabilities Bayesian Probabilities ( P 22 P22 P22)
- 1.2.4 1.2.4 1.2.4 高斯分布 G a u s s i a n D i s t r i b u t i o n Gaussian \ Distribution Gaussian Distribution ( P 24 P24 P24)
- 1.2.5 1.2.5 1.2.5 重新考察曲线拟合问题 C u r v e F i t t i n g R e − V i s i t e d Curve \ Fitting \ Re-Visited Curve Fitting Re−Visited ( P 26 P26 P26)
- 1.2.6 1.2.6 1.2.6 贝叶斯曲线拟合 ( P 28 P28 P28)
1.2 1.2 1.2 概率论回顾 P r o b a b i l i t y T h e o r y Probability \ Theory Probability Theory( P 16 P16 P16)
1.2.1 1.2.1 1.2.1 常用公式( P 17 P17 P17)
加和规则 ( s u m r u l e ) : p ( X ) = ∑ Y p ( X , Y ) 加和规则(sum \ rule): p(X) = \sum_Y p(X,Y) 加和规则(sum rule):p(X)=Y∑p(X,Y) 乘积规则 ( p r o d u c t r u l e ) : p ( X , Y ) = p ( Y ∣ X ) p ( X ) 乘积规则(product \ rule): p(X,Y) = p(Y|X)p(X) 乘积规则(product rule):p(X,Y)=p(Y∣X)p(X) 贝叶斯定理 ( B a y e s ′ t h e o r e m ) : p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) 贝叶斯定理(Bayes' theorem): p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)} 贝叶斯定理(Bayes′theorem):p(Y∣X)=p(X)p(X∣Y)p(Y)其中分母可以用出现在分子中的项表示: p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) p(X) = \sum_Y{p(X|Y)p(Y)} p(X)=Y∑p(X∣Y)p(Y) 我们可以把贝叶斯定理的分母看做归一化常数,用来确保贝叶斯定理中条件概率对于所有 Y Y Y 的取值之和为 1 1 1。
1.2.2 1.2.2 1.2.2 期望和方差 E x p e c t a t i o n a n d V a r i a n c e Expectation \ and \ Variance Expectation and Variance ( P 17 P17 P17)
期望 ( E x p e c t a t i o n ) : E ( f ) = ∑ x p ( x ) f ( x ) 期望(Expectation): E(f) = \sum_x p(x)f(x) 期望(Expectation):E(f)=x∑p(x)f(x) 在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x) 的期望。因此平均值根据 x x x的不同值的相对概率加权。在连续变量的情形下,期望以对应的概率密度的积分的形式表示:
E ( f ) = ∫ p ( x ) f ( x ) d x E(f) = \int p(x)f(x) dx E(f)=∫p(x)f(x)dx
两种情形下,如果给定有限数量的 N N N 个点,这些点满足某个概率分布或者概率密度函数,那么期望可以通过求和的方式估计:
E ( f ) ⋍ 1 N ∑ n = 1 N f ( x n ) E(f) \backsimeq \frac{1}{N}\sum_{n=1}^{N}f(x_n) E(f)⋍N1n=1∑Nf(xn)
f ( x ) f(x) f(x) 的方差 ( v a r i a n c e ) (variance) (variance) 被定义为:
v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] 2 ) var[f]=E[(f(x)-E[f(x)]^2) var[f]=E[(f(x)−E[f(x)]2)也可写成:
v a r [ f ] = E [ ( f ( x ) 2 ] − E [ f ( x ) ] 2 var[f]=E[(f(x)^2]-E[f(x)]^2 var[f]=E[(f(x)2]−E[f(x)]2特别地,考虑变量 x x x 自身的方差,由下式给出:
v a r [ x ] = E [ x 2 ] − E [ x ] 2 var[x]=E[x^2]-E[x]^2 var[x]=E[x2]−E[x]2 对于两个随机变量 x x x 和 y y y,协方差 ( c o v a r i a n c e ) (covariance) (covariance) 被定义为:
c o v [ x , y ] = E x , y [ { x − E ( x ) } { y − E [ y ] } ] = E x , y [ x y ] − E [ x ] E [ y ] cov[x,y]=E_{x,y}[{\{x-E(x)\}}{\{y-E[y]\}}]=E_{x,y}[xy]-E[x]E[y] cov[x,y]=Ex,y[{x−E(x)}{y−E[y]}]=Ex,y[xy]−E[x]E[y] 它表示在多大程度上 x x x 和 y y y 会共同变化。如果 x x x 和 y y y 相互独立,那么它们的协方差为 0 0 0。
在两个随机向量 x x x 和 y y y 的情形下,协方差是⼀个矩阵:
c o v [ x , y ] = E x , y [ { x − E ( x ) } { y T − E [ y T ] } ] = E x , y [ x y T ] − E [ x ] E [ y T ] cov[x,y]=E_{x,y}[{\{x-E(x)\}}{\{y^T-E[y^T]\}}]=E_{x,y}[xy^T]-E[x]E[y^T] cov[x,y]=Ex,y[{x−E(x)}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT] 如果我们考虑向量 x x x 各个分量之间的协方差,那么我们可以将记号稍微简化⼀下:
c o v [ x ] ≡ c o v [ x , x ] cov[x]\equiv cov[x,x] cov[x]≡cov[x,x]
1.2.3 1.2.3 1.2.3 贝叶斯概率 B a y e s i a n P r o b a b i l i t i e s Bayesian \ Probabilities Bayesian Probabilities ( P 22 P22 P22)
根据随机重复事件的频率来考察概率,把这个叫做经典的 ( c l a s s i c a l ) (classical) (classical) 或者频率学家 ( f r e q u e n t i s t ) (frequentist) (frequentist)的关于概率的观点。在更加通用的贝叶斯 ( B a y e s i a n ) (Bayesian) (Bayesian) 观点中,频率提供了不确定性的⼀个定量化描述。
考虑⼀个不确定性事件,例如月球是否曾经处于围绕太阳的自己的轨道上,或者本世纪末北极冰盖是否会消失。这些事件无法重复多次,因此无法定义概率。但是,我们通常会有⼀些想法,例如,北极冰盖融化的速度等等。如果获得到了新鲜的证据,例如人造卫星收集到了⼀些新的修正信息,我们可能就会修正对于冰盖融化速度的观点。我们估计冰盖融化速度会影响我们采取的措施,例如会努力减少温室气体的排放。在这样的情况下,我们可能希望能够定量地描述不确定性,并且根据少量新的证据对不确定性进行精确的修改,对接下来将要采取的动作进行修改,或者对最终的决策进行修改。这可以通过⼀种通用的贝叶斯概率观点来实现。
即贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率。
例如在前一节多项式曲线拟合例子中的参数 w w w,在对其进行推断时,我们可以采用⼀个类似的方法。在观察到数据之前,我们有⼀些关于参数 w w w 的假设,这以先验概率 p ( w ) p(w) p(w) 的形式给出。观测数据 D = t 1 , . . . , t N D = {t_1,...,t_N } D=t1,...,tN 的效果可以通过条件概率 p ( D ∣ w ) p(D | w) p(D∣w) 表达:
p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) p(w|D)=\frac{p(D|w)p(w)}{p(D)} p(w∣D)=p(D)p(D∣w)p(w) 该式能够通过后验概率 p ( w ∣ D ) p(w|D) p(w∣D),在观测到 D D D 之后估计 w w w 的不确定性。
贝叶斯定理右侧的量 p ( D ∣ w ) p(D | w) p(D∣w) 由观测数据集 D D D 来估计,可以被看成参数向量 w w w 的函数,被称为似然函数 ( l i k e l i h o o d f u n c t i o n ) (likelihood \ function) (likelihood function)。它表达了在不同的参数向量 w w w 下,观测数据出现的可能性的大小。注意,似然函数不是 w w w 的概率分布,并且它关于 w w w 的积分并不(⼀定)等于1。
给定似然函数的定义,我们可以⽤自然语言表述贝叶斯定理:
p o s t e r i o r ∝ l i k e l i h o o d × p r i o r posterior\varpropto likelihood×prior posterior∝likelihood×prior 其中所有的量都可以看成 w w w 的函数。贝叶斯公式的分母是⼀个归⼀化常数,确保了左侧的后验概率分布是⼀个合理的概率密度,积分为 1 1 1。实际上,对贝叶斯公式的两侧关于 w w w 进行积分,我们可以用后验概率分布和似然函数来表达贝叶斯定理的分母:
p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w p(D)=\int{p(D|w)p(w)}dw p(D)=∫p(D∣w)p(w)dw 在贝叶斯观点和频率学家观点中,似然函数 p ( D ∣ w ) p(D | w) p(D∣w) 都起着重要的作用。然而,在两种观点中,使用的方式有着本质的不同。在频率学家的观点中, w w w 被认为是⼀个固定的参数,它的值由某种形式的“估计”来确定,这个估计的误差通过考察可能的数据集 D D D 的概率分布来得到。相反,从贝叶斯的观点来看,只有⼀个数据集 D D D (即实际观测到的数据集),参数的不确定性通过 w w w 的概率分布来表达。
频率学家广泛使用的⼀个估计是最大似然 ( m a x i m u m l i k e l i h o o d ) (maximum \ likelihood) (maximum likelihood) 估计,其中 w w w 的值是使似然函数 p ( D ∣ w ) p(D | w) p(D∣w) 达到最大值的 w w w 值。这对应于选择使观察到的数据集出现概率最大的 w w w 的值。在机器学习的文献中,似然函数的负对数被叫做误差函数 ( e r r o r f u n c t i o n ) (error function) (errorfunction)。由于负对数是单调递减的函数,最大化似然函数等价于最小化误差函数。
1.2.4 1.2.4 1.2.4 高斯分布 G a u s s i a n D i s t r i b u t i o n Gaussian \ Distribution Gaussian Distribution ( P 24 P24 P24)
对于⼀元实值变量 x x x,高斯分布被定义为:
N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 2 e x p { − 1 2 σ 2 ( x − μ ) 2 } N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^\frac{1}{2}}exp{\{-\frac{1}{2\sigma^2}(x-\mu)^2\}} N(x∣μ,σ2)=(2πσ2)211exp{−2σ21(x−μ)2} 它由两个参数控制: μ \mu μ,被叫做均值 ( m e a n ) (mean) (mean),以及 σ 2 \sigma^2 σ2,被叫做方差 ( v a r i a n c e ) (variance) (variance)。方差的平方根,由 σ \sigma σ 给定,被叫做标准差 ( s t a n d a r d d e v i a t i o n ) (standard \ deviation) (standard deviation)。方差的倒数,记作 β = 1 σ 2 \beta= \frac{1}{\sigma^2} β=σ21,被叫做精度 ( p r e c i s i o n ) (precision) (precision)。
根据公式,我们看到高斯分布满足:
N ( x ∣ μ , σ 2 ) > 0 N(x|\mu,\sigma^2)>0 N(x∣μ,σ2)>0 并且很容易证明高斯分布是归⼀化的,因此:
∫ ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \int_{\infty}^{\infin} N(x|\mu,\sigma^2)dx=1 ∫∞∞N(x∣μ,σ2)dx=1 因此满足了概率密度函数的两个要求。
关于x的函数在高斯分布下的期望为:
E [ x ] = ∫ ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ E[x]=\int_{\infty}^{\infin} N(x|\mu,\sigma^2)xdx=\mu E[x]=∫∞∞N(x∣μ,σ2)xdx=μ类似地,⼆阶矩为:
E [ x ] = ∫ ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 E[x]=\int_{\infty}^{\infin} N(x|\mu,\sigma^2)x^2dx=\mu^2+\sigma^2 E[x]=∫∞∞N(x∣μ,σ2)x2dx=μ2+σ2x的方差为:
v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x]=E[x^2]-E[x]^2=\sigma^2 var[x]=E[x2]−E[x]2=σ2分布的最大值被叫做众数。对于高斯分布,众数与均值恰好相等。
对于 D D D 维向量 x x x 的高斯分布,定义为:
N ( x ∣ μ , Σ ) = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 e x p { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } N(x|\mu,\Sigma)=\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}exp{\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}} N(x∣μ,Σ)=(2π)2D1∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)} 其中 D D D 维向量 µ µ µ 被称为均值, D × D D × D D×D 的矩阵 Σ Σ Σ 被称为协方差, ∣ Σ ∣ |Σ| ∣Σ∣表示 Σ Σ Σ 的行列式。
现在假定我们有⼀个观测的数据集 x = ( x 1 , . . . , x N ) T x = (x_1,...,x_N )^T x=(x1,...,xN)T,表示标量变量 x x x 的 N N N 次观测。假定各次观测是独立地从高斯分布中抽取的,分布的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 未知,我们想根据数据集来确定这些参数。独立地从相同的数据点中抽取的数据点被称为独立同分布 ( i n d e p e n d e n t a n d i d e n t i c a l l y d i s t r i b u t e d ) (independent \ and \ identically \ distributed) (independent and identically distributed),通常缩写成 i . i . d . i.i.d. i.i.d.。
由于数据集 x x x 是独立同分布的,因此给定 μ \mu μ 和 σ 2 \sigma^2 σ2 ,我们可以给出数据集的概率:
p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(x|\mu,\sigma^2)=\prod_{n=1}^{N}N(x_n|\mu,\sigma^2) p(x∣μ,σ2)=n=1∏NN(xn∣μ,σ2) 这就是高斯分布的似然函数,图像如下图所示:
高斯概率分布的似然函数由红色曲线表示。其中黑点表示数据集 x n {x_n} xn 的值,给出的似然函数对应于蓝色值的乘积。最大化似然函数涉及到调节高斯分布的均值和方差,使得这个乘积最大。
使用⼀个观测数据集来决定概率分布的参数的⼀个通用的标准是寻找使似然函数取得最大值的参数值。 在给定数据集的情况下最大化概率的参数(而不是在给定参数的情况下最大化数据集出现的概率)。对数似然函数可以写成:
I n p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 I n σ 2 − N 2 I n ( 2 π ) In p(x|\mu,\sigma^2)=-\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n-\mu)^2-\frac{N}{2}In\sigma^2-\frac{N}{2}In(2\pi) Inp(x∣μ,σ2)=−2σ21n=1∑N(xn−μ)2−2NInσ2−2NIn(2π) 关于 μ \mu μ,最大化函数,可以得到最大似然解:
μ M L = 1 N ∑ n = 1 N x n \mu_{ML}=\frac{1}{N}\sum_{n=1}^{N}x_n μML=N1n=1∑Nxn 这是样本均值 ( s a m p l e m e a n ) (sample mean) (samplemean),即观测值 x n {x_n} xn的均值。类似地,关于 σ 2 \sigma^2 σ2最大化函数,得到了方差的最大似然解:
σ M L 2 = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma^2_{ML}=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{ML})^2 σML2=N1n=1∑N(xn−μML)2 这是关于样本均值 μ M L \mu_{ML} μML 的样本方差 ( s a m p l e v a r i a n c e ) (sample variance) (samplevariance)。
这幅图说明了使用最大似然方法确定高斯分布的方差时,偏移是如何产生的。绿色曲线表示真实的高斯分布,数据点是根据这个概率分布生成的。三条红色曲线表示对三个数据集拟合得到的高斯概率分布,每个数据集包含两个蓝色的数据点,使用上述公式给出的最大似然的结果进行拟合。对三个数据集求平均,均值是正确的,但是方差被系统性地低估了,因为它是相对样本均值进行测量的,而不是相对真实的均值进行测量。
1.2.5 1.2.5 1.2.5 重新考察曲线拟合问题 C u r v e F i t t i n g R e − V i s i t e d Curve \ Fitting \ Re-Visited Curve Fitting Re−Visited ( P 26 P26 P26)
曲线拟合问题的目标是能够根据 N N N 个输入 x = ( x 1 , . . . , x N ) T x = (x_1,...,x_N )^T x=(x1,...,xN)T 组成的数据集和它们对应的目标值 t = ( t 1 , . . . , t N ) T t = (t_1,...,t_N )^T t=(t1,...,tN)T,在给出输入变量 x x x 的新值的情况下,对目标变量 t t t 进行预测。假定给定 x x x 的值,对应的 t t t 值服从高斯分布,分布的均值为 y ( x , w ) y(x, w) y(x,w),因此,有:
p ( t ∣ x , w ‾ , β ) = N ( t ∣ y ( x , w ) , β − 1 ) p(t|x,\overline{w},\beta)=N(t|y(x,w),\beta^{-1}) p(t∣x,w,β)=N(t∣y(x,w),β−1)
用训练数据 x , t {x, t} x,t,通过最大似然方法,来决定未知参数 w w w 和 β β β 的值。似然函数为:
p ( t ‾ ∣ x ‾ , w ‾ , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ‾ ) , β − 1 ) p(\overline{t}|\overline{x},\overline{w},\beta)=\prod_{n=1}^{N}N(t_n|y(x_n,\overline{w}),\beta^{-1}) p(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1)
可以得到对数似然函数:
I n p ( t ‾ ∣ x ‾ , w ‾ , β ) = − β 2 ∑ n = 1 N { y ( x n , w ‾ ) − t n } + N 2 I n β − N 2 I n ( 2 π ) In p(\overline{t}|\overline{x},\overline{w},\beta)=-\frac{\beta}{2}\sum_{n=1}^{N}{\{y(x_n,\overline{w})-t_n\}}+\frac{N}{2}In\beta-\frac{N}{2}In(2\pi) Inp(t∣x,w,β)=−2βn=1∑N{y(xn,w)−tn}+2NInβ−2NIn(2π) 首先考虑确定多项式系数的最大似然解(记作 w M L w_{ML} wML)。我们可以省略公式右侧的最后两项,因为他们不依赖于 w w w。并且,我们注意到,使用⼀个正的常数系数来缩放对数似然函数并不会改变关于 w w w 的最大值的位置,因此我们可以用 1 2 \frac{1}{2} 21 来代替系数 β 2 \frac{\beta}{2} 2β。最后,我们不去最大化似然函数,而是等价地去最小化负对数似然函数。于是我们看到,⽬前为止对于确定 w w w 的问题来说,最大化似然函数等价于最小化前面定义的平方和误差函数 (即 w ‾ = X + t ‾ \overline{w} = \Chi^+\overline{t} w=X+t)。因此,在高斯噪声的假设下,平方和误差函数是最大化似然函数的⼀个自然结果。
关于 β \beta β 来最大化函数:
1 β M L = 1 N ∑ n = 1 N { y ( x n , w ‾ M L ) − t n } 2 \frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^{N}{\{ y(x_n,{\overline{w}_{ML}})-t_n \}^2} βML1=N1n=1∑N{y(xn,wML)−tn}2
现在朝着贝叶斯的方法前进⼀步,引入在多项式系数 w w w 上的先验分布。简单起见,我考虑下面形式的高斯分布(先验):
p ( w ‾ ∣ α ) = N ( w ‾ ∣ 0 ‾ , α − 1 I ) = ( α 2 π ) M + 1 2 e x p { − α 2 w ‾ T w ‾ } p(\overline{w}|\alpha)=N(\overline{w}|\overline{0},\alpha^{-1}\Iota)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp{\{-\frac{\alpha}{2}\overline{w}^T\overline{w}\}} p(w∣α)=N(w∣0,α−1I)=(2πα)2M+1exp{−2αwTw} 其中 α \alpha α 是分布的精度, M + 1 M+1 M+1是对于 M M M 阶多项式的向量 w w w 的元素的总数。因为 l i k e l i h o o d likelihood likelihood 想要 M M M 取得更大,这样能得到更大的 l i k e l i h o o d likelihood likelihood,但太大的 M M M 会引起过拟合,所以我们希望更多的 w w w 能取0,故先验的高斯分布的均值为0。 像 α \alpha α 这样控制模型参数分布的参数,被称为超参数 ( h y p e r p a r a m e t e r s ) (hyperparameters) (hyperparameters)。使用贝叶斯定理, w w w 的后验概率正比于先验分布和似然函数的乘积。
p ( w ‾ ∣ x ‾ , t ‾ , α , β ) ∝ p ( t ‾ ∣ x ‾ , w ‾ , β ) p ( w ‾ ∣ α ) p(\overline{w}|\overline{x},\overline{t},\alpha,\beta)\varpropto p(\overline{t}|\overline{x},\overline{w},\beta)p(\overline{w}|\alpha) p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α) 给定数据集,我们现在通过寻找最可能的 w w w 值(即最大化后验概率)来确定 w w w。这种技术被称为最大后验 ( m a x i m u m p o s t e r i o r ) (maximum \ posterior) (maximum posterior),简称 M A P MAP MAP。其中先验与最大似然的高斯分布都已经给出:
先验: p ( w ‾ ∣ α ) = N ( w ‾ ∣ 0 ‾ , α − 1 I ) = ( α 2 π ) M + 1 2 e x p { − α 2 w ‾ T w ‾ } 先验:p(\overline{w}|\alpha)=N(\overline{w}|\overline{0},\alpha^{-1}\Iota)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp{\{-\frac{\alpha}{2}\overline{w}^T\overline{w}\}} 先验:p(w∣α)=N(w∣0,α−1I)=(2πα)2M+1exp{−2αwTw} 最大似然: p ( t ‾ ∣ x ‾ , w ‾ , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ‾ ) , β − 1 ) 最大似然:p(\overline{t}|\overline{x},\overline{w},\beta)=\prod_{n=1}^{N}N(t_n|y(x_n,\overline{w}),\beta^{-1}) 最大似然:p(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1) 故最大后验为: p ( w ‾ ∣ x ‾ , t ‾ , α , β ) = N ( w ‾ ∣ 0 ‾ , α − 1 I ) ∏ n = 1 N N ( t n ∣ y ( x n , w ‾ ) , β − 1 ) 故最大后验为:p(\overline{w}|\overline{x},\overline{t},\alpha,\beta) = N(\overline{w}|\overline{0},\alpha^{-1}\Iota)\prod_{n=1}^{N}N(t_n|y(x_n,\overline{w}),\beta^{-1}) 故最大后验为:p(w∣x,t,α,β)=N(w∣0,α−1I)n=1∏NN(tn∣y(xn,w),β−1)经过简化后,最大化后验概率就是最小化下式:
β 2 ∑ n = 1 N { y ( x n , w ‾ ) − t n } 2 + α 2 w ‾ T w ‾ \frac{\beta}{2}\sum_{n=1}^{N}{\{y(x_n,\overline{w})-t_n\}^2}+\frac{\alpha}{2}\overline{w}^T\overline{w} 2βn=1∑N{y(xn,w)−tn}2+2αwTw 最后解出:
w ‾ = ( X T X + α β I ) − 1 X T t ‾ \overline{w}=(\Chi^T\Chi+\frac{\alpha}{\beta}\Iota)^{-1}\Chi^T\overline{t} w=(XTX+βαI)−1XTt因此最大化后验概率等价于最小化正则化的平方和误差函数,正则化参数为 λ = α β \lambda=\frac{\alpha}{\beta} λ=βα. 与 M L E MLE MLE 不同的是,在 M A P MAP MAP 中 w ‾ \overline{w} w 依赖于噪声系数 β \beta β,能更好的预测。
1.2.6 1.2.6 1.2.6 贝叶斯曲线拟合 ( P 28 P28 P28)
在曲线拟合问题中,我们知道训练数据 x ‾ \overline{x} x 和 t ‾ \overline{t} t,以及⼀个新的测试点 x x x,我们的目标是预测 t t t 的值。因此我们想估计预测分布 p ( t ∣ x , x ‾ , t ‾ ) p(t | x, \overline{x}, \overline{t}) p(t∣x,x,t)。这里我们要假设参数 α \alpha α 和 β \beta β 是固定的,事先知道的。
简单地说,贝叶斯方法就是自始至终地使用概率的加和规则和乘积规则。因此预测概率可以写成下面的形式:
p ( t ∣ x , x ‾ , t ‾ ) = ∫ p ( t ∣ x , t ‾ ) p ( w ‾ ∣ x ‾ , t ‾ ) d w p(t | x, \overline{x}, \overline{t})=\int p(t | x, \overline{t})p(\overline{w} | \overline{x}, \overline{t})dw p(t∣x,x,t)=∫p(t∣x,t)p(w∣x,t)dw p ( w ‾ ∣ x ‾ , t ‾ ) p(\overline{w} | \overline{x}, \overline{t}) p(w∣x,t)是参数的后验分布。预测分布由高斯的形式给出:
p ( t ∣ x , x ‾ , t ‾ ) = N ( t ∣ m ( x ) , s 2 ( x ) ) p(t | x, \overline{x}, \overline{t})=N(t|m(x),s^2(x)) p(t∣x,x,t)=N(t∣m(x),s2(x)) 其中,均值和方差分别为:
m ( x ) = β ϕ ( x ) T S ∑ n = 1 N ϕ ( x n ) t n m(x)=\beta\phi(x)^TS\sum_{n=1}^{N}\phi(x_n)t_n m(x)=βϕ(x)TSn=1∑Nϕ(xn)tn s 2 ( x ) = β − 1 + ϕ ( x ) T S ϕ ( x ) s^2(x)=\beta^{-1}+\phi(x)^TS\phi(x) s2(x)=β−1+ϕ(x)TSϕ(x)其中,矩阵 S S S 由下式给出:
S − 1 = α I + β ∑ n = 1 N ϕ ( x n ) ϕ ( x n ) T S^{-1}=\alpha\Iota+\beta\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T S−1=αI+βn=1∑Nϕ(xn)ϕ(xn)T其中, I \Iota I 是单位矩阵,向量 ϕ ( x ) \phi(x) ϕ(x) 被定义为 ϕ i ( x ) = x i ( i = 0 , . . . , M ) \phi_i(x)= x^i(i = 0,...,M) ϕi(x)=xi(i=0,...,M)。