《机器学习by周志华》学习笔记-神经网络-03多层网络学习算法之误差逆传播算法

发布于:2024-11-02 ⋅ 阅读:(67) ⋅ 点赞:(0)

1、背景

由于多层网络的学习能力比单层感知机要强很多,想要训练多层网络的话,感知机的学习规则显然不使用,需要更强大的学习算法来进行训练。「误差逆传播」算法就是最杰出、最成功的神经网络学习算法之一。

现实世界的业务大多数以来使用该算法进行训练。

2、作用

不仅可以用于「多层前馈神经网络」,还适用于其它类型的神经网络,例如「训练递归神经网络」。

3、概念

误差逆传播(error BackPropagation,简称BP)算法,通常说的「BP网络」,一般是指用BP算法训练的「多层前馈神经网络」

4、推理

对于前文所述的西瓜案例来说,首先需要将离散属性处理,如果属性值之间存在序列关系,则可进行连续化,例如高、矮。否则通常转化为k维向量,k为属性值数。

给定训练集D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}

其中输入示例x拥有d个属性描述(d个输入神经元)。输入层神经元的集合表示为:

X=\left \{ x_{1},x_{2},...,x_{d} \right \},x_{i}\in X

输出l维向量(l个输出神经元)。输出层神经元的集合表示为:

Y=\left \{ y_{1},y_{2},...,y_{l} \right \},y_{j}\in Y

假设该算法为「单隐层前馈神经网络」,其隐层的神经元为q个。隐含层神经元集合表示为:

B=\left \{ b_{1},b_{2},...,b_{q} \right \},b_{h}\in B

设「输入层>>隐含层」的权重用V_{ih}表示,「隐含层>>输出层」的权重用W_{hj}表示。其网络图表示如下:

根据上图我们可以求出「隐含层」中第h个神经元b_{h}的输入为:

\alpha _{h}=x_{1}V_{1h}+x_{2}V_{2h}+...+x_{d}V_{dh}=\sum_{i=1}^{d}x_{i}V_{ih}

还可以求出「输出层」中第j个神经元y_{j}的输入为:

\beta_{j}=b_{1}W_{1j}+b_{2}W_{2j}+...+b_{d}W_{qj}=\sum_{h=1}^{q}b_{h}W_{hj}

假设「隐含层」和「输出层」神经元都使用Sigmoid激活函数

sigmoid(x)=\frac{e^{x}}{e^{x}+1}=\frac{1}{1+e^{-x}}

也就是「对率函数

对于训练样例\left ( x_{k},y_{k} \right ),假定神经网络模型的输出集合为:

\widehat{Y}=\left \{ \widehat{y}_{1}^{k},\widehat{y}_{2}^{k},...,\widehat{y}_{l}^{k} \right \},\widehat{y}_{j}^{k}\in \widehat{Y},则:

\widehat{y}_{j}^{k}=f(\beta _{j}-\theta _{j})=f(\sum_{h=1}^{q}b_{h}W_{hj}-\theta _{j})

则该神经网络在\left ( x_{k},y_{k} \right )上的均方误差为:

E_{k}=\frac{1}{2}\sum_{j=1}^{l}\left ( \widehat{y}_{j}^{k}-y_{j}^{k} \right )^{2}(这里的\frac{1}{2}是为了后续求导的便利)

上面的神经网络图中,有以下权重和阈值需要确定:

①输入层>>>隐层

权重个数=d\times q,用「V_{ih}」表示

阈值个数=q,用「\gamma _{h}」表示

②隐层>>>输出层

权重个数=q\times l,用「W_{hj}」表示

阈值个数=l,用「\theta _{j}」表示

综合①②,上述神经网络中,需要确定的参数个数有:(d\times q)+q+(q\times l)+l=q(d+1+l)+l

BP是一个迭代学习算法,在迭代的每一轮中,采用光仪的感知机学习规则对参数进行更新估计。

任意参数\nuV_{ih}\gamma _{h}W_{hj}\theta _{j}的集合)的更新估计为:

\nu \leftarrow \nu +\bigtriangleup \nu

所以我们需要求出更新梯度:\Delta W_{hj}\Delta \theta _{j}\Delta V_{ih}\Delta \gamma _{h},才可以估计以下参数:

输出层-权重:W_{hj}\leftarrow W_{hj}+\Delta W_{hj}

输出层-阈值:\theta _{j}\leftarrow \theta _{j}+\Delta \theta _{j}

隐藏层-权重:V_{ih}\leftarrow V_{ih}+\Delta V_{ih}

隐藏层-阈值:\gamma _{h}\leftarrow\gamma _{h}+ \Delta \gamma _{h}

4.1.求解「输出层-权重」更新公式\Delta W_{hj}

下面我们以上图神经网络中「隐含层>>输出层」的连接权W_{hj}为例来进行推倒,本次推到采用「梯度下降(gradient descent)」策略,以目标的负梯度方向对参数进行调整。

梯度下降法是一种优化算法,广泛用于机器学习和深度学习中,特别是用于求解最小化损失函数的问题,比如线性回归和神经网络训练。其基本思想是通过沿着目标函数(通常是对数似然损失或其他成本函数)梯度的反方向迭代更新模型参数,使得损失函数值逐渐减小。

以下是梯度下降的基本步骤:

  1. 初始化:随机选择一组初始参数值。
  2. 计算梯度:对于当前参数,计算目标函数关于这些参数的梯度,梯度表示了函数值上升最快的方向。
  3. 更新参数:将当前参数减去一个小的学习率乘以梯度,这个学习率决定了每次迭代移动的步长,防止跳过全局最优。
  4. 重复迭代:不断重复上述过程,直到达到预设的停止条件(如达到最大迭代次数、梯度接近于零或验证误差不再降低等)。

梯度下降有多种变体,包括批量梯度下降(Batch GD)、随机梯度下降(SGD)、小批量梯度下降(Mini-batch GD),以及动量梯度下降(Momentum)、自适应学习率算法(如Adam)等,它们旨在提高收敛速度、稳定性和效率。

对在\left ( x_{k},y_{k} \right )上的均方误差,给定学习率\eta\eta \in \left ( 0,1 \right )通常被设置为最小正数,例如0.1。有:

\bigtriangleup W_{hj}=-\eta \frac{\partial E_{k}}{\partial W_{hj}}

这就是「链式法则」

链式法则

也称为链规则(Chain Rule),是微积分中用于求复合函数导数的一种基本方法。当有一个复合函数是由两个或更多简单函数相乘、相除或者逐层应用的函数构成时,我们可以通过对每个简单函数求导,并将结果连接起来来计算整个复合函数的导数。这个过程类似于数学链条,每一环(即每个简单函数的导数)影响下一环。

在计算链式法则之前,我们先回顾一下复合函数(function composition)的求导法则。所谓的复合函数,在本质上