Neural Network的Training

1.Function set

2.Loss function( $C^n:y^n\rightarrow \hat{y}$ 的距离)

$L(\theta )=\sum_{n=1}^{N}C^n(\theta )$

对某一个参数w求偏导得

$\frac{\partial L(\theta )}{\partial w} = \sum_{n=1}^{N} \frac{\partial C^n(\theta )}{\partial w}$

由对N个training data求偏微分简化成对一个training data求偏微分，记作 $\frac{\partial C}{\partial w}$ ，再求和就可。

$\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \cdot \frac{\partial C}{\partial z}$

Forward pass: 值是经过w与z连接的input的值(第一层是x,从第二层开始是前一层的output)。

$\frac{\partial z}{\partial w_1} = x_1,\frac{\partial z}{\partial w_2} = x_2 \dots$

Backward pass:对于C，后面还有很多层，我们不知道怎么算 $\frac{\partial C}{\partial z}$ ，可以先假设Activation Function(激活函数)为 $a=\sigma (z)$ (激活函数不唯一，只是举例），且假设a之后只有两个分支

$\frac{\partial C}{\partial z} = \frac{\partial C}{\partial a} \cdot \frac{\partial a}{\partial z}$

$\frac{\partial C}{\partial a} = \frac{\partial z^{'}}{\partial a} \cdot \frac{\partial C}{\partial z^{'}}+\frac{\partial z^{''}}{\partial a} \cdot \frac{\partial C}{\partial z^{''}}$

其中 $\frac{\partial a}{\partial z} = \sigma ^{'}(z)\quad\frac{\partial z^{'}}{\partial a} = w_3\quad\frac{\partial z^{''}}{\partial a}=w_4$ ,

问题就来到了如何求 $\frac{\partial C}{\partial z^{'}} \quad \frac{\partial C}{\partial z^{''}}$ ，依旧不知道，依旧假设我们知道了

把上述的代入原式可得：

最后，讨论一下到底怎么求 $\frac{\partial C}{\partial z^{'}} \quad \frac{\partial C}{\partial z^{''}}$

Case1. Output Layer，即z'和z''后面一层就是输出层了，那么就秒算啦~

Case2. Not Output Layer

一直往后面的Layer找，直到到达输出层，即第一种情况，再返回（递归），没有效率

换个方向就变得有效了，即从输出开始反推，