目录
前言
感觉听完再看笔记,再补充效果不是很好,决定边听边记录一下。从P12到了P15,再回到P13。
一、Why deep?
深度神经网络效果的好的原因是它可以做到模块化(与函数类似),需要的训练数据比较少。
(与AI = deep learning+big data观点相反,就是没有足够的data才要deep learning)
二、语音识别(暂时跳过)
三、Backpropagation
1.Gradient Dscent
Backpropagation(反向传播算法)就是Gradient Dscent,只是让它在计算梯度算子的时候变得更有效率。
1.1 Chain rule(链式法则)
高数上对复合函数求偏导有用到,理解起来没什么难度。
2.Backpropagation(反向传播算法)
Neural Network的Training
1.Function set
2.Loss function(
的距离)
![]()
对某一个参数w求偏导得
由对N个training data求偏微分简化成对一个training data求偏微分,记作
,再求和就可。
Forward pass: 值是经过w与z连接的input的值(第一层是x,从第二层开始是前一层的output)。
Backward pass:对于C,后面还有很多层,我们不知道怎么算
,可以先假设Activation Function(激活函数)为
(激活函数不唯一,只是举例),且假设a之后只有两个分支
其中
,
问题就来到了如何求
,依旧不知道,依旧假设我们知道了
把上述的代入原式可得:
最后,讨论一下到底怎么求
Case1. Output Layer,即z'和z''后面一层就是输出层了,那么就秒算啦~
Case2. Not Output Layer
一直往后面的Layer找,直到到达输出层,即第一种情况,再返回(递归),没有效率
换个方向就变得有效了,即从输出开始反推,
总结
本文含有隐藏内容,请 开通VIP 后查看