pytorch-Normalization-EW帮帮网

1. 为什么Normalization

下图使用sigmoid激活函数，该激活函数在超出一定范围的时候，梯度就变成了0，会出现梯度弥散的现象，因此不推荐使用sigmoid，但是某些情况下又不得不使用。
normalization是将输入转换为以0为均值以σ为方差的范围内，使得输入变成在0附近以很小的幅度变化，方便下一层进行优化。
在这里插入图片描述
在看下一幅图，其中前半部分x1和x2的值范围相差较大，在计算loss的时候，找到最优解会曲折一些，而后半部分x1和x2的值的范围相差不大，在计算loss的时候，找到最优解就会比较直接，更快一些。
因此使用normalization将输入转换的一个区间，有助于loss尽快找到最优解。
在这里插入图片描述

2. Normalization

2.1 image Normalization

在这里插入图片描述

2.2 Batch Normalization

Normalization有下图几种，这里只说Batch Normalization
假设H和W都说28，有3个通道和6个batch，那么就分别计算当前batch每个channel的均值和方差（channel0～channel2），最后输出结果是消掉batch和feature，有几个通道就有几个均值和方差，
在这里插入图片描述
下图中第一个公式使用当前batch的feature- mean/var 使得值变成[0,1]
第二个公式在第一个公式的基础上增加了一个γ倍数和偏置β，使得数据变为[β,γ]之间。
μ和σ是当前batch统计出来，不需要梯度，而β,γ是计算出来的是需要梯度信息的，在训练时还有一个running-μ和running-σ是历史统计，即之前所有batch的统计。
在这里插入图片描述