一、VGG神经网络
VGG的亮点在于它通过堆叠多个卷积层,以小的卷积核和池化层的方式来增加网络深度,从而实现高精度的图像识别。这种方法可以有效地捕获图像中的高级特征,并通过不断拟合训练数据来提高识别准确率。
1. 小卷积作用
DC Ciresan等人研究表明使用更小的卷积是有利的。牛津大学Visual Geometry Group提出VGG,使用了大量小卷积 核,获得了ILSVRC 2014分类任务第2名。
"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],
1.1 感受野的作用
感受野是个相对概念,某层feature map上的元素看到前面不同层上的区域范围是不同的,通常在不特殊指定的情况下,感受野指的是看到输入图像上的区域。
- 网络层数增加(非线性表达能力增加)
- 网络参数数量减少
2. VGG版本
根据深度不同,有VGG11,VGG13,VGG16,VGG19。在日常使用过程中一般使用16层的那个,即下图中的D。
cfgs = {
"A": [64, "M", 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],
"B": [64, 64, "M", 128, 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],
"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],
"E": [64, 64, "M", 128, 128, "M", 256, 256, 256, 256, "M", 512, 512, 512, 512, "M", 512, 512, 512, 512, "M"],
}
self.classifier = nn.Sequential(
nn.Linear(512 * 7 * 7, 4096),
nn.ReLU(True),
nn.Dropout(p=dropout),
nn.Linear(4096, 4096),
nn.ReLU(True),
nn.Dropout(p=dropout),
nn.Linear(4096, num_classes),
)
下图展示了他们的表现效果:
3. 存在的问题
尽管VGG在许多方面都表现优秀,但它也有一些缺陷:
- 该网络架构非常大,并且需要大量的计算资源来训练。这意味着,如果你想在较小的设备上使用VGG,比如移动设备或个人电脑,会发现它非常慢,并且可能无法获得足够的性能。
- 由于VGG网络架构非常深,它可能会导致梯度消失或爆炸的问题。这是由于在非常深的神经网络中,梯度在传播过程中可能会变得非常小或非常大,从而导致模型无法正常训练。
因此,VGG网络架构虽然在许多方面都非常优秀,但是要注意这些缺点可能导致的问题。
4. VGG网络测试
将全连接替换为卷积,从而适应不同输入大小的图。
- 第1个全连接层转换为7×7的卷积层
- 后两个全连接层转换为1×1的卷积层
- 得到一个空间维度可变的多通道的概率图(class score map),空间维度求和平均作为预测概率
4.1 单尺度测试
- 随着网络深度增加,总体性能变好。
- 1×1卷积加深网络深度有用(C比B强)。
- 用1个5×5卷积替换B的2个3×3卷积,性能下降7%。
- 网络深度的简单增加使得优化难度增加,单尺度 VGG19训练结果可能不如VGG16。
- 多尺度裁剪训练(scale jittering)有助于提升性能。
4.2 多尺度测试
相比于单尺度测试,有进一步 的性能提升。
单尺度训练的测试尺度:{S − 32, S, S + 32}
多尺度训练的测试尺度:{Smin, 0.5(Smin + Smax), Smax}
4.3 密集测试与多尺度裁剪
训练尺度:[256; 512]
测试尺度: {256, 384, 512}
多尺度裁剪更好,两者可以互补。
4.4 多模型集成
7个模型集成最小误差7.3%,2个最好的模型集成最小误差6.8%。
4.5 与其他模型对比
单模型精度VGG(7.0%)强于GoogLeNet(7.9%)
5. VGG总体特征
与AlexNet同为链式结构,而且更加简单
- 结构非常简洁,整个网络使用了同样大小的卷积核尺寸(3×3)和最大池化尺寸(2×2)
- 几个小滤波器(3×3)卷积层的组合比一个大滤波器(5×5或7×7)卷积层好
- 层数更深更宽(11层、13层、16层、19层)
- 池化核变小且为偶数
- 验证了通过不断加深网络结构可以提升性能