LeNet卷积神经网络
一、理论部分
LeNet是一种经典的
卷积神经网络
(CNN),由Yann LeCun等人于1998年提出,最初用于手写数字识别(如MNIST数据集)。它是CNN的奠基性工作之一,其核心思想
是通过局部感受野、共享权重和空间下采样来提取有效特征
1.1 核心理论
局部感受野(Local Receptive Fields):
卷积层通过小尺寸的滤波器(如5×5)扫描输入图像,每个神经元仅连接输入图像的局部区域,从而捕捉局部特征(如边缘、纹理)共享权重(Weight Sharing):
同一卷积层的滤波器在整张图像上共享参数,显著减少参数量,增强平移不变性空间下采样(Subsampling):
池化层(如平均池化)降低特征图的分辨率,减少计算量并增强对微小平移的鲁棒性多层特征组合:
通过交替的卷积和池化层,逐步组合低层特征(边缘)为高层特征(数字形状)
1.2 LeNet-5 网络结构
LeNet-5是LeNet系列中最著名的版本,其结构如下(输入为32×32灰度图像):
层类型 | 参数说明 | 输出尺寸 |
---|---|---|
输入层 | 灰度图像 | 32×32×1 |
C1层 | 卷积层:6个5×5滤波器,步长1,无填充 | 28×28×6 |
S2层 | 平均池化:2×2窗口,步长2 | 14×14×6 |
C3层 | 卷积层:16个5×5滤波器,步长1 | 10×10×16 |
S4层 | 平均池化:2×2窗口,步长2 | 5×5×16 |
C5层 | 卷积层:120个5×5滤波器 | 1×1×120 |
F6层 | 全连接层:84个神经元 | 84 |
输出层 | 全连接 + Softmax(10类) | 10 |
1.3 关键细节
激活函数
:
原始LeNet使用Tanh或Sigmoid,现代实现常用ReLU池化方式
:
原始版本使用平均池化,后续改进可能用最大池化参数量优化
:
C3层并非全连接至S2的所有通道,而是采用部分连接(如论文中的连接表),减少计算量输出处理
:
最后通过全连接层(F6)和Softmax输出分类概率(如0-9数字)
1.4 后期改进
- ReLU替代Tanh:解决梯度消失问题,加速训练
- 最大池化:更关注显著特征,抑制噪声
- Batch Normalization:稳定训练过程
- Dropout:防止过拟合(原LeNet未使用)
1.6 意义与局限性
意义:
证明了CNN在视觉任务中的有效性,启发了现代深度学习模型(如AlexNet、ResNet)局限性:
参数量小、层数浅,对复杂数据(如ImageNet)表现不足,需更深的网络结构
LeNet的设计思想至今仍是CNN的基础,理解它有助于掌握现代卷积神经网络的演变逻辑
二、代码实现
- LeNet 是一个经典的卷积神经网络(CNN),由 Yann LeCun 等人于 1998 年提出,主要用于手写数字识别(如 MNIST 数据集)
- MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片
- 总体来看,LeNet(LeNet-5)由两个部分组成:(1)
卷积编码器
:由两个卷积层组成(2)全连接层密集块
:由三个全连接层组成
2.1 导包
import torch
import torch.nn as nn
import torchvision
from tqdm import tqdm
from torchsummary import summary
2.1 数据加载和处理
# 加载 MNIST 数据集
def load_data(batch_size=64):
transform = torchvision.transforms.Compose([
torchvision.transforms.ToTensor(), # 将图像转换为张量
torchvision.transforms.Normalize((0.5,), (0.5,)) # 归一化
])
# 下载训练集和测试集
train_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
# 创建 DataLoader
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)
return train_loader, test_loader
2.3 网络构建
- LeNet 的网络结构如下:
- 卷积层 1:输入通道 1,输出通道 6,卷积核大小 5x5
- 池化层 1:2x2 的最大池化
- 卷积层 2:输入通道 6,输出通道 16,卷积核大小 5x5。
- 池化层 2:2x2 的最大池化。
- 全连接层 1:输入 16x5x5,输出 120
- 全连接层 2:输入 120,输出 84
- 全连接层 3:输入 84,输出 10(对应 10 个类别)
#定义LeNet网络架构
class LeNet(nn.Module):
def __init__(self):
super(LeNet,self).__init__()
self.net=nn.Sequential(
#卷积层1
nn.Conv2d