经典卷积神经网络LeNet实现(pytorch版)

发布于:2025-04-03 ⋅ 阅读:(13) ⋅ 点赞:(0)

一、理论部分

LeNet是一种经典的卷积神经网络(CNN),由Yann LeCun等人于1998年提出,最初用于手写数字识别(如MNIST数据集)。它是CNN的奠基性工作之一,其核心思想是通过局部感受野、共享权重和空间下采样来提取有效特征


1.1 核心理论

  • 局部感受野(Local Receptive Fields)
    卷积层通过小尺寸的滤波器(如5×5)扫描输入图像,每个神经元仅连接输入图像的局部区域,从而捕捉局部特征(如边缘、纹理)

  • 共享权重(Weight Sharing)
    同一卷积层的滤波器在整张图像上共享参数,显著减少参数量,增强平移不变性

  • 空间下采样(Subsampling)
    池化层(如平均池化)降低特征图的分辨率,减少计算量并增强对微小平移的鲁棒性

  • 多层特征组合
    通过交替的卷积和池化层,逐步组合低层特征(边缘)为高层特征(数字形状)


1.2 LeNet-5 网络结构

LeNet-5是LeNet系列中最著名的版本,其结构如下(输入为32×32灰度图像):

层类型 参数说明 输出尺寸
输入层 灰度图像 32×32×1
C1层 卷积层:6个5×5滤波器,步长1,无填充 28×28×6
S2层 平均池化:2×2窗口,步长2 14×14×6
C3层 卷积层:16个5×5滤波器,步长1 10×10×16
S4层 平均池化:2×2窗口,步长2 5×5×16
C5层 卷积层:120个5×5滤波器 1×1×120
F6层 全连接层:84个神经元 84
输出层 全连接 + Softmax(10类) 10

1.3 关键细节

  • 激活函数
    原始LeNet使用Tanh或Sigmoid,现代实现常用ReLU

  • 池化方式
    原始版本使用平均池化,后续改进可能用最大池化

  • 参数量优化
    C3层并非全连接至S2的所有通道,而是采用部分连接(如论文中的连接表),减少计算量

  • 输出处理
    最后通过全连接层(F6)和Softmax输出分类概率(如0-9数字)


1.4 后期改进

  • ReLU替代Tanh:解决梯度消失问题,加速训练
  • 最大池化:更关注显著特征,抑制噪声
  • Batch Normalization:稳定训练过程
  • Dropout:防止过拟合(原LeNet未使用)

1.6 意义与局限性

  • 意义
    证明了CNN在视觉任务中的有效性,启发了现代深度学习模型(如AlexNet、ResNet)

  • 局限性
    参数量小、层数浅,对复杂数据(如ImageNet)表现不足,需更深的网络结构

LeNet的设计思想至今仍是CNN的基础,理解它有助于掌握现代卷积神经网络的演变逻辑

二、代码实现

  • LeNet 是一个经典的卷积神经网络(CNN),由 Yann LeCun 等人于 1998 年提出,主要用于手写数字识别(如 MNIST 数据集)
  • MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片
  • 总体来看,LeNet(LeNet-5)由两个部分组成:(1)卷积编码器:由两个卷积层组成(2)全连接层密集块:由三个全连接层组成

2.1 导包

import torch
import torch.nn as nn
import torchvision
from tqdm import tqdm
from torchsummary import summary

2.1 数据加载和处理

# 加载 MNIST 数据集
def load_data(batch_size=64):
    transform = torchvision.transforms.Compose([
        torchvision.transforms.ToTensor(),  # 将图像转换为张量
        torchvision.transforms.Normalize((0.5,), (0.5,))  # 归一化
    ])
    
    # 下载训练集和测试集
    train_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
    test_dataset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
    
    # 创建 DataLoader
    train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
    test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)
    return train_loader, test_loader

2.3 网络构建

  • LeNet 的网络结构如下:
    • 卷积层 1:输入通道 1,输出通道 6,卷积核大小 5x5
    • 池化层 1:2x2 的最大池化
    • 卷积层 2:输入通道 6,输出通道 16,卷积核大小 5x5。
    • 池化层 2:2x2 的最大池化。
    • 全连接层 1:输入 16x5x5,输出 120
    • 全连接层 2:输入 120,输出 84
    • 全连接层 3:输入 84,输出 10(对应 10 个类别)
#定义LeNet网络架构
class LeNet(nn.Module):
    def __init__(self):
        super(LeNet,self).__init__()
        self.net=nn.Sequential(
            #卷积层1
            nn.Conv2d