处理图像的深度神经网络(DNN)有哪些呢?

发布于:2025-04-22 ⋅ 阅读:(13) ⋅ 点赞:(0)

我按应用领域经典结构类别来总结一下:


✅ 一、图像处理常见任务

任务类型 所用网络
图像分类 CNN、ResNet、VGG、DenseNet、EfficientNet
目标检测 R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、RetinaNet
图像分割 U-Net、FCN、DeepLab系列、SegNet、Mask R-CNN
图像生成 GAN、DCGAN、Pix2Pix、CycleGAN、StyleGAN
超分辨率 SRCNN、ESPCN、EDSR、SRGAN
图像风格迁移 VGG-based Style Transfer、AdaIN、CycleGAN
图像重建/去噪 DnCNN、UNet、RED-Net、AutoEncoder
特征提取/对比学习 SimCLR、MoCo、BYOL、ResNet变体

✅ 二、按模型结构分类

1. 卷积神经网络(CNN类)
  • LeNet-5:最早用于手写数字识别。
  • AlexNet:2012年ImageNet冠军,开启深度CNN时代。
  • VGG16 / VGG19:结构简单但层数深,卷积核固定为3×3。
  • GoogLeNet (Inception):使用不同大小卷积核组合,提升特征提取能力。
  • ResNet:引入残差结构(skip connection),解决深层网络退化问题。
  • DenseNet:每层连接所有前面层的输出,增强特征传播。
  • EfficientNet:通过复合缩放策略提高效率和精度。
2. Transformer结构(Vision Transformer类)
  • ViT (Vision Transformer):将图像划分为patch,再输入Transformer。
  • Swin Transformer:采用局部窗口注意力和层次结构,兼顾精度和效率。
  • DeiT:数据高效版ViT,适合小数据训练。
3. 混合结构
  • ConvNeXt:融合CNN与Transformer优点的结构。
  • CoaT、T2T-ViT、MobileViT:针对小模型场景优化的混合架构。

✅ 三、生成与对抗模型(用于图像生成、重建)

  • AutoEncoder / Variational AutoEncoder (VAE)
  • GAN(生成对抗网络)
    • DCGAN:最基本的生成式网络
    • Pix2Pix / CycleGAN:用于图像翻译、风格迁移
    • StyleGAN / StyleGAN2:用于超清图像生成、人脸合成

✅ 四、语义分割网络(像素级任务)

  • FCN(Fully Convolutional Network)
  • U-Net / U-Net++
  • DeepLabV3 / V3+
  • Mask R-CNN:目标检测+分割二合一


网站公告

今日签到

点亮在社区的每一天
去签到