深度学习-分类

发布于:2025-06-30 ⋅ 阅读:(22) ⋅ 点赞:(0)

深度学习架构
├── 序列建模架构
│   ├── 基础RNN
│   ├── 改进型RNN(LSTM、GRU、Bi-RNN)
│   └── 自注意力模型(Transformer)
├── 空间特征架构(CNN及变种)
├── 图结构架构(GNN)
├── 生成模型(GAN、VAE、扩散模型)
└── 强化学习架构(DQN、Actor-Critic)
  • RNN是序列建模的核心基础,LSTM/GRU等是其优化版本,而Transformer则是序列建模的革命性突破(通过自注意力机制替代循环结构)

  • 在深度学习领域,按数据类型与处理逻辑分类是最常见、最基础的分类方式之一,因为它直接关联数据的固有特性和模型的核心设计逻辑,也是初学者入门时最先接触的分类框架。


(重点)一、按数据类型与处理逻辑分类

1. 序列数据(时序/顺序相关)
  • 特点:数据元素之间存在时间或顺序依赖(如文本、语音、股票价格)。

  • 代表模型

    • 循环神经网络(RNN):基础RNN、LSTM、GRU、Bi-RNN。
    • 自注意力模型:Transformer及其变体(BERT、GPT、T5等)。
    • 时序卷积网络(TCN):用一维卷积处理序列数据,避免RNN的循环计算瓶颈。
2. 网格状数据(空间相关)
  • 特点:数据具有二维(图像)或三维(视频、体素)空间结构。

  • 代表模型

    • 卷积神经网络(CNN):LeNet、AlexNet、ResNet、U-Net。
    • 视觉Transformer(ViT):将图像分块后用自注意力机制处理。
    • 三维卷积网络(3D CNN):用于视频动作识别或医学影像分析。
3. 图结构数据(非欧几里得结构)
  • 特点:数据由节点和边组成(如社交网络、分子结构、知识图谱)。

  • 代表模型

    • 图神经网络(GNN):GCN(图卷积网络)、GAT(图注意力网络)、GraphSAGE。
    • 图循环神经网络(GRNN):结合RNN和图结构的时序建模。
4. 其他特殊类型数据
  • 图序列数据:如交通网络的时序流量数据(需同时建模空间图结构和时间序列),可使用时空图神经网络(ST-GNN)
  • 多模态数据:融合图像、文本、语音等多种类型数据,如CLIP(图像-文本跨模态模型)、AudioGPT(语音-文本模型)。

(重点)二、按模型功能与应用场景分类

领域 判别式 AI(深度学习应用) 生成式 AI(深度学习应用)
自然语言处理 文本分类(BERT)、语音识别(RNN) 文本生成(GPT)、机器翻译(Transformer)
计算机视觉 目标检测(YOLO)、人脸识别(CNN) 图像生成(Diffusion 模型)、视频预测
医疗领域 癌症病理图像分类(CNN) 医学影像合成(VAE)、药物分子设计(GAN)
自动驾驶 路况识别(CNN+RNN) 虚拟场景生成(模拟复杂路况,训练自动驾驶模型)
1. 判别模型(分类/回归)
  • 目标:对输入数据进行分类或预测连续值。

  • 代表模型

    • 图像分类:ResNet、EfficientNet。
    • 文本分类:TextCNN、FastText。
    • 回归任务:基于CNN的图像超分辨率模型、基于RNN的时序预测模型。
2. 生成模型
  • 目标:生成新的样本数据(如图像、文本、语音)。

  • 代表模型

    • 图像生成:GAN(如StyleGAN)、扩散模型(如Stable Diffusion)。
    • 文本生成:GPT系列、LLaMA、PaLM。
    • 语音生成:WaveNet、Tacotron(语音合成)。
3. 强化学习模型
  • 目标:通过与环境交互学习最优行为策略。

  • 代表模型

    • Atari游戏AI:DQN(深度Q网络)、Rainbow DQN。
    • 机器人控制:PPO(近端策略优化)、SAC(软演员-评论家算法)。
    • 棋类游戏:AlphaGo(CNN+蒙特卡洛树搜索)、AlphaZero(纯神经网络+强化学习)。
4. 无监督/自监督模型
  • 目标:从无标签数据中学习特征表示。

  • 代表模型

    • 图像特征学习:SimCLR(对比学习)、MoCo(动量对比)。
    • 文本预训练:BERT(掩码语言模型)、GPT(自回归语言模型)。
    • 聚类模型:DeepCluster、DEC(深度嵌入聚类)。

三、按网络结构与核心机制分类

1. 基于卷积的架构
  • 核心操作:卷积层(局部特征提取)+ 池化层(降维)。
  • 应用场景:图像、音频等网格状数据。
  • 变种:空洞卷积、可变形卷积、分组卷积(如ResNeXt)。
2. 基于循环的架构
  • 核心操作:隐藏层状态循环传递,捕捉序列依赖。
  • 应用场景:文本、语音等序列数据。
  • 变种:LSTM、GRU、双向RNN。
3. 基于自注意力的架构
  • 核心操作:自注意力机制(全局依赖建模)。
  • 应用场景:序列数据(NLP)、图像/视频(CV)。
  • 代表模型:Transformer、ViT、Swin Transformer。
4. 基于胶囊的架构
  • 核心思想:用“胶囊”(向量神经元)替代传统标量神经元,建模实体的姿态、位置等空间关系。
  • 代表模型:CapsNet(胶囊网络),用于图像识别中的姿态不变性建模。

四、按网络规模与训练方式分类

1. 小型轻量级模型
  • 特点:参数量少、计算效率高,适合边缘设备或实时应用。
  • 代表模型:MobileNet(深度可分离卷积)、ShuffleNet(通道洗牌降参)、TinyBERT(模型蒸馏)。
2. 大型预训练模型(大模型)
  • 特点:参数量巨大(数十亿到万亿级),在海量数据上预训练后微调。

  • 代表模型

    • NLP:GPT-4(1.8万亿参数)、PaLM 2、LLaMA 2。
    • CV:Swin Transformer V2、CLIP(40亿参数)。
    • 多模态:GPT-4V(视觉-语言)、Gemini(文本-图像-语音)。
3. 分布式训练模型
  • 特点:单卡无法容纳模型参数,需通过数据并行、模型并行、流水线并行等方式分布式训练。
  • 技术挑战:通信开销、负载均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。

(重点)五、按任务类型分类

1. 计算机视觉(CV)模型
  • 图像分类、目标检测、语义分割、图像生成、视频理解等。
  • 代表模型:YOLO(目标检测)、Mask R-CNN(实例分割)、Stable Diffusion(图像生成)。
2. 自然语言处理(NLP)模型
  • 文本分类、机器翻译、问答系统、文本生成等。
  • 代表模型:BERT(双向编码)、GPT(自回归生成)、T5(文本到文本迁移学习)。
3. 语音处理模型
  • 语音识别(ASR)、语音合成(TTS)、语音情感分析等。
  • 代表模型:DeepSpeech(语音转文字)、Tacotron 2(文字转语音)。
4. 跨领域模型
  • 多模态任务(如图文检索、视频描述生成),如ALBEF(视觉-语言预训练)、Flamingo(视频-语言模型)。

六、总结:分类维度的交叉与融合

实际应用中,模型可能属于多个分类维度的交叉领域,例如:

  • Transformer:既属于“序列建模架构”(按数据类型),又属于“基于自注意力的架构”(按核心机制),还可用于“生成模型”(如GPT)或“判别模型”(如BERT)。
  • ViT:属于“网格状数据架构”(处理图像),但核心机制是自注意力,而非卷积。

这种多维分类方式体现了深度学习领域的灵活性和跨领域特性,不同维度的分类帮助研究者和工程师从数据特性、任务目标、技术原理等角度选择或设计合适的模型。


网站公告

今日签到

点亮在社区的每一天
去签到