深度学习-分类-EW帮帮网

深度学习-分类方式

深度学习架构
├── 序列建模架构
│   ├── 基础RNN
│   ├── 改进型RNN（LSTM、GRU、Bi-RNN）
│   └── 自注意力模型（Transformer）
├── 空间特征架构（CNN及变种）
├── 图结构架构（GNN）
├── 生成模型（GAN、VAE、扩散模型）
└── 强化学习架构（DQN、Actor-Critic）

RNN是序列建模的核心基础，LSTM/GRU等是其优化版本，而Transformer则是序列建模的革命性突破（通过自注意力机制替代循环结构）
在深度学习领域，按数据类型与处理逻辑分类是最常见、最基础的分类方式之一，因为它直接关联数据的固有特性和模型的核心设计逻辑，也是初学者入门时最先接触的分类框架。

（重点）一、按数据类型与处理逻辑分类

1. 序列数据（时序/顺序相关）

特点：数据元素之间存在时间或顺序依赖（如文本、语音、股票价格）。
代表模型：
- 循环神经网络（RNN）：基础RNN、LSTM、GRU、Bi-RNN。
- 自注意力模型：Transformer及其变体（BERT、GPT、T5等）。
- 时序卷积网络（TCN）：用一维卷积处理序列数据，避免RNN的循环计算瓶颈。

2. 网格状数据（空间相关）

特点：数据具有二维（图像）或三维（视频、体素）空间结构。
代表模型：
- 卷积神经网络（CNN）：LeNet、AlexNet、ResNet、U-Net。
- 视觉Transformer（ViT）：将图像分块后用自注意力机制处理。
- 三维卷积网络（3D CNN）：用于视频动作识别或医学影像分析。

3. 图结构数据（非欧几里得结构）

特点：数据由节点和边组成（如社交网络、分子结构、知识图谱）。
代表模型：
- 图神经网络（GNN）：GCN（图卷积网络）、GAT（图注意力网络）、GraphSAGE。
- 图循环神经网络（GRNN）：结合RNN和图结构的时序建模。

4. 其他特殊类型数据

图序列数据：如交通网络的时序流量数据（需同时建模空间图结构和时间序列），可使用时空图神经网络（ST-GNN）。
多模态数据：融合图像、文本、语音等多种类型数据，如CLIP（图像-文本跨模态模型）、AudioGPT（语音-文本模型）。

（重点）二、按模型功能与应用场景分类

领域	判别式 AI（深度学习应用）	生成式 AI（深度学习应用）
自然语言处理	文本分类（BERT）、语音识别（RNN）	文本生成（GPT）、机器翻译（Transformer）
计算机视觉	目标检测（YOLO）、人脸识别（CNN）	图像生成（Diffusion 模型）、视频预测
医疗领域	癌症病理图像分类（CNN）	医学影像合成（VAE）、药物分子设计（GAN）
自动驾驶	路况识别（CNN+RNN）	虚拟场景生成（模拟复杂路况，训练自动驾驶模型）

1. 判别模型（分类/回归）

目标：对输入数据进行分类或预测连续值。
代表模型：
- 图像分类：ResNet、EfficientNet。
- 文本分类：TextCNN、FastText。
- 回归任务：基于CNN的图像超分辨率模型、基于RNN的时序预测模型。

2. 生成模型

目标：生成新的样本数据（如图像、文本、语音）。
代表模型：
- 图像生成：GAN（如StyleGAN）、扩散模型（如Stable Diffusion）。
- 文本生成：GPT系列、LLaMA、PaLM。
- 语音生成：WaveNet、Tacotron（语音合成）。

3. 强化学习模型

目标：通过与环境交互学习最优行为策略。
代表模型：
- Atari游戏AI：DQN（深度Q网络）、Rainbow DQN。
- 机器人控制：PPO（近端策略优化）、SAC（软演员-评论家算法）。
- 棋类游戏：AlphaGo（CNN+蒙特卡洛树搜索）、AlphaZero（纯神经网络+强化学习）。

4. 无监督/自监督模型

目标：从无标签数据中学习特征表示。
代表模型：
- 图像特征学习：SimCLR（对比学习）、MoCo（动量对比）。
- 文本预训练：BERT（掩码语言模型）、GPT（自回归语言模型）。
- 聚类模型：DeepCluster、DEC（深度嵌入聚类）。

三、按网络结构与核心机制分类

1. 基于卷积的架构

核心操作：卷积层（局部特征提取）+ 池化层（降维）。
应用场景：图像、音频等网格状数据。
变种：空洞卷积、可变形卷积、分组卷积（如ResNeXt）。

2. 基于循环的架构

核心操作：隐藏层状态循环传递，捕捉序列依赖。
应用场景：文本、语音等序列数据。
变种：LSTM、GRU、双向RNN。

3. 基于自注意力的架构

核心操作：自注意力机制（全局依赖建模）。
应用场景：序列数据（NLP）、图像/视频（CV）。
代表模型：Transformer、ViT、Swin Transformer。

4. 基于胶囊的架构

核心思想：用“胶囊”（向量神经元）替代传统标量神经元，建模实体的姿态、位置等空间关系。
代表模型：CapsNet（胶囊网络），用于图像识别中的姿态不变性建模。

四、按网络规模与训练方式分类

1. 小型轻量级模型

特点：参数量少、计算效率高，适合边缘设备或实时应用。
代表模型：MobileNet（深度可分离卷积）、ShuffleNet（通道洗牌降参）、TinyBERT（模型蒸馏）。

2. 大型预训练模型（大模型）

特点：参数量巨大（数十亿到万亿级），在海量数据上预训练后微调。
代表模型：
- NLP：GPT-4（1.8万亿参数）、PaLM 2、LLaMA 2。
- CV：Swin Transformer V2、CLIP（40亿参数）。
- 多模态：GPT-4V（视觉-语言）、Gemini（文本-图像-语音）。

3. 分布式训练模型

特点：单卡无法容纳模型参数，需通过数据并行、模型并行、流水线并行等方式分布式训练。
技术挑战：通信开销、负载均衡、梯度同步（如DeepSpeed、Megatron-LM框架）。

（重点）五、按任务类型分类

1. 计算机视觉（CV）模型

图像分类、目标检测、语义分割、图像生成、视频理解等。
代表模型：YOLO（目标检测）、Mask R-CNN（实例分割）、Stable Diffusion（图像生成）。

2. 自然语言处理（NLP）模型

文本分类、机器翻译、问答系统、文本生成等。
代表模型：BERT（双向编码）、GPT（自回归生成）、T5（文本到文本迁移学习）。

3. 语音处理模型

语音识别（ASR）、语音合成（TTS）、语音情感分析等。
代表模型：DeepSpeech（语音转文字）、Tacotron 2（文字转语音）。

4. 跨领域模型

多模态任务（如图文检索、视频描述生成），如ALBEF（视觉-语言预训练）、Flamingo（视频-语言模型）。

六、总结：分类维度的交叉与融合

实际应用中，模型可能属于多个分类维度的交叉领域，例如：

Transformer：既属于“序列建模架构”（按数据类型），又属于“基于自注意力的架构”（按核心机制），还可用于“生成模型”（如GPT）或“判别模型”（如BERT）。
ViT：属于“网格状数据架构”（处理图像），但核心机制是自注意力，而非卷积。

这种多维分类方式体现了深度学习领域的灵活性和跨领域特性，不同维度的分类帮助研究者和工程师从数据特性、任务目标、技术原理等角度选择或设计合适的模型。

深度学习-分类

深度学习-分类方式

（重点）一、按数据类型与处理逻辑分类

1. 序列数据（时序/顺序相关）

2. 网格状数据（空间相关）

3. 图结构数据（非欧几里得结构）

4. 其他特殊类型数据

（重点）二、按模型功能与应用场景分类

1. 判别模型（分类/回归）

2. 生成模型

3. 强化学习模型

4. 无监督/自监督模型

三、按网络结构与核心机制分类

1. 基于卷积的架构

2. 基于循环的架构

3. 基于自注意力的架构

4. 基于胶囊的架构

四、按网络规模与训练方式分类

1. 小型轻量级模型

2. 大型预训练模型（大模型）

3. 分布式训练模型

（重点）五、按任务类型分类

1. 计算机视觉（CV）模型

2. 自然语言处理（NLP）模型

3. 语音处理模型

4. 跨领域模型

六、总结：分类维度的交叉与融合

网站公告

今日签到

热门文章

最新发布