深度学习包含多种算法和模型,广泛应用于图像处理、自然语言处理、语音识别等领域。以下是主要分类及代表性算法:
一、基础神经网络
- 多层感知机(MLP)
- 最简单的深度学习模型,由多个全连接层组成,用于分类和回归任务。
二、卷积神经网络(CNN)
用于处理网格状数据(如图像、视频):
- 经典模型
- LeNet:早期手写数字识别模型。
- AlexNet:引入ReLU和Dropout,推动深度学习复兴。
- VGGNet:通过堆叠小卷积核提升性能。
- ResNet:残差连接解决深层网络梯度消失问题。
- Inception:多尺度卷积并行处理(如GoogLeNet)。
- 应用扩展
- 目标检测:Faster R-CNN、YOLO、SSD。
- 图像分割:U-Net、Mask R-CNN。
三、循环神经网络(RNN)
处理序列数据(如文本、时间序列):
- 基础RNN
- 通过循环结构捕捉时序依赖,但存在梯度消失问题。
- 改进变体
- LSTM:门控机制缓解长程依赖问题。
- GRU:简化版LSTM,计算效率更高。
- Bi-RNN:双向处理序列(如Bi-LSTM)。
- 应用模型
- Seq2Seq:机器翻译(如编码器-解码器结构)。
- Attention机制:提升长序列建模能力(如Transformer的基础)。
四、Transformer 模型
基于自注意力机制,替代RNN处理序列:
- 核心架构
- Multi-Head Attention:并行捕捉不同位置关系。
- 位置编码:注入序列位置信息。
- 衍生模型
- BERT:双向预训练模型,适用于NLP任务。
- GPT系列:自回归生成模型(如GPT-3、ChatGPT)。
- ViT:将Transformer应用于图像分类。
五、生成模型
学习数据分布并生成新样本:
- 生成对抗网络(GAN)
- 生成器与判别器对抗训练,用于图像生成、风格迁移。
- 变体:DCGAN、CycleGAN、StyleGAN。
- 变分自编码器(VAE)
- 通过概率编码-解码生成数据,支持隐空间插值。
- 扩散模型(Diffusion Models)
- 逐步去噪生成样本(如Stable Diffusion、DALL·E)。
六、无监督/自监督学习
- 自编码器(Autoencoder)
- 压缩与重建数据,用于降维或去噪。
- 对比学习(Contrastive Learning)
- 如SimCLR、MoCo,通过样本对比学习特征表示。
七、强化学习与深度强化学习(DRL)
- 价值函数方法
- DQN:结合Q-Learning与深度网络。
- 策略梯度方法
- REINFORCE、PPO:直接优化策略。
- Actor-Critic
- 结合价值函数与策略梯度(如A3C)。
八、图神经网络(GNN)
处理图结构数据(社交网络、分子结构):
- 经典模型
- GCN:图卷积网络。
- GAT:引入注意力机制。
- GraphSAGE:归纳式学习节点特征。
九、其他高级模型
- 元学习(Meta-Learning)
- 学习如何快速适应新任务(如MAML)。
- 神经架构搜索(NAS)
- 自动设计网络结构(如EfficientNet)。
十、应用领域
- 计算机视觉:图像分类、目标检测、人脸识别。
- 自然语言处理:机器翻译、文本生成、情感分析。
- 语音处理:语音识别、合成。
- 推荐系统:个性化推荐。
- 科学计算:蛋白质结构预测(如AlphaFold)。
发展趋势
- 大模型:参数规模持续增长(如GPT-4、PaLM)。
- 多模态融合:同时处理文本、图像、语音(如CLIP)。
- 轻量化:模型压缩与部署(如MobileNet、知识蒸馏)。