NLP基础
一、早期深度学习模型
循环神经网络(RNN):
- 长短时记忆网络(LSTM):解决 RNN 的梯度消失问题,广泛用于文本生成、机器翻译。
- 门控循环单元(GRU):LSTM 的简化版,计算效率更高。
卷积神经网络(CNN):
LeNet、ResNet、ViT(视觉 Transformer)
用于文本分类(如 TextCNN),通过卷积核捕捉局部语义特征。
序列到序列(Seq2Seq)模型:
- 由编码器(Encoder)和解码器(Decoder)组成,常用于机器翻译、对话系统。
二、传统 NLP 模型(深度学习前)
基于规则的模型:
- 正则表达式:用于简单文本匹配和模式提取(如分词、实体识别)。
- 语法解析器:如上下文无关文法(CFG),用于分析句子结构。
- 有限状态自动机:处理序列标注任务(如词性标注)。
统计学习模型:
- TF-IDF:文本特征提取的经典方法,用于信息检索和文本分类。
- 隐马尔可夫模型(HMM):处理序列数据(如词性标注、语音识别)。
- 条件随机场(CRF):序列标注任务(如命名实体识别、分词)的主流模型。
- 主题模型:如 LDA(潜在狄利克雷分配),用于文本主题挖掘。
三、现代 NLP 模型(Transformer 时代前)
神经注意力模型
- Bahdanau 注意力:在 Seq2Seq 框架中引入注意力机制,提升翻译准确性。
- 自注意力(Self-Attention):Transformer 的核心技术前身,用于捕捉长距离依赖。
记忆网络(Memory Networks)
- 引入外部记忆模块,增强模型对长文本的理解能力(如问答系统)。
图神经网络(GNN)
- 处理文本中的图结构(如知识图谱、依存句法树),用于关系抽取、事件推理。
四、基于 Transformer 的改进模型
尽管 Transformer 是当前主流,但研究者通过改进其架构或预训练策略,衍生出多种变体
BERT 系列
- BERT(双向预训练)、RoBERTa(优化训练数据与超参数)、ALBERT(轻量化)。
GPT 系列
- GPT-1/2/3(单向语言模型预训练)、GPT-Neo(开源实现)。
XLNet
- 结合自回归和自编码预训练,解决 BERT 的掩码偏差问题。
T5
- 将所有 NLP 任务统一为文本生成问题,实现 “Text-to-Text” 范式。
多模态模型
- FLAVA(文本 + 图像联合建模)、SpeechT5(语音 + 文本多任务处理)。
五、其他前沿模型
稀疏注意力模型
- Longformer、BigBird:通过稀疏化注意力降低计算复杂度,支持超长文本处理。
混合架构模型
- Transformer + CNN(如 Conformer)、Transformer + LSTM(如 XLNet 早期版本)。
小样本学习模型
- GPT-3(Few-Shot Learning)、MetaICL(基于指令的上下文学习)。
推理增强模型
- ReasoNet(结合外部知识库)、神经符号系统(融合逻辑推理)。
六、模型对比与选择建议
模型类型 | 典型应用场景 | 优势 | 局限性 |
---|---|---|---|
传统统计模型 | 简单任务(如基础分词、分类) | 解释性强、资源消耗低 | 难以处理复杂语义、泛化能力弱 |
RNN/LSTM | 序列标注、文本生成 | 适合短序列依赖建模 | 并行能力差、长距离依赖处理效果有限 |
Transformer | 复杂 NLP 任务(如翻译、问答) | 并行高效、长距离依赖捕捉能力强 | 计算资源需求大、模型参数量庞大 |
预训练模型 | 通用任务(微调或零样本学习) | 迁移能力强、减少标注数据依赖 | 对硬件要求高、可能存在过拟合风险 |
七、总结
NLP 模型的发展呈现从规则→统计→深度学习→预训练 + 微调的演进路径。Transformer 的出现是里程碑,但传统模型在特定场景下仍有价值(如低资源语言处理)。未来趋势包括:
- 轻量化模型(如 TinyBERT、DistilBERT);
- 多模态融合(文本 + 图像 + 语音);
- 小样本 / 无监督学习(降低数据标注成本);
- 神经符号结合(增强逻辑推理能力)。
选择模型时需结合任务需求、数据量、计算资源等因素综合考量。