NLP基础

发布于:2025-09-02 ⋅ 阅读:(18) ⋅ 点赞:(0)


一、早期深度学习模型

循环神经网络(RNN):

  • 长短时记忆网络(LSTM):解决 RNN 的梯度消失问题,广泛用于文本生成、机器翻译。
  • 门控循环单元(GRU):LSTM 的简化版,计算效率更高。

卷积神经网络(CNN):

  • LeNet、ResNet、ViT(视觉 Transformer)

  • 用于文本分类(如 TextCNN),通过卷积核捕捉局部语义特征。


序列到序列(Seq2Seq)模型:

  • 由编码器(Encoder)和解码器(Decoder)组成,常用于机器翻译、对话系统。



二、传统 NLP 模型(深度学习前)

基于规则的模型:

  • 正则表达式:用于简单文本匹配和模式提取(如分词、实体识别)。
  • 语法解析器:如上下文无关文法(CFG),用于分析句子结构。
  • 有限状态自动机:处理序列标注任务(如词性标注)。

统计学习模型:

  • TF-IDF:文本特征提取的经典方法,用于信息检索和文本分类。
  • 隐马尔可夫模型(HMM):处理序列数据(如词性标注、语音识别)。
  • 条件随机场(CRF):序列标注任务(如命名实体识别、分词)的主流模型。
  • 主题模型:如 LDA(潜在狄利克雷分配),用于文本主题挖掘。



三、现代 NLP 模型(Transformer 时代前)

神经注意力模型

  • Bahdanau 注意力:在 Seq2Seq 框架中引入注意力机制,提升翻译准确性。
  • 自注意力(Self-Attention):Transformer 的核心技术前身,用于捕捉长距离依赖。

记忆网络(Memory Networks)

  • 引入外部记忆模块,增强模型对长文本的理解能力(如问答系统)。

图神经网络(GNN)

  • 处理文本中的图结构(如知识图谱、依存句法树),用于关系抽取、事件推理。



四、基于 Transformer 的改进模型

尽管 Transformer 是当前主流,但研究者通过改进其架构或预训练策略,衍生出多种变体

BERT 系列

  • BERT(双向预训练)、RoBERTa(优化训练数据与超参数)、ALBERT(轻量化)。

GPT 系列

  • GPT-1/2/3(单向语言模型预训练)、GPT-Neo(开源实现)。

XLNet

  • 结合自回归和自编码预训练,解决 BERT 的掩码偏差问题。

T5

  • 将所有 NLP 任务统一为文本生成问题,实现 “Text-to-Text” 范式。

多模态模型

  • FLAVA(文本 + 图像联合建模)、SpeechT5(语音 + 文本多任务处理)。



五、其他前沿模型

稀疏注意力模型

  • Longformer、BigBird:通过稀疏化注意力降低计算复杂度,支持超长文本处理。

混合架构模型

  • Transformer + CNN(如 Conformer)、Transformer + LSTM(如 XLNet 早期版本)。

小样本学习模型

  • GPT-3(Few-Shot Learning)、MetaICL(基于指令的上下文学习)。

推理增强模型

  • ReasoNet(结合外部知识库)、神经符号系统(融合逻辑推理)。



六、模型对比与选择建议

模型类型 典型应用场景 优势 局限性
传统统计模型 简单任务(如基础分词、分类) 解释性强、资源消耗低 难以处理复杂语义、泛化能力弱
RNN/LSTM 序列标注、文本生成 适合短序列依赖建模 并行能力差、长距离依赖处理效果有限
Transformer 复杂 NLP 任务(如翻译、问答) 并行高效、长距离依赖捕捉能力强 计算资源需求大、模型参数量庞大
预训练模型 通用任务(微调或零样本学习) 迁移能力强、减少标注数据依赖 对硬件要求高、可能存在过拟合风险



七、总结

NLP 模型的发展呈现从规则→统计→深度学习→预训练 + 微调的演进路径。Transformer 的出现是里程碑,但传统模型在特定场景下仍有价值(如低资源语言处理)。未来趋势包括:

  1. 轻量化模型(如 TinyBERT、DistilBERT);
  2. 多模态融合(文本 + 图像 + 语音);
  3. 小样本 / 无监督学习(降低数据标注成本);
  4. 神经符号结合(增强逻辑推理能力)。

选择模型时需结合任务需求、数据量、计算资源等因素综合考量。


网站公告

今日签到

点亮在社区的每一天
去签到