【LLM学习】2-简短学习BERT、GPT主流大模型

发布于:2025-06-26 ⋅ 阅读:(15) ⋅ 点赞:(0)
  • 阅读《Attention is All You Need》论文,理解自注意力机制和多头注意力。
  • 学习BERT、GPT等主流LLM的预训练和微调流程。
  • 资源:Hugging Face文档(Hugging Face Transformers)。

一、《Attention is all you need》略读学习

17年NeurIPS的文章[1706.03762] Attention Is All You Need,提出了Transformer。重点可以学习自注意力机制和多头注意力。

1.1研究背景

  • 问题: 传统序列模型(如RNN、LSTM)在处理长序列时存在计算效率低和长距离依赖建模困难的问题。
  • 目标: 提出一种完全基于注意力机制(Attention)的模型,取代循环神经网络(RNN),提升性能和并行性。
  • 贡献: 引入Transformer架构,成为NLP领域的里程碑。

1.2Transformer架构

之前文章有写,这里简单回顾以下其结构:

  • 编码器(Encoder): 由N个相同层组成,每层包含:
    • 多头自注意力机制(Multi-Head Self-Attention)。
    • 前馈神经网络(Feed-Forward Network, FFN)。
    • 残差连接(Residual Connection)和层归一化(Layer Normalization)。
  • 解码器(Decoder): 类似编码器,但增加一个多头注意力层,用于关注编码器的输出。

1.3自注意力机制(Self-attention)*

  • 定义: 输入序列中的每个词可以关注序列中所有其他词,而不是按顺序处理。
  • 计算:
    • 使用查询(Query,Q)、键(Key, K)和值(Value,V)向量,通过公式计算注意力权重:
    • dk​ 是键的维度,根号下dk是为了​​防止数值过大。
  • 优势:
    • 捕捉长距离依赖(如句子中远隔词的关系)。
    • 计算复杂度低于RNN,支持并行化。

1.4多头注意力(Multi-Head Attention)*

将注意力分成多个“头”(heads),每个头独立计算注意力,再拼接结果。公式就不写了,就是

                       多头(Q,K,V)=concat(head1……)

优点就是捕捉不同语义空间的依赖关系,从而提升模型表达能力。

另外,关于位置编码,为了解决Transformer无序列顺序信息问题,所以在输入嵌入中加入位置编码,表示词的位置。形式上是用到了三角函数。

综上,主要是三个优势:并行化、长距离依赖、可拓展性

二、BERT和GPT

两者都是基于Transformer,经常会提问区别(保研面试、求职实习面试等),这里简单说下两者区别:

模型

架构 训练方式 应用
BERT 仅Encoder 双向预训练 文本分类、问答等
GPT 仅Decoder 自回归预训练 文本生成、对话系统等

2.1 BERT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本进行两个任务:
    • Masked Language Model(MLM) :随机遮蔽部分词,预测被遮的词;
    • Next Sentence Prediction(NSP) :判断两句话是否连续。
  • 目标是让模型学习通用的语言表示。

微调阶段:

  • 在预训练模型基础上,针对具体任务(如分类、问答)调整参数;
  • 输入格式根据任务设计(如加一个[CLS]标签用于分类);
  • 最后一层接上任务相关的输出层,进行端到端训练。

2.2 GPT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本,进行自回归语言建模
    • 根据前面的词预测下一个词;
    • 使用Transformer Decoder结构,只能看到前面的上下文。
  • 学习强大的语言生成能力。

微调阶段:

  • 在特定任务(如文本生成、对话)数据上继续训练;
  • 输入任务描述 + 示例,模型自动完成后续内容;
  • 不需要大幅修改网络结构,直接适配下游生成任务。

网站公告

今日签到

点亮在社区的每一天
去签到