- 阅读《Attention is All You Need》论文,理解自注意力机制和多头注意力。
- 学习BERT、GPT等主流LLM的预训练和微调流程。
资源:Hugging Face文档(Hugging Face Transformers)。
一、《Attention is all you need》略读学习
17年NeurIPS的文章[1706.03762] Attention Is All You Need,提出了Transformer。重点可以学习自注意力机制和多头注意力。
1.1研究背景
- 问题: 传统序列模型(如RNN、LSTM)在处理长序列时存在计算效率低和长距离依赖建模困难的问题。
- 目标: 提出一种完全基于注意力机制(Attention)的模型,取代循环神经网络(RNN),提升性能和并行性。
- 贡献: 引入Transformer架构,成为NLP领域的里程碑。
1.2Transformer架构
之前文章有写,这里简单回顾以下其结构:
- 编码器(Encoder): 由N个相同层组成,每层包含:
- 多头自注意力机制(Multi-Head Self-Attention)。
- 前馈神经网络(Feed-Forward Network, FFN)。
- 残差连接(Residual Connection)和层归一化(Layer Normalization)。
- 解码器(Decoder): 类似编码器,但增加一个多头注意力层,用于关注编码器的输出。
1.3自注意力机制(Self-attention)*
- 定义: 输入序列中的每个词可以关注序列中所有其他词,而不是按顺序处理。
- 计算:
- 使用查询(Query,Q)、键(Key, K)和值(Value,V)向量,通过公式计算注意力权重:
- dk 是键的维度,根号下dk是为了防止数值过大。
- 使用查询(Query,Q)、键(Key, K)和值(Value,V)向量,通过公式计算注意力权重:
- 优势:
- 捕捉长距离依赖(如句子中远隔词的关系)。
- 计算复杂度低于RNN,支持并行化。
1.4多头注意力(Multi-Head Attention)*
将注意力分成多个“头”(heads),每个头独立计算注意力,再拼接结果。公式就不写了,就是
多头(Q,K,V)=concat(head1……)
优点就是捕捉不同语义空间的依赖关系,从而提升模型表达能力。
另外,关于位置编码,为了解决Transformer无序列顺序信息问题,所以在输入嵌入中加入位置编码,表示词的位置。形式上是用到了三角函数。
综上,主要是三个优势:并行化、长距离依赖、可拓展性
二、BERT和GPT
两者都是基于Transformer,经常会提问区别(保研面试、求职实习面试等),这里简单说下两者区别:
模型 |
架构 | 训练方式 | 应用 |
BERT | 仅Encoder | 双向预训练 | 文本分类、问答等 |
GPT | 仅Decoder | 自回归预训练 | 文本生成、对话系统等 |
2.1 BERT 预训练 & 微调流程
预训练阶段:
- 使用大量未标注文本进行两个任务:
- Masked Language Model(MLM) :随机遮蔽部分词,预测被遮的词;
- Next Sentence Prediction(NSP) :判断两句话是否连续。
- 目标是让模型学习通用的语言表示。
微调阶段:
- 在预训练模型基础上,针对具体任务(如分类、问答)调整参数;
- 输入格式根据任务设计(如加一个[CLS]标签用于分类);
- 最后一层接上任务相关的输出层,进行端到端训练。
2.2 GPT 预训练 & 微调流程
预训练阶段:
- 使用大量未标注文本,进行自回归语言建模 :
- 根据前面的词预测下一个词;
- 使用Transformer Decoder结构,只能看到前面的上下文。
- 学习强大的语言生成能力。
微调阶段:
- 在特定任务(如文本生成、对话)数据上继续训练;
- 输入任务描述 + 示例,模型自动完成后续内容;
- 不需要大幅修改网络结构,直接适配下游生成任务。