【LLM学习】2-简短学习BERT、GPT主流大模型-EW帮帮网

17年NeurIPS的文章[1706.03762] Attention Is All You Need,提出了Transformer。重点可以学习自注意力机制和多头注意力。

之前文章有写，这里简单回顾以下其结构：

编码器（Encoder）: 由N个相同层组成，每层包含：
- 多头自注意力机制（Multi-Head Self-Attention）。
- 前馈神经网络（Feed-Forward Network, FFN）。
- 残差连接（Residual Connection）和层归一化（Layer Normalization）。
解码器（Decoder）: 类似编码器，但增加一个多头注意力层，用于关注编码器的输出。

定义: 输入序列中的每个词可以关注序列中所有其他词，而不是按顺序处理。
计算:
- 使用查询（Query,Q）、键（Key, K）和值（Value,V）向量，通过公式计算注意力权重：
- dk 是键的维度，根号下dk是为了防止数值过大。
优势:
- 捕捉长距离依赖（如句子中远隔词的关系）。
- 计算复杂度低于RNN，支持并行化。

将注意力分成多个“头”（heads），每个头独立计算注意力，再拼接结果。公式就不写了，就是

多头（Q，K，V）=concat（head1……）

优点就是捕捉不同语义空间的依赖关系，从而提升模型表达能力。

另外，关于位置编码，为了解决Transformer无序列顺序信息问题，所以在输入嵌入中加入位置编码，表示词的位置。形式上是用到了三角函数。

综上，主要是三个优势：并行化、长距离依赖、可拓展性

两者都是基于Transformer，经常会提问区别（保研面试、求职实习面试等），这里简单说下两者区别：

预训练阶段：

使用大量未标注文本进行两个任务：
- Masked Language Model（MLM） ：随机遮蔽部分词，预测被遮的词；
- Next Sentence Prediction（NSP） ：判断两句话是否连续。
目标是让模型学习通用的语言表示。

微调阶段：

预训练阶段：

微调阶段：

【LLM学习】2-简短学习BERT、GPT主流大模型