【NLP】Transformer网络结构（1）-EW帮帮网

在当前的自然语言处理领域，Transformer已经成为了当前NLP模型的标配，因此针对Transformer模型也需要重新从网络结构到实际应用回味一下。Transformer 是由 Vaswani 等人在 2017 年提出的革命性模型（论文 Attention Is All You Need），彻底改变了序列建模的范式。它完全依赖自注意力机制（Self-Attention）替代传统的 RNN/CNN，实现了并行化计算和长距离依赖建模。以下从网络结构角度详细解析其设计。
在这里插入图片描述

1. 整体架构

Transformer 由 编码器（Encoder） 和 解码器（Decoder） 堆叠组成，结构对称但功能不同。以机器翻译为例：

输入：源语言序列（编码器处理）
输出：目标语言序列（解码器生成）

核心组件

嵌入层（Embedding Layer）
位置编码（Positional Encoding）
多头注意力（Multi-Head Attention）
前馈网络（Feed-Forward Network）
残差连接 & 层归一化（Add & Norm）

2. 编码器（Encoder）

单个编码器层包含两个核心子层，均采用残差连接（Residual Connection）和层归一化（Layer Normalization）：

(1) 多头自注意力（Multi-Head Self-Attention）

目标：捕捉序列中词与词之间的全局依赖关系。
计算步骤：
a. 输入变换：
输入向量 $\in \mathbb{R}^{n \times d_{\text{model}}}$ ( $n$ 为序列长度， $d_{\text{model}}=512$ ）被线性投影到 $h$ 个不同的子空间（头），每个头的维度为 $d_k = d_v = d_{\text{model}} / h$ （论文中 $h = 8$ ）。
b. 缩放点积注意力（Scaled Dot-Product Attention）：
对每个头分别计算：
$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
其中 $Q$ （查询）、 $K$ （键）、 $V$ （值）由输入向量线性变换得到。
c. 多头拼接：
将 $h$ 个头的输出拼接后再次线性变换：
$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O$
其中 $W^O \in \mathbb{R}^{d_{\text{model}} \times d_{\text{model}}}$ 为可学习参数。

(2) 前馈神经网络（Feed-Forward Network, FFN）

结构：两层全连接网络，中间维度扩展为 $d_{ff}=2048$ ：
$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$
$W_1 \in \mathbb{R}^{d_{\text{model}} \times d_{ff}}, W_2 \in \mathbb{R}^{d_{ff} \times d_{\text{model}}}$ 。

(3) 残差连接与层归一化

对每个子层输出：
$\text{Output} = \text{LayerNorm}(x + \text{Sublayer}(x))$
其中 $\text{Sublayer}$ 为多头自注意力或 FFN。

3. 解码器（Decoder）

解码器层在编码器基础上增加一个编码器-解码器注意力层，并引入掩码自注意力。

(1) 掩码多头自注意力（Masked Multi-Head Self-Attention）

目标：防止解码器在生成时“看到”未来信息（保证自回归性）。
实现：在计算注意力分数时，将未来位置的权重设为 $-\infty$ （通过掩码矩阵实现）：
$\text{Mask}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$
其中掩码矩阵 $M$ 的上三角元素为 $-\infty$ ，其余为 0。

(2) 编码器-解码器注意力（Cross-Attention）

目标：融合编码器的输出信息（Key 和 Value 来自编码器，Query 来自解码器）。
计算方式：与多头自注意力相同，但 $K$ 和 $V$ 来自编码器的输出。

(3) 前馈神经网络

结构与编码器的 FFN 完全相同。

4. 关键模块详解

(1) 位置编码（Positional Encoding）

作用：为无顺序的输入序列注入位置信息。
公式（正弦/余弦函数）：
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$
其中 $p os$ 是位置， $i$ 是维度索引。
替代方案：可学习的位置嵌入（如 BERT）。

(2) 自注意力机制的优势

并行计算：无需像 RNN 一样逐步处理序列。
长距离依赖：任意两词直接交互，解决梯度消失问题。
可解释性：注意力权重可视化词与词的关系（如指代消解）。

(3) 残差连接与层归一化

在 Transformer 的编码器和解码器中，Add & Norm 是每个子层（如自注意力、前馈网络）后的核心模块，由 残差连接（Add） 和 层归一化（Norm） 组成。它通过梯度稳定和特征融合，显著提升了深层网络的训练效果。以下是其原理、作用和实现细节。

1. 残差连接（Add）

目标：解决深层网络中的梯度消失问题，保留原始输入信息。
操作：将子层（如自注意力或 FFN）的输入 $x$ 与其输出 $\text{Sublayer}(x)$ 直接相加：
$\text{Add}(x, \text{Sublayer}(x)) = x + \text{Sublayer}(x)$
核心思想：
- 假设深层网络需要学习的映射为 $F (x)$ ，残差连接将其转化为 $F (x) = H (x) - x$ ，即 $H (x) = F (x) + x$ 。
- 网络只需学习残差 $F (x)$ ，而非完整映射 $H (x)$ ，简化了优化难度。
优势：
- 梯度可直接通过加法回传，缓解梯度消失。
- 允许构建极深网络（如百层以上的 Transformer 变体）。

2. 层归一化（Layer Normalization, Norm）

目标：对特征维度进行联合标准化，稳定训练过程。
操作：对每个样本的所有特征维度计算均值和方差，并进行缩放和平移：
$\mu = \frac{1}{d} \sum_{i=1}^d x_i, \quad \sigma^2 = \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2$
$\text{Norm}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta$
其中 $d$ 是特征维度， $\gamma$ 和 $\beta$ 是可学习的缩放和偏移参数， $\epsilon$ 是为数值稳定性添加的小常数（如 $10^{-5}$ ）。
与批量归一化（BatchNorm）的区别：
- BatchNorm：在批次维度计算统计量，依赖批次大小，不适合变长序列（如 NLP 任务）。
- LayerNorm：在特征维度计算统计量，独立于批次大小，更适合序列数据。

3. Add & Norm 的组合流程

以编码器的自注意力子层为例，输入 $x$ 的处理步骤如下：

子层计算：通过多头自注意力得到输出 $\text{SelfAttn}(x)$ 。
残差连接：将输入 $x$ 与子层输出相加：
$x_{\text{add}} = x + \text{SelfAttn}(x)$
层归一化：对相加后的结果进行归一化：
$x_{\text{norm}} = \text{LayerNorm}(x_{\text{add}})$
传递到下一层：归一化后的结果作为下一子层（如 FFN）的输入。

5. 模型输入输出流程

输入嵌入：
- 词嵌入：将词映射为 $d_{\text{model}}$ 维向量。
- 位置编码：与词嵌入相加，得到最终输入 $\text{Embedding} + \text{Positional Encoding}$ 。
编码器处理：
- 输入 $X$ 经过 $N$ 层编码器，每层包含多头自注意力和 FFN。
- 输出上下文相关的表示 $H_{\text{enc}} \in \mathbb{R}^{n \times d_{\text{model}}}$ 。
解码器生成：
- 初始输入为起始符（如 <sos>），逐步生成目标序列。
- 通过掩码自注意力、交叉注意力和 FFN 逐层处理。
- 最终输出通过线性层和 Softmax 得到词的概率分布。

6. 核心公式总结

组件	公式
缩放点积注意力	$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
多头注意力	$\text{MultiHead} = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O$
位置编码（正弦/余弦）	$PE_{(pos, 2i)} = \sin(pos/10000^{2i/d}), PE_{(pos, 2i+1)} = \cos(pos/10000^{2i/d})$
残差连接与层归一化	$\text{LayerNorm}(x + \text{Sublayer}(x))$

7. 优缺点分析

优点：

并行性：自注意力机制允许全序列并行计算，显著提升训练速度。
长距离建模：任意词对直接交互，解决 RNN 的长期依赖问题。
灵活性：适用于多种任务（如翻译、生成、分类）。

缺点：

计算复杂度：自注意力时间复杂度为 (O(n^2))，长序列处理成本高。
位置编码局限：静态位置编码可能无法适应复杂序列模式（动态位置编码可缓解）。
内存消耗：存储注意力矩阵需大量显存（如序列长度 4096 时，矩阵大小 16M×16M）。

【NLP】Transformer网络结构（1）

1. 整体架构

核心组件

2. 编码器（Encoder）

(1) 多头自注意力（Multi-Head Self-Attention）

(2) 前馈神经网络（Feed-Forward Network, FFN）

(3) 残差连接与层归一化

3. 解码器（Decoder）

(1) 掩码多头自注意力（Masked Multi-Head Self-Attention）

(2) 编码器-解码器注意力（Cross-Attention）

(3) 前馈神经网络

4. 关键模块详解

(1) 位置编码（Positional Encoding）

(2) 自注意力机制的优势

(3) 残差连接与层归一化

1. 残差连接（Add）

2. 层归一化（Layer Normalization, Norm）

3. Add & Norm 的组合流程

5. 模型输入输出流程

6. 核心公式总结

7. 优缺点分析

优点：

缺点：

网站公告

今日签到

热门文章

最新发布