BERT技术架构-EW帮帮网

### **一、整体定位：纯编码器架构**

#### **核心设计思想**

> **预训练+微调**：

> 1. **预训练**：在海量无标签文本上学习通用语言规律

> 2. **微调**：用少量标注数据适配具体任务（如分类/问答）

> **类比**：

> - 预训练 = 医学生通读百万本医学文献

> - 微调 = 针对眼科进行3个月专项培训

---

### **二、核心架构详解**

#### **1. 输入表示层：处理多样化输入**

- **三位一体的嵌入组合**：

```python

输入 = 词嵌入 + 位置嵌入 + 段落嵌入

```

| 嵌入类型 | 作用 | 示例 |

|---------------|-------------------------------|--------------------------|

| **词嵌入** | 将词转为数字向量 | “猫”→ [0.2, -1.7, 0.5] |

| **位置嵌入** | 标记词的位置（0~511） | 首词位置0 → 特定波形编码 |

| **段落嵌入** | 区分句子A/B（用于问答等任务） | 句子A标0，句子B标1 |

- **特殊标记**：

- `[CLS]`：放置句首，用于分类任务的聚合表示

- `[SEP]`：分隔句子对（如问题与答案）

- `[MASK]`：预训练时的掩码占位符

> **输入示例**：

> `[CLS] 巴黎是法国的首都 [SEP] 埃菲尔铁塔在这里 [SEP]`

> *段落编码：0 0 0 0 0 0 1 1 1 1*

#### **2. 编码器堆叠：Transformer编码器层**

- **基础配置**：

- **BERT-base**：12层，每层12个注意力头，隐藏层768维

- **BERT-large**：24层，每层16头，隐藏层1024维

- **单层结构**：

```mermaid

graph LR

A[输入向量] --> B[多头自注意力]

B --> C[残差连接+层归一化]

C --> D[前馈神经网络]

D --> E[残差连接+层归一化]

```

#### **3. 核心机制：自注意力（以“猫追老鼠”为例）**

1. **生成Q/K/V向量**：

- 每个词通过权重矩阵生成三组向量

- “追”的Query向量包含动作意图

2. **计算相关性**：

- “追”的Query vs “猫”的Key → 高相似度

- “追”的Query vs “老鼠”的Key → 中等相似度

3. **加权融合**：

`“追”的新向量 = 0.7×"猫"的Value + 0.2×"老鼠"的Value + ...`

---

### **三、预训练任务：BERT的“通识教育”**

#### **任务1：掩码语言模型（Masked LM）**

- **操作**：

随机遮盖15%的词，其中：

- 80%替换为`[MASK]`：`猫 [MASK] 老鼠` → 预测“追”

- 10%替换为随机词：`猫跳老鼠` → 纠正为“追”

- 10%保留原词：`猫追老鼠` → 强化正确性

- **设计意图**：

强制模型**基于双向上下文推理**，破解传统语言模型的单向偏见

#### **任务2：下一句预测（Next Sentence Prediction）**

- **正例**：

```

句子A：巴黎是时尚之都

句子B：许多设计师在此工作 → 标签：IsNext

```

- **反例**：

```

句子A：巴黎是时尚之都

句子B：企鹅生活在南极 → 标签：NotNext

```

- **价值**：

学习句子间逻辑关系，对问答/推理任务至关重要

---

### **四、微调机制：快速适配具体任务**

#### **1. 分类任务（如情感分析）**

- 取`[CLS]`位置的输出向量

- 接全连接层分类：

`情感 = Softmax(W·h_[CLS] + b)`

#### **2. 问答任务（如SQuAD）**

- 输入：`[CLS]问题 [SEP] 文章 [SEP]`

- 输出：预测答案在文章中的起止位置

```

起始位置概率 = Softmax(W_s·文章每个词向量)

终止位置概率 = Softmax(W_e·文章每个词向量)

```

#### **3. 命名实体识别（NER）**

- 对每个词输出实体类型：

`“巴黎” → B-LOC（地点起始）`

`“铁塔” → I-LOC（地点延续）`

---

### **五、关键创新：为何BERT远超前辈？**

#### **1. 动态词向量 vs 静态词向量**

| 对比项 | Word2Vec | BERT |

|----------------|-------------------|-------------------|

| 词义表达 | 固定不变 | 随上下文动态变化 |

| 多义词处理 | “苹果”只有1种含义 | “苹果手机” vs “苹果好吃”不同向量 |

| 上下文感知 | 无 | 全句双向理解 |

#### **2. 预训练-微调范式革命**

- **传统方法**：每个任务需单独设计模型并标注大量数据

- **BERT方法**：

1. 无监督预训练（用维基百科等公开文本）

2. 少量标注数据微调（如1000条电影评论做情感分类）

> **效果对比**：

> 情感分析任务准确率：

> - 传统模型：85%

> - BERT微调：92%

---

### **六、通俗总结：BERT像什么？**

1. **输入处理**：给每个词发“身份证”（词ID+位置卡+段落卡）

2. **编码过程**：12次“小组讨论会”（每层Transformer）：

- 每个词自由与其他词交流（自注意力）

- 会后整理会议纪要（前馈神经网络）

3. **预训练**：

- **填空考试**（Masked LM）：蒙住部分词猜内容

- **逻辑判断**（NSP）：识别句子间是否连贯

4. **微调**：

- 分类任务：看`[CLS]`的总结报告

- 问答任务：在文章中划重点答案

> **核心突破**：

> 同一套模型既能理解法律条文，又能分析情书——

> **秘诀在于从海量阅读中学会“语言的本质规律”**。

---

### **附：架构参数速查表**

|--------------|------|------------|------------|---------|

| **BERT-base** | 12 | 12 | 768 | 110M |

| **BERT-large**| 24 | 16 | 1024 | 340M |

通过这种架构，BERT实现了语言理解的量子飞跃，成为NLP领域的里程碑式突破。

BERT技术架构

网站公告

今日签到

热门文章

最新发布