BERT技术架构

发布于:2025-07-19 ⋅ 阅读:(13) ⋅ 点赞:(0)

### **一、整体定位:纯编码器架构**

#### **核心设计思想**

> **预训练+微调**:

> 1. **预训练**:在海量无标签文本上学习通用语言规律

> 2. **微调**:用少量标注数据适配具体任务(如分类/问答)

> **类比**:

> - 预训练 = 医学生通读百万本医学文献

> - 微调 = 针对眼科进行3个月专项培训

 

---

 

### **二、核心架构详解**

#### **1. 输入表示层:处理多样化输入**

- **三位一体的嵌入组合**:

```python

输入 = 词嵌入 + 位置嵌入 + 段落嵌入

```

| 嵌入类型 | 作用 | 示例 |

|---------------|-------------------------------|--------------------------|

| **词嵌入** | 将词转为数字向量 | “猫”→ [0.2, -1.7, 0.5] |

| **位置嵌入** | 标记词的位置(0~511) | 首词位置0 → 特定波形编码 |

| **段落嵌入** | 区分句子A/B(用于问答等任务) | 句子A标0,句子B标1 |

 

- **特殊标记**:

- `[CLS]`:放置句首,用于分类任务的聚合表示

- `[SEP]`:分隔句子对(如问题与答案)

- `[MASK]`:预训练时的掩码占位符

 

> **输入示例**:

> `[CLS] 巴黎是法国的首都 [SEP] 埃菲尔铁塔在这里 [SEP]`

> *段落编码:0 0 0 0 0 0 1 1 1 1*

 

#### **2. 编码器堆叠:Transformer编码器层**

- **基础配置**:

- **BERT-base**:12层,每层12个注意力头,隐藏层768维

- **BERT-large**:24层,每层16头,隐藏层1024维

- **单层结构**:

```mermaid

graph LR

A[输入向量] --> B[多头自注意力]

B --> C[残差连接+层归一化]

C --> D[前馈神经网络]

D --> E[残差连接+层归一化]

```

 

#### **3. 核心机制:自注意力(以“猫追老鼠”为例)**

1. **生成Q/K/V向量**:

- 每个词通过权重矩阵生成三组向量

- “追”的Query向量包含动作意图

2. **计算相关性**:

- “追”的Query vs “猫”的Key → 高相似度

- “追”的Query vs “老鼠”的Key → 中等相似度

3. **加权融合**:

`“追”的新向量 = 0.7×"猫"的Value + 0.2×"老鼠"的Value + ...`

 

---

 

### **三、预训练任务:BERT的“通识教育”**

#### **任务1:掩码语言模型(Masked LM)**

- **操作**:

随机遮盖15%的词,其中:

- 80%替换为`[MASK]`:`猫 [MASK] 老鼠` → 预测“追”

- 10%替换为随机词:`猫 跳 老鼠` → 纠正为“追”

- 10%保留原词:`猫 追 老鼠` → 强化正确性

 

- **设计意图**:

强制模型**基于双向上下文推理**,破解传统语言模型的单向偏见

 

#### **任务2:下一句预测(Next Sentence Prediction)**

- **正例**:

```

句子A:巴黎是时尚之都

句子B:许多设计师在此工作 → 标签:IsNext

```

- **反例**:

```

句子A:巴黎是时尚之都

句子B:企鹅生活在南极 → 标签:NotNext

```

- **价值**:

学习句子间逻辑关系,对问答/推理任务至关重要

 

---

 

### **四、微调机制:快速适配具体任务**

#### **1. 分类任务(如情感分析)**

- 取`[CLS]`位置的输出向量

- 接全连接层分类:

`情感 = Softmax(W·h_[CLS] + b)`

 

 

#### **2. 问答任务(如SQuAD)**

- 输入:`[CLS]问题 [SEP] 文章 [SEP]`

- 输出:预测答案在文章中的起止位置

```

起始位置概率 = Softmax(W_s·文章每个词向量)

终止位置概率 = Softmax(W_e·文章每个词向量)

```

 

#### **3. 命名实体识别(NER)**

- 对每个词输出实体类型:

`“巴黎” → B-LOC(地点起始)`

`“铁塔” → I-LOC(地点延续)`

 

---

 

### **五、关键创新:为何BERT远超前辈?**

#### **1. 动态词向量 vs 静态词向量**

| 对比项 | Word2Vec | BERT |

|----------------|-------------------|-------------------|

| 词义表达 | 固定不变 | 随上下文动态变化 |

| 多义词处理 | “苹果”只有1种含义 | “苹果手机” vs “苹果好吃”不同向量 |

| 上下文感知 | 无 | 全句双向理解 |

 

#### **2. 预训练-微调范式革命**

- **传统方法**:每个任务需单独设计模型并标注大量数据

- **BERT方法**:

1. 无监督预训练(用维基百科等公开文本)

2. 少量标注数据微调(如1000条电影评论做情感分类)

 

> **效果对比**:

> 情感分析任务准确率:

> - 传统模型:85%

> - BERT微调:92%

 

---

 

### **六、通俗总结:BERT像什么?**

1. **输入处理**:给每个词发“身份证”(词ID+位置卡+段落卡)

2. **编码过程**:12次“小组讨论会”(每层Transformer):

- 每个词自由与其他词交流(自注意力)

- 会后整理会议纪要(前馈神经网络)

3. **预训练**:

- **填空考试**(Masked LM):蒙住部分词猜内容

- **逻辑判断**(NSP):识别句子间是否连贯

4. **微调**:

- 分类任务:看`[CLS]`的总结报告

- 问答任务:在文章中划重点答案

 

> **核心突破**:

> 同一套模型既能理解法律条文,又能分析情书——

> **秘诀在于从海量阅读中学会“语言的本质规律”**。

 

---

 

### **附:架构参数速查表**

| 模型类型 | 层数 | 注意力头数 | 隐藏层维度 | 参数量 |

|--------------|------|------------|------------|---------|

| **BERT-base** | 12 | 12 | 768 | 110M |

| **BERT-large**| 24 | 16 | 1024 | 340M |

 

通过这种架构,BERT实现了语言理解的量子飞跃,成为NLP领域的里程碑式突破。


网站公告

今日签到

点亮在社区的每一天
去签到