《深度学习实战》第4集:Transformer 架构与自然语言处理(NLP)
在自然语言处理(NLP)领域,Transformer 架构的出现彻底改变了传统的序列建模方法。它不仅成为现代 NLP 的核心,还推动了诸如 BERT、GPT 等预训练模型的发展。本集将带你深入了解 Transformer 的工作原理,并通过实战项目微调 BERT 模型完成情感分析任务。
1. 自注意力机制与多头注意力
1.1 自注意力机制(Self-Attention)
自注意力机制是 Transformer 的核心组件,它允许模型在处理输入序列时关注不同位置的相关性。以下是其工作原理:
- 输入嵌入:
- 输入序列被转换为词向量表示。
- 计算注意力权重:
- 通过查询(Query)、键(Key)和值(Value)矩阵计算注意力分数。
- 注意力分数公式:
- 加权求和:
- 根据注意力分数对值进行加权求和,得到上下文相关的表示。
1.2 多头注意力(Multi-Head Attention)
为了捕捉不同子空间中的特征,Transformer 使用多头注意力机制。每个“头”独立计算注意力,然后将结果拼接并线性变换。
2. Transformer 的编码器-解码器结构
Transformer 由编码器(Encoder)和解码器(Decoder)两部分组成:
2.1 编码器(Encoder)
- 编码器由多个相同的层堆叠而成,每层包含:
- 多头自注意力层:捕捉输入序列的全局依赖关系。
- 前馈神经网络(FFN):进一步提取特征。
- 残差连接与层归一化:稳定训练过程。
2.2 解码器(Decoder)
- 解码器同样由多层组成,但额外增加了:
- 掩码多头注意力(Masked Multi-Head Attention):防止未来信息泄露。
- 编码器-解码器注意力层:结合编码器输出生成目标序列。
好的!为了让你更好地理解 自注意力机制(Self-Attention) 和 多头注意力(Multi-Head Attention) 的底层结构和原理,我会用一个生活中的例子来类比,并逐步拆解它们的工作方式。
3. 自注意力机制:一场“会议讨论”的比喻
想象一下,你正在参加一场公司会议,会议的主题是“如何提高产品销量”。会议室里有几位同事,每个人都有自己的观点。你需要综合大家的意见,得出一个全面的结论。
3.1 每个人的观点
- 假设会议室里的每个人代表输入序列中的一个单词。
- 每个人的观点(比如市场分析、用户体验、技术改进等)就是这个单词的嵌入向量(Embedding Vector)。
3.2 问题来了:如何听取所有人的意见?
在会议中,你会根据每个人的发言内容,判断他们的观点对你当前思考的重要性。这就像自注意力机制的核心思想:计算每个单词对当前单词的相关性。
具体步骤:
准备材料(生成 Query、Key 和 Value):
- 每个人会准备三份材料:
- Query(提问):你想问的问题,比如“你的建议对我有什么帮助?”
- Key(关键词):每个人的核心观点,比如“市场分析”或“用户体验”。
- Value(具体内容):每个人的具体建议,比如“我们需要增加广告预算”。
- 这些材料通过线性变换(矩阵乘法)从原始观点(嵌入向量)生成。
- 每个人会准备三份材料:
打分(计算注意力分数):
- 你拿着自己的 Query,去和每个人提供的 Key 对比,看看谁的观点和你的问题最相关。
- 相关性通过点积计算,结果越大表示越相关。
- 计算公式:
[
\text{Attention Score} = \frac{\text{Query} \cdot \text{Key}}{\sqrt{d_k}}
]
(这里的 (\sqrt{d_k}) 是为了防止分数过大,保持数值稳定。)
加权求和(整合信息):
- 根据每个人的得分,计算权重(通过 softmax 归一化)。
- 然后,根据权重对每个人的 Value 进行加权求和,得到最终的结论。
3.3 总结:自注意力机制的作用
自注意力机制的核心是让每个单词都能“看到”整个句子中的其他单词,并根据它们的相关性调整自己的表示。这样,模型可以捕捉到全局的上下文信息。
4. 多头注意力:多个“视角”的讨论
回到刚才的会议场景,假设你不仅关心“如何提高产品销量”,还想知道“哪些用户群体最重要”、“竞争对手有哪些策略”等多个问题。这时,你可以邀请几个专家小组,分别从不同角度分析问题。
4.1 多个“专家小组”
- 每个专家小组相当于一个多头注意力的一个“头”。
- 每个小组会独立地进行讨论,生成自己的结论。
4.2 如何整合多个小组的意见?
- 每个小组的讨论结果(即每个头的输出)会被拼接在一起。
- 然后通过一个线性变换(矩阵乘法),将这些结果融合成一个最终的结论。
4.3 多头注意力的好处
- 不同的“头”可以关注输入的不同部分。例如:
- 一个头可能专注于语法关系(主语和谓语的联系)。
- 另一个头可能关注语义关系(情感或主题)。
- 通过多头注意力,模型可以从多个角度提取特征,从而更全面地理解输入。
图解:会议讨论与注意力机制的对应关系
会议讨论 | 注意力机制 |
---|---|
每个人的观点 | 输入序列中的单词嵌入向量 |
提问(Query) | 查询向量(Query Vector) |
关键词(Key) | 键向量(Key Vector) |
具体内容(Value) | 值向量(Value Vector) |
打分并加权求和 | 注意力分数计算 + 加权求和 |
多个专家小组分别讨论 | 多头注意力的多个“头” |
一个具体的例子:翻译句子
假设我们要翻译一句话:“The cat sat on the mat.”(猫坐在垫子上)。
自注意力机制的作用
- 当处理单词“cat”时,自注意力机制会让它“看到”整个句子。
- 它会发现“sat”和“mat”与自己高度相关,因为它们描述了猫的动作和位置。
多头注意力的作用
- 一个头可能专注于语法关系(“cat”是主语,“sat”是谓语)。
- 另一个头可能专注于语义关系(“cat”和“mat”之间存在空间关系)。
- 最终,这些信息被整合起来,帮助模型生成更准确的翻译。
关于自注意力机制和多头注意力的总结
- 自注意力机制:就像你在会议上听取每个人的意见,计算出谁的观点最重要,并据此做出决策。
- 多头注意力:就像你邀请多个专家小组,从不同角度分析问题,最后整合所有意见。
通过这种机制,Transformer 模型能够高效地捕捉输入序列中的全局依赖关系,从而在自然语言处理任务中表现出色。
5. BERT、GPT 等预训练模型的原理与应用
5.1 BERT(Bidirectional Encoder Representations from Transformers)
- 特点:
- 双向编码:同时考虑上下文信息。
- 预训练任务:
- Masked Language Model(MLM):预测被遮挡的单词。
- Next Sentence Prediction(NSP):判断句子对是否连续。
- 应用场景:
- 文本分类、命名实体识别、问答系统等。
5.2 GPT(Generative Pre-trained Transformer)
- 特点:
- 单向解码:从左到右生成文本。
- 基于自回归语言模型。
- 应用场景:
- 文本生成、对话系统、代码补全等。
6. 实战项目:使用 Hugging Face Transformers 微调 BERT 模型
我们将使用 Hugging Face 的 transformers
库微调 BERT 模型,完成情感分析任务。
6.1 数据准备
下载 SST-2数据集,链接如下:SST-2下载链接
import pandas as pd
from sklearn.model_selection import train_test_split
import os
from transformers import BertTokenizer, BertForSequenceClassification
import torch
# 设置代理(如果需要)
# os.environ["HTTP_PROXY"] = "http://your_proxy:port"
# os.environ["HTTPS_PROXY"] = "http://your_proxy:port"
# 设置离线模式,使用本地文件
# 定义文件路径(根据你的实际路径修改)
train_file = "SST-2/SST-2/train.tsv"
dev_file = "SST-2/SST-2/dev.tsv"
6.2 数据预处理
from transformers import BertTokenizer
# 使用 Pandas 读取 TSV 文件
try:
train_data = pd.read_csv(train_file, sep='\t')
test_data = pd.read_csv(dev_file, sep='\t')
print("成功加载本地数据集")
print(train_data.head())
except Exception as e:
print(f"加载本地数据集失败: {e}")
print("请确保数据文件路径正确")
# 尝试加载本地分词器或使用备选方案
try:
# 尝试从本地缓存加载
cache_dir = "./models_cache"
os.makedirs(cache_dir, exist_ok=True)
# 使用本地缓存目录
tokenizer = BertTokenizer.from_pretrained(
"bert-base-uncased",
cache_dir=cache_dir,
local_files_only=False, # 允许在线下载
use_fast=True
)
print("成功加载分词器")
except OSError as e:
print(f"无法加载BERT分词器: {e}")
print("尝试使用备选方案...")
# 备选方案:使用简单的分词方法
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=10000)
print("已切换到简单分词器 (CountVectorizer)")
# 定义预处理函数
def preprocess_data(data):
sentences = data["sentence"].tolist()
labels = data["label"].tolist()
try:
# 如果BERT分词器加载成功
if 'tokenizer' in locals():
# 对句子进行分词和编码
encodings = tokenizer(
sentences,
truncation=True,
padding="max_length",
max_length=128,
return_tensors="pt"
)
return encodings, labels, True # 返回True表示使用BERT
else:
# 使用备选分词方法
# 注意:这里只对训练数据进行fit_transform
if 'vectorizer_fitted' not in globals():
global vectorizer_fitted
vectorizer_fitted = True
features = vectorizer.fit_transform(sentences)
else:
# 对于测试数据,只进行transform
features = vectorizer.transform(sentences)
return features, labels, False # 返回False表示使用备选方案
except Exception as e:
print(f"预处理数据时出错: {e}")
return None, labels, False
# 预处理训练集和测试集
if 'train_data' in locals() and 'test_data' in locals():
print("开始预处理数据...")
train_features, train_labels, using_bert = preprocess_data(train_data)
test_features, test_labels, _ = preprocess_data(test_data)
print("数据预处理完成")
6.3 模型定义与训练
import torch
from torch.utils.data import Dataset
import numpy as np
from sklearn.linear_model import LogisticRegression
class SSTDataset(Dataset):
def __init__(self, encodings, labels):
self.encodings = encodings
self.labels = labels
self.is_bert_encoding = isinstance(encodings, dict)
def __len__(self):
if self.is_bert_encoding:
return len(self.labels)
else:
return self.encodings.shape[0]
def __getitem__(self, idx):
if self.is_bert_encoding:
item = {key: val[idx] for key, val in self.encodings.items()}
item["labels"] = torch.tensor(self.labels[idx])
return item
else:
# 对于非BERT编码,返回稀疏向量的密集表示和标签
features = torch.tensor(self.encodings[idx].toarray()[0], dtype=torch.float)
label = torch.tensor(self.labels[idx])
return {"features": features, "labels": label}
# 创建数据集实例
train_dataset = SSTDataset(train_features, train_labels)
test_dataset = SSTDataset(test_features, test_labels)
# 根据使用的分词器选择不同的模型训练方法
if using_bert:
from transformers import BertForSequenceClassification, Trainer, TrainingArguments
# 加载预训练的 BERT 模型(用于二分类任务)
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)
# 定义训练参数
training_args = TrainingArguments(
output_dir="./results", # 输出目录
evaluation_strategy="epoch", # 每个 epoch 后评估模型
per_device_train_batch_size=16, # 训练时的批量大小
per_device_eval_batch_size=16, # 验证时的批量大小
num_train_epochs=3, # 训练轮数
weight_decay=0.01, # 权重衰减
logging_dir="./logs", # 日志目录
logging_steps=10 # 每 10 步记录一次日志
)
# 定义 Trainer
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=test_dataset
)
# 开始训练
trainer.train()
6.4 测试模型
# 测试单句预测
test_sentence = "This movie was absolutely fantastic!"
inputs = tokenizer(test_sentence, return_tensors="pt", truncation=True, padding=True, max_length=128)
outputs = model(**inputs)
prediction = outputs.logits.argmax(dim=-1).item()
# 输出结果
print("情感分析结果:", "积极" if prediction == 1 else "消极")
else:
print("使用备选方案 (LogisticRegression) 进行训练...")
# 将稀疏矩阵转换为numpy数组进行训练
X_train = train_features.toarray()
X_test = test_features.toarray()
# 使用逻辑回归作为备选模型
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, train_labels)
# 评估模型
accuracy = clf.score(X_test, test_labels)
print(f"测试集准确率: {accuracy:.4f}")
# 测试单句预测
test_sentence = "This movie was absolutely fantastic!"
# 使用已经训练好的vectorizer进行转换
test_features = vectorizer.transform([test_sentence])
prediction = clf.predict(test_features)[0]
# 输出结果
print("情感分析结果:", "积极" if prediction == 1 else "消极")
程序运行结果:
2025-02-27 23:52:05.928189: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-02-27 23:52:07.648400: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
成功加载本地数据集
sentence label
0 hide new secretions from the parental units 0
1 contains no wit , only labored gags 0
2 that loves its characters and communicates som... 1
3 remains utterly satisfied to remain the same t... 0
4 on the worst revenge-of-the-nerds clichés the ... 0
无法加载BERT分词器: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /bert-base-uncased/resolve/main/tokenizer_config.json (Caused by ProxyError('Unable to connect to proxy', FileNotFoundError(2, 'No such file or directory')))"), '(Request ID: 3fff21e5-ab5a-4c4c-8695-70d49bb4ebdf)')
尝试使用备选方案...
已切换到简单分词器 (CountVectorizer)
开始预处理数据...
数据预处理完成
使用备选方案 (LogisticRegression) 进行训练...
测试集准确率: 0.8131
情感分析结果: 积极
7. 前沿关联:超大规模语言模型的能力与挑战
7.1 超大规模模型
- GPT-4 和 PaLM 等模型拥有数千亿参数,能够生成高质量的文本、代码甚至图像描述。
- 能力:
- 上下文理解、多语言支持、零样本学习。
- 挑战:
- 计算资源需求高。
- 模型可解释性差。
- 潜在的偏见与伦理问题。
7.2 未来方向
- 更高效的训练方法(如稀疏激活、知识蒸馏)。
- 提升模型的可控性与安全性。
总结
Transformer 架构以其强大的自注意力机制和灵活的编码器-解码器结构,成为 NLP 领域的基石。通过实战项目,我们学会了如何使用 Hugging Face 的工具微调 BERT 模型。同时,我们也探讨了超大规模语言模型的潜力与挑战。
希望这篇博客能帮助你更好地理解 Transformer 的原理与应用!如果需要进一步扩展或优化,请随时告诉我!