文章目录
前言
在自然语言处理(NLP)中,文本预处理是构建深度学习模型的第一步。无论是语言模型还是文本分类任务,我们都需要将原始文本转化为模型可以理解的数值形式。PyTorch 作为一个强大的深度学习框架,提供了灵活的工具来实现这一过程。本文将通过一个完整的代码示例,带你从零开始理解 NLP 中的文本预处理流程。我们将以《时间机器》(The Time Machine)数据集为例,逐步解析如何读取文本、分词、构建词表、生成训练数据批次等关键步骤。所有代码都基于 PyTorch,并配有详细的测试验证。
通过这篇博客,你将学会如何将理论转化为实践,并掌握文本预处理的核心技术。让我们开始吧!
1. 文本预处理理论知识
在自然语言处理(NLP)中,文本预处理是将原始文本转化为机器可理解的数值形式的关键步骤。自然语言具有高度的复杂性和多样性,包括词汇的歧义、句法的变化以及语义的上下文依赖性。因此,文本预处理的理论基础旨在解决这些挑战,为深度学习模型提供结构化、高质量的输入数据。以下是文本预处理的核心理论概念:
1.1 文本清洗与标准化
原始文本通常包含噪声,例如标点符号、大小写不一致、特殊字符甚至拼写错误。文本清洗的目标是去除这些无关信息,保留语义核心内容。例如,将所有字符转换为小写可以消除大小写带来的冗余,而移除非字母字符(如数字或标点)则能简化后续处理。这种标准化过程确保模型专注于语言的本质,而非格式上的差异。
1.2 分词(Tokenization)
分词是将连续的文本拆分为离散单元(词元)的过程。词元可以是单词、字符甚至子词单元(如词根或词缀),具体选择取决于任务需求。单词级分词适用于大多数任务,因为它直接对应人类语言的基本单位,但可能面临词汇表过大或未登录词(OOV, Out-Of-Vocabulary)的问题。字符级分词则更细粒度,能有效减少词汇表大小并处理未见词,但会增加序列长度和计算复杂度。分词的理论意义在于将连续的自然语言转化为离散的符号序列,为后续的数值化奠定基础。
1.3 词频统计与词汇表构建
自然语言中,词元的出现频率遵循幂律分布(如 Zipf 定律),即少量高频词占据大部分语料,而大量低频词出现次数极少。词频统计的目的是量化这种分布,为词汇表构建提供依据。词汇表是词元到索引的映射,通常会过滤掉低频词以控制模型复杂度,同时引入特殊词元(如 <unk>
表示未知词)处理未见词。这种方法在理论上平衡了表示能力与计算效率,是词嵌入和语言模型的基础。
1.4 序列表示与批次生成
深度学习模型通常以固定长度的数值序列作为输入,而文本长度往往不一。序列表示的目标是将词元序列转化为索引序列,并通过截断或填充统一长度。批次生成则进一步将长序列分割为小批量数据,供模型分步训练。理论上,批次生成有两种策略:随机采样和顺序分区。随机采样通过打乱数据顺序增强模型的鲁棒性,适合捕捉全局模式;顺序分区则保留序列的连续性,更适合学习局部依赖关系(如语言模型中的上下文预测)。这两种方法的选择取决于任务目标和模型架构。
1.5 预处理的意义
文本预处理的理论核心在于将非结构化的自然语言转化为结构化的数值数据,同时尽量保留语义信息。它不仅是技术实现的第一步,也是连接人类语言与机器计算的桥梁。通过清洗、分词、构建词表和生成批次,我们将复杂的语言现象简化为可计算的数学问题,为后续的神经网络训练提供了坚实基础。
2. 文本预处理的核心代码解析
2.1 读取数据集:read_time_machine
文本预处理的第一步是从文件中读取数据。以下函数 read_time_machine
将《时间机器》数据集加载为文本行列表,并进行初步清洗:
def read_time_machine():
"""将时间机器数据集加载到文本行的列表中"""
with open('timemachine.txt', 'r') as f:
lines = f.readlines()
return [re.sub('[^A-Za-z]+', ' ', line).strip().lower() for line in lines]
这个函数的工作原理很简单:
- 使用
open
读取timemachine.txt
文件的每一行。 - 对每行文本使用正则表达式
re.sub('[^A-Za-z]+', ' ', line)
,将所有非字母字符替换为空格。 - 通过
strip()
去除首尾多余空格,并用lower()
将文本转换为小写。
例如,如果文件内容为:
The Time Machine
By H.G. Wells
输出将是:
['the time machine', 'by h g wells']
2.2 分词处理:tokenize
读取文本后,我们需要将其拆分为词元(token),可以是单词或字符。tokenize
函数提供了两种分词方式:
def tokenize(lines, token='word'):
"""将文本行拆分为单词或字符词元"""
if token == 'word':
return [line.split() for line in lines]
elif token == 'char':
return [list(line) for line in lines]
else:
print(f'错误:未知词元类型:{
token}')
- 当
token='word'
时,按空格将每行拆分为单词列表。例如,'the time machine'
变为['the', 'time', 'machine']
。 - 当
token='char'
时,将每行拆分为字符列表。例如,'the'
变为['t', 'h', 'e']
。 - 如果传入未知类型,会提示错误。
2.3 词频统计:count_corpus
为了构建词表,我们需要统计每个词元的出现频率。count_corpus
函数实现了这一功能:
def count_corpus(tokens):
"""统计词元的频率"""
if not tokens:
return Counter()
if isinstance(tokens[0], list):
flattened_tokens = [token for sublist in tokens for token in sublist]
else:
flattened_tokens = tokens
return Counter(flattened_tokens)
- 输入可以是一维列表(如
['a', 'b']
)或二维列表(如[['a', 'b'], ['c']]
)。 - 如果是二维列表,会先展平为一维列表。
- 使用
Counter
对象统计每个词元的频率。例如,[['the', 'time'], ['the']]
输出Counter({'the': 2, 'time': 1})
。
2.4 构建词表:Vocab
类
Vocab
类是文本预处理的核心,用于将词元映射为索引:
class Vocab:
"""文本词表类,用于管理词元及其索引的映射关系"""
def