NLP技术发展史
自然语言处理(NLP)的发展史是一部人类试图用机器理解自我的探索史。从20世纪初至今,这项技术经历了四个关键阶段,每个阶段都折射出人类认知方式的重大转变。
2.0 现代语言学觉醒 ( 20世纪初)
20 世纪初,瑞士日内瓦大学的费迪南德·德·索绪尔( Ferdinand de Saussure) 的语言学教授发明了一种将语言描述为“系统”的方法。他认为意义是在语言内部、语言各部分之间的关系和差异中创造的,“在词里,重要的不是声音本身,而是使这个词区别于其他一切词的声音上的区别,因为带有意义的也正是这些差别。" 他提出,“意义”产生于语言之间的关系和对比,而共享语言系统则使交流成为可能。
索绪尔 1913 年去世后,他的两个学生阿尔伯特·薛施霭(Albert Sechehaye)和沙尔·巴利(Charles Bally),收集了教授留下的手稿,编辑整理形成《通用语言学》,并于 1916 年出版。该书奠定了后来的基础结构主义的方法论,成为现代语言学以及结构主义语言学的开山之作,索绪尔教授也因此被后人称为现代语言学之父。结构化理论也为几十年后出现的结构化编程语言与人工智能技术打下了理论基础。
2.1 规则驱动的探索(1950-1980)
NLP早期的探索始于对机器翻译的研究。1947年,美国科学家韦弗(W. Weaver)博士和英国工程师布斯(A. D. Booth)提出了利用计算机进行语言自动翻译的设想,机器翻译(Machine Translation)从此步入历史舞台。
20世纪50年代,美国尝试着利用计算机将大量俄语资料自动翻译成英语,以窥探苏联科技的最新发展。研究者从破译军事密码中得到启示,简单地认为语言之间的差异只不过是对“同一语义”的不同编码而已,从而想当然地采用译码技术解析不同的语言。这就是最早机器翻译理论的思想。
1954年1月7日,美国乔治敦大学和IBM公司首先成功地将60多句俄语自动翻译成英语。当时的系统还非常简单,仅包含6个语法规则和250个词。但是,由于媒体的广泛报道,美国政府备受鼓舞,认为这是一个巨大的进步,长期发展将具有重要的战略意义。而实验者声称:在三到五年之内就能够完全解决从一种语言到另一种语言的自动翻译问题。
当时普遍认为只要制定好各种翻译规则,通过大量规则的堆砌就能完美地实现语言间的自动翻译。1956年,美国语言学家诺姆·乔姆斯基(Noam Chomsky)从Shannon 的工作中利用了有限状态马尔科夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(Formal LanguageTheory)。它为最初的机器翻译工作提供了理论基础。
1958 年,人工智能研究先驱约翰·麦卡锡(John McCarthy
)带领由 MIT 学生组成的团队开发了一门全新的表处理语言 LISP,赋予了编程语言更强的数学计算能力。LISP 语言后来也被称为人工智能的“母语”,成为早期人工智能研究人员的编程语言。
1964 年,首个自然语言对话程序 ELIZA 诞生,该程序是由麻省理工学院人工智能实验室的德裔计算机科学家约瑟夫·维岑鲍姆 (Joseph Weizenbaum)使用一种名为 MAD-SLIP 的类 LISP 语言编写,运行在 MIT 实验室中 36 位的分时系统 IBM 7094 (早期的晶体管大型计算机)上。
这一时期,虽然有了一定的理论基础以及像 Eliza 这样的初级产品,但在历时近 12 年并耗资近 2000 万美元后,机器翻译并未获得本质性的突破,其成本远高于人工翻译,并且仍然没有任何计算机能够真正实现基本的对话。
1964年美国科学院成立了语言自动处理咨询委员会(ALPAC),开始了为期两年的综合调查分析和测试。直到1966年年底,委员会公布了题为《语言和机器:翻译和语言学中的计算机》的报告(简称ALPAC报告)。该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表终结了自然语言处理的第一个时代:机器翻译时代。
2.2 统计革命浪潮(1980-2010)
自然语言处理曾经分为规则派与统计派,并且一度相执不下。
规则派的方法通常是基于乔姆斯基的语言学理论,采用规则形式描述或解释歧义行为或歧义特性,形成一套复杂的规则集-语言分析或生成系统,对自然语言进行分析处理。
统计派以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律。
1980年代,随着计算能力的提升和语料库的积累,NLP迎来统计学习的转折点。1988年,IBM T.J. Watson研究中心的Frederick Jelinek团队,其论文《A Statistical Approach to Language Translation》首次将隐马尔可夫模型(HMM)应用于法英机器翻译,在150万词对的加拿大议会记录语料上,翻译准确率较规则系统提升23%,标志着NLP从人工规则转向数据驱动的统计方法。
这一时期,统计模型在信息检索、文本分类、语音识别、问答系统四大核心任务中实现了突破。由于统计方法依赖大规模标注数据,宾州树库(PTB)、WordNet词汇网络等语料库建设成为基础设施。
统计模型通过计算词与词、词与句子之间的共现概率,实现了语言的统计建模,其数学内核是概率图模型与贝叶斯推断。代表性技术包括:**隐马尔可夫模型(HMM)、条件随机场(CRF)和支持向量机(SVM)**等。
(1)隐马尔可夫模型标准化(1989)
Rabiner的经典论文《A Tutorial on Hidden Markov Models》系统化HMM在词性标注的应用。在宾州树库(PTB)测试中,HMM标注器达到96%准确率,较规则系统提升15个百分点。但其假设观测独立性(如当前词仅依赖当前词性)导致"the/DT dog/NN runs/VBZ"这类歧义结构处理困难。
(2)n-gram模型突破(1992)
N-gram模型通过马尔可夫假设(当前词仅依赖前n-1个词),利用词频统计预测语言序列的概率分布。
1992年,Brown等人在《Class-Based n-gram Models of Natural Language》中首次完整定义n-gram模型的数学框架: P ( w n ∣ w 1 n − 1 ) ≈ P ( w n ∣ w n − k n − 1 ) P(w_n|w_{1}^{n-1}) \approx P(w_n|w_{n-k}^{n-1}) P(wn∣w1n−1)≈P(wn∣wn−kn−1) 该论文在AP News语料库上验证了三元模型(trigram)在词性标注任务中的有效性,准确率达89.6%。
(3) 最大熵原理引入(1996)
Berger等人的《A Maximum Entropy Approach to Natural Language Processing》突破参数独立性限制。最大熵模型通过特征函数组合(如"当前词后缀=ing且前词词性=VB")在命名实体识别任务中F1值达到91.3%,较HMM提升9%。
(4)条件随机场(CRF)(2001)
《Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data》突破HMM的生成模型局限。在CoNLL-2003命名实体识别任务中,CRF的F1值达到88.2%,较HMM高6.4%。其关键创新是全局特征建模,例如在"Bank of China"中,"of"虽非实体词,但能增强前后词的实体关联。
从基于规则的方法向统计方法的转变极大地推动了NLP技术的发展,并为后续的深度学习时代奠定了基础,但统计方法依赖人工设计特征,且难以捕捉语言的深层语义。
2.3 神经网络觉醒(2010-2017)
深度学习技术的突破性进展,尤其是神经网络架构的优化与大规模算力的突破,彻底重塑了自然语言处理的底层逻辑。
word2vec诞生之前,NLP中并没有一个统一的方法去表示一段文本。各位前辈和大师们发明了许多的方法:
- one-hot表示一个词
- bag-of-words来表示一段文本
- tf-idf中用频率的手段来表征词语的重要性
- text-rank中借鉴了page-rank的方法来表征词语的权重
- 基于SVD纯数学分解词文档矩阵的LSA
- pLSA中用概率手段来表征文档形成过程
- LDA中引入两个共轭分布从而完美引入先验
Yoshua Bengio在2001年发表的论文《A Neural Probabilistic Language Model》中,首次将**词嵌入(Word Embedding)**概念引入自然语言处理领域,提出通过神经网络学习单词的分布式表示,为后续词向量研究奠定了基础。
(1)词嵌入技术突破:从分布式表达到语义关联建模
2013年,Mikolov等人发表的《Efficient Estimation of Word Representations in Vector Space》提出了Word2Vec模型,通过Skip-gram和CBOW架构将词语映射为低维稠密向量,首次在向量空间中捕捉到语义关联(如“国王-男性≈王后-女性”)。
这一发现不仅验证了分布式假设(Distributional Hypothesis),还为后续任务提供了通用的词向量初始化方法。例如,Word2Vec在机器翻译中通过向量对齐实现跨语言映射,显著提升了翻译质量。
(2)序列建模革新:从RNN到注意力机制
Hochreiter与Schmidhuber在1997年提出的LSTM(长短期记忆网络)通过门控机制(输入门、遗忘门、输出门)缓解梯度消失问题,成为处理长文本的核心工具。
2014年,Cho等人进一步提出GRU(门控循环单元),简化了LSTM结构,提升了训练效率。例如,谷歌神经机器翻译系统(GNMT)基于LSTM实现了端到端翻译,BLEU评分较传统方法提升30%。
2014年,Bahdanau等人在《Neural Machine Translation by Jointly Learning to Align and Translate》中首次将注意力机制引入机器翻译。该机制允许模型动态关注输入序列的不同部分,例如在翻译“猫坐在垫子上”时,模型会优先关注“猫”与“垫子”的关联,而非逐词处理。这一方法将翻译准确率提升了15%。
Sutskever等人提出的Sequence-to-Sequence(Seq2Seq)模型结合编码器-解码器架构,支持文本生成任务。2016年,谷歌将其应用于智能回复(Smart Reply),实现了邮件和消息的自动摘要与回复生成。
(3)Transformer范式颠覆:并行化与全局上下文建模
2017年,Vaswani等人在《Attention Is All You Need》中提出Transformer架构,完全摒弃了循环结构,转而依赖自注意力机制(Self-Attention)并行处理全局上下文。其核心创新包括:
- 多头注意力:通过多组Q/K/V矩阵捕捉不同语义层次的关联;
- 位置编码:引入正弦函数表示词序,弥补无递归结构的时序缺陷;
- 残差连接与层归一化:加速模型收敛并缓解梯度消失。
Transformer在WMT 2014英德翻译任务中BLEU得分达到28.4,超越当时最优的RNN模型3.1分。
与RNN的串行处理不同,Transformer的并行化使其训练速度提升5-10倍,尤其是在处理长文本(如医学文献)时,效率优势更加显著。
2.4 大模型纪元(2018至今)
(1)BERT的双向上下文建模
2018年,谷歌团队在《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 提出的BERT(Bidirectional Encoder Representations from Transformers),即双向Transformer编码器架构,首次实现深度双向语义表征。其核心创新在于:
- 掩码语言模型(MLM):通过随机遮蔽输入序列中的部分词汇,迫使模型学习双向上下文依赖关系。例如,在句子“他存钱到[bank]”中,模型需结合上下文推断“[bank]”指代“银行”而非“河岸”。
- 下一句预测(NSP):通过判断两句话的逻辑关联性,增强模型对篇章结构的理解。
(2)GPT系列的生成能力突破
2018年6月,OpenAI团队在《Improving Language Understanding by Generative Pre-Training》提出GPT(Generative Pre-trained Transformer),首次提出生成式预训练+任务微调的两阶段框架,标志着自然语言处理从任务定制模型向通用预训练模型转变的关键转折点。
同期模型的对比
模型 | 架构 | 预训练目标 | 参数规模 | GLUE平均得分 |
---|---|---|---|---|
GPT-1 | Transformer解码器 | 单向语言模型 | 117M | 72.8 |
BERT | Transformer编码器 | 双向语言模型 | 340M | 80.5 |
ELMo | 双向LSTM | 双向语言模型 | 93.6M | 68.9 |
OpenAI的GPT系列模型通过自回归生成架构展现强大文本创作能力
- GPT-2(2019):基于40GB网络文本训练,将参数扩大至1.5B,引入Zero-shot学习能力 ,可生成连贯的长篇文章,但因伦理争议未完全开源;
- GPT-3(2020):参数规模达175B,首次实现Few-shot learning
- InstructGPT(2022):通过人类反馈强化学习(RLHF)优化生成安全性
2022年11月30日,OpenAI 发布ChatGPT 3.5 ,首次实现自然对话交互能力,支持问答、创作、代码生成等任务, 引发生成式AI爆发潮,直接推动谷歌Gemini(2023年12月)、微软Copilot(2023年2月)等竞品加速研发。
截至2023年底,ChatGPT全球月活用户突破1.8亿,成为史上用户增速最快的消费级应用。
结语
从规则驱动到统计学习,从Word2Vec的语义向量到大模型的通用生成能力,NLP发展的历史揭示:技术进化并非范式替代,而是技术栈的持续融合——规则提供可解释性框架,统计赋予数据驱动能力,神经网络实现分布式表征。
这种螺旋上升的轨迹,正是人工智能突破认知边界的核心动力,更是机器对人类语言本质的重新诠释:语言本质上是概率分布。