AGI大模型(2):GPT:Generative Pre-trained Transformer

发布于:2025-03-15 ⋅ 阅读:(17) ⋅ 点赞:(0)

1 Generative Pre-trained Transformer

1.1 Generative生成式

GPT中的“生成式”指的是该模型能够根据输入自动生成文本内容,而不仅仅是从已有的文本库中检索答案。  

具体来说:  

  • 生成(Generative):GPT是一个生成式AI模型,能够根据给定的提示(Prompt)动态生成连贯、符合语境的文本,而不是简单地匹配已有内容。  
  • 与检索式(Retrieval-based)不同:检索式AI通常依赖于数据库或预设答案,而生成式AI可以创造新文本,适应不同的语境和需求。  
  • 基于概率预测:GPT基于深度学习和概率模型,每次生成文本时,都会根据训练数据预测下一个最可能出现的单词,从而形成流畅的表达。  

简单来说,“生成式”就是让AI像人一样创造内容,而不是单纯复制已有的内容。

1.2 Pre-trained(预训练)

Pre-trained(预训练)指的是在深度学习中,模型在一个大规模数据集上进行的初步训练,以便获得对语言或任务的基础理解。  

在GPT(Generative Pre-trained Transformer)中,预训练的过程如下:  

(1)大规模数据训练:  

  • 先在海量文本数据(如书籍、文章、网页)上进行训练,学习词汇、语法、句子结构、语义等知识。  
  •  这个阶段不针对特定任务,而是让模型掌握通用语言能力。  

(2)自回归语言建模:  

  • GPT使用自回归(Autoregressive)方法,根据上下文预测下一个单词,逐步生成文本。  
  • 例如输入“今天的天气”,模型可能预测出“很好”或“阴天”等合理的词。  

(3)微调(Fine-tuning,可选):  

  • 预训练完成后,可以在特定任务(如聊天、代码生成、医学诊断)上进行微调,让模型更适应具体应用。  

为什么要预训练?

  • 节省计算资源:不必从零训练,可以用预训练好的模型进行微调。  
  • 提高泛化能力:模型在大量数据上学到的语言知识,可以泛化到不同任务。  
  • 更快适应特定任务:预训练模型可以快速适应客服、写作、编程等应用。

简单理解:预训练就像让AI先“读万卷书”,然后再针对不同任务“精雕细琢”!

1.3 Transformer变换模型

Transformer 是一种深度学习架构,用于处理**自然语言处理(NLP)**任务,如机器翻译、文本生成和语义理解。它由 Google 在 2017 年提出,彻底改变了 NLP 领域。

Transformer 简单⼀些的解释

你可以简单理解为它是⼀个⿊盒⼦,当我们在做⽂本翻译任务是,我输⼊进去⼀个中⽂,经过这个⿊盒⼦之后,输出来翻译过后的英⽂。

Transformer 的核心概念

Transformer 主要由以下核心组件组成:

(1)自注意力机制(Self-Attention)

作用:让模型关注句子中所有单词之间的关系,而不仅仅是相邻的词。

优势:可以处理长距离依赖,即理解句子中相隔很远的单词之间的联系。

示例:

句子:"The cat, which was very fluffy, sat on the mat."

传统方法 可能只关注相邻的词,比如 "sat" 只和 "on" 相关。

Transformer 可以让 "cat" 和 "fluffy" 之间建立联系,即使它们相隔较远。

(2)多头注意力(Multi-Head Attention)

作用:增强模型的表达能力,让它同时关注不同层面的信息。

优势:可以关注不同的上下文,例如一个头关注主语,另一个关注动词。

(3)前馈神经网络(Feed-Forward Network, FFN)

作用:对每个单词进行非线性变换,提高模型的表示能力。

优势:增强模型的表达能力,使其更具泛化性。

(4)位置编码(Positional Encoding)

作用:因为 Transformer 没有循环结构(不像 RNN),所以需要额外加位置编码,让模型知道单词在句子中的顺序。

注意力机制的核心思想

(1)计算每个词的重要性

注意力机制的关键是计算输入序列中每个单词对当前目标的相关性。

例子:

句子:"The cat sat on the mat because it was warm."

"it" 可能指代 "mat"(垫子),模型需要重点关注 "mat" 而不是 "cat"。

(2)通过权重调整关注度

对于每个输入词,模型计算一个注意力分数(权重)。

权重越高,说明这个词对当前任务越重要。

最终的输出是所有词的加权平均,但重要的词占更大比例。

2 ChatGPT 的技术原理

ChatGPT背后的GPT模型是在⼀个超⼤语料基础上预训练出的⼤语⾔模型,采⽤从左到右进⾏填字概率预测的⾃回归语⾔模型,并基于prompt来适应不同领域的任务。

再简单⼀些讲:GPT 模型使⽤ Google ⼏年前推出的 Transformer 架构 来预测下⼀个单词的概率分布,通过训练在⼤型⽂本语料库上学习到的 语⾔模式来⽣成⾃然语⾔⽂本

3 大模型训练

⼤模型的训练整体上分为三个阶段:预训练、SFT(监督微调)以及RLHF(基于⼈类反馈的强化学习)

(1)预训练(Pre-training)

预训练的过程类似于从婴⼉成⻓为中学⽣的阶段,在这个阶段我们会学习各种各样的知识,我们的语⾔习惯、知识体系等重要部分都会形成;对于⼤模型来说,在这个阶段它会学习各种不同种类的语料,学习到语⾔的统计规律和⼀般知识 ⼤模型的训练

(2)监督微调(SFT,Supervised Fine Tuning)

SFT的过程类似于从中学⽣成⻓为⼤学⽣的阶段,在这个阶段我们会学习到专业知识,⽐如⾦融、法律等领域,我们的头脑会更专注于特定领域。对于⼤模型来说,在这个阶段它可以学习各种⼈类的对话语料,甚⾄是⾮常专业的垂直领域知识,在监督微调过程之后,它可以按照⼈类的意图去回答专业领域的问题

(3)基于⼈类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)

RLHF的过程类似于从⼤学⽣步⼊职场的阶段,在这个阶段我们会开始进⾏⼯作,但是我们的⼯作可能会受到领导和客户的表扬,也有可能会受到批评,我们会根据反馈调整⾃⼰的⼯作⽅法,争取在职场获得更多的正⾯反馈。对于⼤模型来说,在这个阶段它会针对同⼀问题进⾏多次回答,⼈类会对这些回答打分,⼤模型会在此阶段学习到如何输出分数最⾼的回答,使得回答更符合⼈类的偏好。