- GPT代表"Generative Pre-trained Transformer",是一种基于Transformer架构的生成式预训练模型。
只需一次添加一个单词
- 当ChatGPT生成文本时,它通过不断询问“给定到目前为止的文本,下一个单词应该是什么?”来进行预测。在每一步,模型会得到一个带有概率的单词列表,表示下一个可能的单词选项。这些概率是基于训练数据中观察到的单词和上下文关系进行计算的。
- 通常情况下,ChatGPT会选择具有最高概率的单词作为下一个单词。这样做可以确保生成的文本在语法和上下文方面更加合理。然而,为了增加生成文本的多样性,模型也会随机选择概率较低的单词。这种随机性可以通过一个称为“温度”的参数来调节,较高的温度值会增加随机性,较低的温度值会降低随机性。
- 需要注意的是,由于模型的训练方式,它并不具有实际的理解能力,有时可能会生成不准确或不合理的文本。
概率从何而来?
- 从大量英语文本样本如各种书籍中统计每个字母、字母对和短单词的频次,这些频次就代表了它们在语言中的概率分布。
- 同样通过统计,可以得到较长的n元语法如单词对和短语的概率分布,这可以产生更连贯的短文本。
- 但是长语法片段和完整文章的可能组合太多,无法直接从现有文本统计全部概率。
- 所以ChatGPT采用了语言模型,这是一种能学习并估计任意长度语法序列概率的算法模型。它通过大规模无监督学习,理解语言的统计规律生成更好的概率分布估计。
- 这样ChatGPT就能根据当前输入和背景,动态估计后续各种可能输出的概率,从中选择最高概率的输出生成连贯的长文本。
什么是模型?
- 模型是简化真实世界的数学或逻辑描述。它可以用来理解并解释数据,或用来计算未知情况下的结果。
- 对任何数据来说,都没有"无模型模型",任何描述都需要建立在某种底层结构或假设之上。
- 最简单的模型不一定最好,需要找到一个平衡简单和精确的模型。
- 模型往往包含一些可以调整的参数,通过优化这些参数来使模型更好地匹配数据。
- ChatGPT使用了含有巨量参数的语言模型作为其底层结构。这种模型足以描述语言的统计规律,生成自然流畅的文本。
- 模型是理解和计算未知情况的有效方式,但它也只是对真实世界的一个近似描述。
类人任务模型
- 语言模型的目标是建立一个能够处理人类语言文本的模型,而图像识别任务则是识别图像中的数字。虽然我们可以通过显式的逐像素比较来评估数字图像是否对应于特定数字,但人类在识别数字图像方面