第三章:大模型中的提示学习

发布于:2025-03-17 ⋅ 阅读:(9) ⋅ 点赞:(0)

一、提示学习(Prompt Learning)

左侧图示例:

我们针对上下文学习探索的三种设定:

零样本学习

(Zero-shot learning) 模型仅根据任务的自然语言描述预测答案,不执行梯度更新。

一样本学习

(One-shot learning) 除任务描述外,模型额外看到一个任务示例,不执行梯度更新。

少样本学习

(Few-shot learning) 除任务描述外,模型额外看到多个任务示例,不执行梯度更新。

对比右侧未展示的「传统微调」(Traditional Fine-tuning)流程,核心差异在于是否进行梯度更新(gradient updates)

右侧图示例:

用「考试培训」比喻解析这张图的核心逻辑:

图标题:传统微调(GPT-3未采用) → 相当于题海特训班:学生被关进补习机构,每天刷几千道题,每做错一题老师就强行修改他的脑回路

分步骤拆解图中的「填鸭式训练」流程:

  1. 喂题阶段(如英语→法语翻译题)
    • 老师先给标准答案: sea otter => loutre de mer(示例#1)
    • 黄色警告:立刻用教鞭(梯度更新)抽打学生大脑,强行记住这个对应关系
  1. 重复折磨(图中用...表示)
    • 第2题:peppermint => menthe poivrée(示例#2)
    • 第N题:plush giraffe => girafe peluche(示例#N)
    • 每次做题后都强制更新脑细胞,最终形成肌肉记忆
  1. 终极考验(图底部的prompt)
    • 最后给学生一道新题:cheese => __
    • 此时学生已被训练成「条件反射机器」,能脱口而出正确法语翻译

与传统教学法的致命对比 → 为何GPT-3拒绝这种模式

传统微调(图中方法)

GPT-3实际采用的方法

脑部改造

每道题都物理改造学生大脑(修改模型权重)

学生自带《五年高考秘籍》(冻结权重,仅用提示词)

灵活性

学会翻译后无法同时做数学题(任务单一化)

同一大脑可随时切换翻译/写诗/编码(多任务通用)

硬件需求

需要租用健身房猛练(GPU集群训练)

普通教室就能考试(推理时仅需普通算力)

通过图中密集的黄色梯度更新标记可以看出,这种方法就像给模型戴上了「紧箍咒」——虽然能精准完成特定任务,但丧失了像人类一样灵活运用知识的能力,这正是GPT-3选择截然不同技术路线的原因。

总结:

这张图可以理解为在教AI做题的两种不同补习班:

左边是「考前突击班」——老师只给题目类型说明和少量例题,直接让AI考试: ① 零基础突击:只告诉AI"这是英语翻译法语题",直接让它翻译"奶酪"(像考试时遇到完全没见过的题型) ② 给1道例题:先示范"海獭→loutre de mer",再让它翻译"奶酪" ③ 给3道例题:多示范几个正确翻译,再让它考试

右边是「题海特训班」——传统训练方式: 让AI做几千道翻译题,每做完一道就批改纠错,反复调整它的"脑回路"。就像学生每天刷题,错了就改错本,直到形成条件反射。

关键区别:左边像开卷考(AI现场理解题目),右边像封闭集训(AI被彻底改造)。GPT-3选择当突击班学霸,不需要长期集训就能直接做题。

GPT-3采用了什么样的学习方法来替代传统的微调方法?

GPT-3 的学习方法:情境学习(In-Context Learning, ICL)

GPT-3 采用了情境学习(In-Context Learning, ICL)的方法来替代传统的微调方法。以下是两者的对比解析:

传统微调方法
  1. 核心逻辑:
    • 使用大量特定任务的示例数据,通过反复的梯度更新来调整模型参数,使其适应特定任务。
    • 例如,在机器翻译任务中,模型会通过“sea otter => loutre de mer”“peppermint => menthe poivrée”等大量示例进行训练,逐步调整参数,最终能够翻译新输入“cheese => __”。
  1. 缺点:
    • 高成本:每个任务都需要大量特定数据进行训练。
    • 低灵活性:模型参数被固定为特定任务服务,无法快速适应新任务。
    • 复杂过程:需要反复的梯度更新和参数调整,耗时耗力。
情境学习方法
  1. 核心逻辑:
    • 不需要更新模型参数,而是通过输入中的任务示例(上下文)来指导模型理解任务要求。
    • 例如,在文本分类任务中,输入一些文本及其类别标签示例后,模型能够根据这些“情境”对新文本进行分类。
  1. 优点:
    • 灵活性高:无需调整参数,同一模型可快速适应多种任务。
    • 低成本:不需要针对每个任务进行单独训练。
    • 高效性:仅需提供少量示例即可完成任务,适合零样本、一样本和少样本场景。
对比总结

特性

传统微调

情境学习(GPT-3)

参数更新

需要梯度更新,调整模型参数

冻结参数,无需更新

数据需求

需要大量任务特定数据

仅需少量示例即可完成任务

任务适应性

单一任务专用

多任务通用,灵活性强

训练成本

高成本,复杂过程

低成本,高效易用

为什么 GPT-3 选择情境学习?

  • 通用性:情境学习使 GPT-3 能够处理多种任务,而无需为每个任务单独训练。
  • 效率:仅需提供少量示例即可完成任务,节省了训练时间和资源。
  • 适应性:模型能够根据上下文动态调整输出,更像人类的思维方式。

通过情境学习,GPT-3 实现了更高效、灵活和通用的 AI 能力,成为当前大语言模型的标杆

Prompt Learning vs In-context Learning

• Prompt learning 是一种使用预训练语言模型的方法,它不会修改模型的权重。在这种方法中,模型 被给予一个提示(prompt),这个提示是模型输入的一部分,它指导模型产生特定类型的输出。这 个过程不涉及到对模型权重的修改,而是利用了模型在预训练阶段学习到的知识和能力。

• In-context learning 是指模型在处理一系列输入时,使用前面的输入和输出作为后续输入的上下 文。这是Transformer模型(如GPT系列)的一种基本特性。例如,当模型在处理一个对话任务时, 它会使用对话中的前几轮内容作为上下文,来生成下一轮的回答。这个过程也不涉及到对模型权重的 修改。 总的来说,prompt learning和in-context learning都是利用预训练语言模型的方法,它们都不会修改模 型的权重。它们的主要区别在于,prompt learning关注的是如何通过设计有效的提示来引导模型的输 出,而in-context learning则关注的是如何利用输入序列中的上下文信息来影响模型的输出

我将用比喻+分栏对比的方式为您梳理两者的核心区别(严格对应图中信息):

就像「学霸的两种应试策略」

Prompt Learning(提示学习)

In-context Learning(上下文学习)

图像对应案例

核心技巧:考前给学霸塞小纸条,写上"这题要用法语翻译!"(通过任务描述引导作答)

核心技巧:学霸边做题边翻看前面做过的题目(利用历史记录辅助作答)

图中左侧所有示例的"Translate English to French:"就是典型提示词

操作特点:① 主动设计"问题说明书"② 像老师划重点:"这类题都用XX公式"

操作特点:① 被动感知题目关联性② 像学霸发现:"前两题都是动词变形,第三题可能也是"

示例中每个法语翻译前的英语单词排列形成连贯上下文

效果验证:在"cheese=>__"测试中,仅凭任务描述就能翻译

效果验证:看到"sea otter→loutre de mer"示例后,自动联想"cheese"词性对应

图中zero/one/few-shot本质上都是两种技巧的叠加使用

与传统微调的致命差异 → 不伤筋骨

传统微调(图中右侧)

本组方法(图中左侧)

学习方式

题海战术:做错一题就改一次脑回路(梯度更新)

现场发挥:带着考试秘籍进考场(冻结权重)

硬件需求

需要健身房(GPU集群)

咖啡馆笔记本电脑就能跑

数据依赖

必须吃下万人份训练数据

现场给3个例子就能举一反三

通过图像中的黄色"gradient update"标识与传统方法对比,更能直观理解为何GPT-3这类模型更青睐提示学习——这相当于让模型带着《五年高考三年模拟》的解题思路直接上考场,而非回炉重造。

二、思维链(Chain-of-Thought, CoT):开山之作

CoT Prompting 作为一种促进语言模型推理的方法具有几个吸引人的特点:

• 首先,从原则上讲,CoT 允许模型将多步问题分解为中间步骤,这意味着可以将额外计算资源分配 给需要更多推理步骤的问题。

• 其次,CoT 提供了对模型行为的可解释窗口,提示了它可能是如何得出特定答案的,并提供了调试 推理路径错误之处的机会(尽管完全描述支持答案的模型计算仍然是一个未解决问题)。

• 第三,在数学应用题、常识推理和符号操作等任务中都可以使用思维链推理(CoT Reasoning), 并且在原则上适用于任何人类能够通过语言解决的任务。

• 最后,在足够大规模现成语言模型中很容易引发 CoT Reasoning ,只需在少样本提示示例中包含一 些连贯思路序列即可。

用「解题草稿本」比喻解析思维链(Chain-of-Thought)的作用:

什么是思维链?

就像学生在做数学题时写下的演算步骤:

  1. 先列公式:把解题思路一步步写出来
  2. 再算结果:根据推导过程得出最终答案 模型通过生成中间推理步骤(如:"10个苹果-3个=7个 → 7个+5个=12个"),模拟人类思考过程。

思维链的三大核心作用(对比图中传统微调方法)

作用维度

传统微调(图像右侧)

思维链(GPT-3类模型)

实例对照

思考透明度

黑箱操作:模型直接输出"12"(如直接显示cheese→fromage)

打开思考过程:展示"10-3=7 → 7+5=12"的推理链条

图像中法语翻译若用思维链,会先解释"cheese是乳制品→法语名词需性数配合→正确翻译为fromage"

复杂问题处理

依赖死记硬背:靠海量训练数据强行记住答案

动态拆解问题:将法律条文分析拆解为"金额界定→条款匹配→量刑推导"三步

对比图像中的梯度更新过程,思维链无需反复训练就能处理新法律条款

错误修正能力

错了只能重新训练:需用新数据再次调整模型参数

实时纠错:发现"7+5=13"可立即补上"进位运算规则"重新计算

图像中的"gradient update"需耗时数小时,而思维链调整只需修改提示词

思维链的实战案例解析

  1. 数学应用题(增强可解释性)
    • 问题:<br>某书店首日卖出120本书,第二天销量比第一天多20%,第三天比第二天少15%,求总销量
    • 思维链:
① 第二天销量 = 120 × 1.2 = 144本  
② 第三天销量 = 144 × 0.85 = 122.4本 → 取整122本  
③ 总销量 = 120 + 144 + 122 = 386本
    • 对比传统方法:<br>若模型直接输出386,无法判断是猜对还是算对
  1. 医疗诊断(提升准确性)
    • 问题:<br>患者发热+咳嗽+肺部阴影,可能患什么病?
    • 思维链:
① 症状组合指向呼吸道感染  
② 需排除新冠肺炎(核酸检测)、肺炎(听诊啰音)  
③ 结合CT显示磨玻璃影,优先考虑病毒性肺炎
    • 优势:<br>比直接输出"肺炎"更易验证诊断逻辑
  1. 编程调试(处理多步任务)
    • 错误代码:<br>print(sum([1,2,"3"])) 报错
    • 思维链修正:
① 发现列表含字符串"3"导致类型错误  
② 解决方案A:过滤非数字 → sum([1,2,3])  
③ 解决方案B:转换类型 → sum([1,2,int("3")])  
④ 选择方案B并验证可行性

思维链举例:

没有使用思维链:

GPT-3.5:实测简单逻辑题

昨天,我在一个繁忙的一天结束后,决定去我最喜欢的咖啡店放松一下。我走进咖啡店,点了5杯拿铁和7杯美式,其中3杯拿铁是热的,有4杯冰美式。然后找了一个靠窗的位置坐下。我喝了1杯拿铁咖啡,送给了朋友5杯美式喝2杯热拿铁。看着窗外的人们匆匆忙忙,感觉非常惬意。然后,我从咖啡店出来,回到了家中。到家时,我还有几杯咖啡?

你会发现答案是错误的。

GPT-4:实测简单逻辑题

另一个题目:

CoT 实验结论

1. 对于小模型来说,CoT Prompting无法带来性能提升,甚至可能带来性能的下降。

2. 对于大模型来说,CoT Prompting 涌现出了性能提升。

3. 对于复杂的问题,CoT Prompting 能获得更多的性能收益。

CoT Prompt 黑魔法:Think step-by-step

三、自洽性(Self-Consistency):多路径推理

Self-Consistency 提升 CoT 性能

用「学霸解题大赛」比喻解析这张表格的核心结论:

大赛规则
  • 参赛选手:UL2、LaMDA、PaLM、GPT-3等不同规模的“学霸”(模型参数从20B到540B不等)
  • 比赛科目:常识推理(CSQA)、策略分析(StrategyQA)、符号逻辑(Letter/Coinflip)等6个科目
  • 解题策略:
    • 单人分步推导(CoT提示):学霸独自写草稿分步解题
    • 团队交叉验证(自洽性):学霸组队解题后投票选最优答案

终极对比 → 两种方法的实战差异

维度

CoT提示(单人解题)

自洽性(团队作战)

耗时

一次生成答案(3秒)

生成30个候选答案再投票(90秒)

硬件需求

普通GPU可运行

需要3倍显存

适用场景

简单常识问题(如"奶酪法语翻译?")

复杂逻辑推理(如"如何用硬币模拟量子纠缠?")

正如表格中**Coinflip (4)**任务展现的:当问题复杂度飙升时,自洽性方法带来的4.5%正确率提升,可能决定AI能否通过图灵测试——这不仅是技术参数的较量,更是人类如何设计智能思考范式的哲学探索。

关于 CoT 与大模型逻辑推理能力的现状

通过思维链,我们可以看到大语言模型的强与弱:

它强在,模型规模的提高,让语义理解、符号映射、连贯文本生成等能力跃升,从而让多步 骤推理的思维链成为可能,带来智能涌现

它弱在,即使大语言模型表现出了前所未有的能力,但思维链暴露了它,依然是鹦鹉学舌, 而非真的产生了意识。

没有思维链,大模型几乎无法实现逻辑推理。 但有了思维链,大语言模型也可能出现错误推理,尤其是非常简单的计算错误。Jason Wei 等的 论文中,曾展示过在 GSM8K 的一个子集中,大语言模型出现了 8% 的计算错误,比如6 * 13 = 68(正确答案是78)。

四、思维树(Tree-of-Thoughts, ToT):续写佳话

Prompting 示意图

用「探险地图」比喻解析思维树(Tree of Thoughts, ToT)

什么是思维树?

想象你要在迷宫中找到宝藏,传统方法可能是一条路走到黑(IO提示),或者边走边做标记(CoT思维链)。而思维树(ToT)则是:

  1. 画全地图:把迷宫所有岔路口画成树状图
  2. 分兵探路:派多个小队(分支思想)同时探索不同路径
  3. 实时评估:每走100米就用电台汇报:"前方有陷阱!换路线"(中间状态评估)
  4. 投票决策:最终选择伤亡最少、耗时最短的路线取宝

四类提示方法对比(对应图中四种架构)

方法

探险策略

适合场景

图中特征

IO提示

蒙眼狂奔

1+1=?等简单问题

圆形直连,无中间步骤(绿色箭头)

CoT思维链

边走边记路线

多步数学题

灰色方块串成的垂直链条

CoT-SC自洽性

克隆人分头走,投票选最优

答案唯一但路径多样的任务

粉色/绿色椭圆组成的多数决结构

ToT思维树

全地图分兵探索+动态调整

开放式复杂问题(如小说创作)

树状分支+多层评估节点(绿/粉方块)

ToT的四大核心机制(对应图中树状结构细节)
  1. 分支生成(Breadth)
    • 如图中绿色/粉色方块的分叉,每个节点同时生成多种可能的解题思路
    • 案例:写故事开头时,生成[科幻/悬疑/言情]三种类型大纲
  1. 深度探索(Depth)
    • 每条分支延伸出子节点,如图中箭头连接的多层方块
    • 案例:选择"科幻"分支后,进一步细化[时间旅行/外星文明/AI觉醒]子方向
  1. 状态评估(Evaluation)
    • 每个节点都有评估模块(图中未标注但隐含在连接逻辑中)
    • 规则:
if 当前情节逻辑矛盾 → 回溯到上一节点  
elif 角色塑造单薄 → 生成补充支线  
else → 继续向下探索
  1. 回溯机制(Backtrack)
    • 如图中向左的箭头,允许放弃低质量分支,重新激活其他路径
    • 案例:发现"AI觉醒"分支难以展开,跳回选择"外星文明"路线

ToT实战案例演示(结合图中颜色标识)

任务:设计碳中和城市方案

  1. 第一层分支(绿色方块):
    • 能源侧:光伏建筑/核聚变供电/氢能网络
    • 交通侧:飞行汽车/超导磁悬浮/共享无人车
  1. 第二层评估(粉色方块):
    • 淘汰"核聚变"(技术未成熟)
    • 深化"光伏建筑" → 计算全市屋顶面积转化率
  1. 第三层融合:
    • 将"共享无人车"与"氢能网络"结合,设计加氢站分布算法。

正如图中右侧ToT架构与左侧三种方法的对比——它不再是被动遵循单一路径,而是像围棋高手一样,在脑内同时推演上百种可能棋局,通过评估和选择逼近最优解。这种机制让AI在创作、战略规划等开放性问题中,首次展现出接近人类专家的系统思考能力

ToT 实验结果:24点游戏

ToT 实验结果:创意写作与迷你填字游戏

这张图表如同一场精妙的战术推演:ToT-b5以74%的成功率,宣告了“暴力穷举”(CoT百人海选)和“运气博弈”(IO提示)的终结。它揭示的不仅是AI解题效率的跃升,更映射出人类面对复杂问题时“分兵探索-动态调整-群体决策”的终极智慧。

TOT 思路的启发思想:

“A genuine problem-solving process involves the repeated use of available informa- tion to initiate exploration, which discloses, in turn, more information until a way to attain the solution is finally discovered.” —— Newell et al. 1959

翻译:

真正的解题过程需要循环利用已知信息启动探索,这种探索会持续揭示新线索,直到最终找到破局路径。

人物介绍:

Allen Newell(1927-1992)是计算机科学和认知科学领域的奠基人之一,与其合作者(通常以 "Newell et al." 指代)的研究对现代人工智能产生了深远影响,他在1950年代提出的“探索-评估”循环(见图3a节点访问曲线),仍是当前ToT方法的底层逻辑


网站公告

今日签到

点亮在社区的每一天
去签到