第三章：大模型中的提示学习-EW帮帮网

一、提示学习（Prompt Learning）

左侧图示例：

我们针对上下文学习探索的三种设定：

零样本学习

（Zero-shot learning）模型仅根据任务的自然语言描述预测答案，不执行梯度更新。

一样本学习

（One-shot learning）除任务描述外，模型额外看到一个任务示例，不执行梯度更新。

少样本学习

（Few-shot learning）除任务描述外，模型额外看到多个任务示例，不执行梯度更新。

对比右侧未展示的「传统微调」（Traditional Fine-tuning）流程，核心差异在于是否进行梯度更新（gradient updates）

右侧图示例：

用「考试培训」比喻解析这张图的核心逻辑：

图标题：传统微调（GPT-3未采用） → 相当于题海特训班：学生被关进补习机构，每天刷几千道题，每做错一题老师就强行修改他的脑回路

分步骤拆解图中的「填鸭式训练」流程：

喂题阶段（如英语→法语翻译题）

- 老师先给标准答案： sea otter => loutre de mer（示例#1）
- 黄色警告：立刻用教鞭（梯度更新）抽打学生大脑，强行记住这个对应关系

重复折磨（图中用...表示）

- 第2题：peppermint => menthe poivrée（示例#2）
- 第N题：plush giraffe => girafe peluche（示例#N）
- 每次做题后都强制更新脑细胞，最终形成肌肉记忆

终极考验（图底部的prompt）

- 最后给学生一道新题：cheese => __
- 此时学生已被训练成「条件反射机器」，能脱口而出正确法语翻译

与传统教学法的致命对比 → 为何GPT-3拒绝这种模式

	传统微调（图中方法）	GPT-3实际采用的方法
脑部改造	每道题都物理改造学生大脑（修改模型权重）	学生自带《五年高考秘籍》（冻结权重，仅用提示词）
灵活性	学会翻译后无法同时做数学题（任务单一化）	同一大脑可随时切换翻译/写诗/编码（多任务通用）
硬件需求	需要租用健身房猛练（GPU集群训练）	普通教室就能考试（推理时仅需普通算力）

通过图中密集的黄色梯度更新标记可以看出，这种方法就像给模型戴上了「紧箍咒」——虽然能精准完成特定任务，但丧失了像人类一样灵活运用知识的能力，这正是GPT-3选择截然不同技术路线的原因。

总结：

这张图可以理解为在教AI做题的两种不同补习班：

左边是「考前突击班」——老师只给题目类型说明和少量例题，直接让AI考试： ① 零基础突击：只告诉AI"这是英语翻译法语题"，直接让它翻译"奶酪"（像考试时遇到完全没见过的题型） ② 给1道例题：先示范"海獭→loutre de mer"，再让它翻译"奶酪" ③ 给3道例题：多示范几个正确翻译，再让它考试

右边是「题海特训班」——传统训练方式：让AI做几千道翻译题，每做完一道就批改纠错，反复调整它的"脑回路"。就像学生每天刷题，错了就改错本，直到形成条件反射。

关键区别：左边像开卷考（AI现场理解题目），右边像封闭集训（AI被彻底改造）。GPT-3选择当突击班学霸，不需要长期集训就能直接做题。

GPT-3采用了什么样的学习方法来替代传统的微调方法？

GPT-3 的学习方法：情境学习（In-Context Learning, ICL）

GPT-3 采用了情境学习（In-Context Learning, ICL）的方法来替代传统的微调方法。以下是两者的对比解析：

传统微调方法

核心逻辑：

- 使用大量特定任务的示例数据，通过反复的梯度更新来调整模型参数，使其适应特定任务。
- 例如，在机器翻译任务中，模型会通过“sea otter => loutre de mer”“peppermint => menthe poivrée”等大量示例进行训练，逐步调整参数，最终能够翻译新输入“cheese => __”。

缺点：

- 高成本：每个任务都需要大量特定数据进行训练。
- 低灵活性：模型参数被固定为特定任务服务，无法快速适应新任务。
- 复杂过程：需要反复的梯度更新和参数调整，耗时耗力。

情境学习方法

核心逻辑：

- 不需要更新模型参数，而是通过输入中的任务示例（上下文）来指导模型理解任务要求。
- 例如，在文本分类任务中，输入一些文本及其类别标签示例后，模型能够根据这些“情境”对新文本进行分类。

优点：

- 灵活性高：无需调整参数，同一模型可快速适应多种任务。
- 低成本：不需要针对每个任务进行单独训练。
- 高效性：仅需提供少量示例即可完成任务，适合零样本、一样本和少样本场景。

对比总结

特性	传统微调	情境学习（GPT-3）
参数更新	需要梯度更新，调整模型参数	冻结参数，无需更新
数据需求	需要大量任务特定数据	仅需少量示例即可完成任务
任务适应性	单一任务专用	多任务通用，灵活性强
训练成本	高成本，复杂过程	低成本，高效易用

为什么 GPT-3 选择情境学习？

通用性：情境学习使 GPT-3 能够处理多种任务，而无需为每个任务单独训练。
效率：仅需提供少量示例即可完成任务，节省了训练时间和资源。
适应性：模型能够根据上下文动态调整输出，更像人类的思维方式。

通过情境学习，GPT-3 实现了更高效、灵活和通用的 AI 能力，成为当前大语言模型的标杆

Prompt Learning vs In-context Learning

• Prompt learning 是一种使用预训练语言模型的方法，它不会修改模型的权重。在这种方法中，模型被给予一个提示（prompt），这个提示是模型输入的一部分，它指导模型产生特定类型的输出。这个过程不涉及到对模型权重的修改，而是利用了模型在预训练阶段学习到的知识和能力。

• In-context learning 是指模型在处理一系列输入时，使用前面的输入和输出作为后续输入的上下文。这是Transformer模型（如GPT系列）的一种基本特性。例如，当模型在处理一个对话任务时，它会使用对话中的前几轮内容作为上下文，来生成下一轮的回答。这个过程也不涉及到对模型权重的修改。总的来说，prompt learning和in-context learning都是利用预训练语言模型的方法，它们都不会修改模型的权重。它们的主要区别在于，prompt learning关注的是如何通过设计有效的提示来引导模型的输出，而in-context learning则关注的是如何利用输入序列中的上下文信息来影响模型的输出

我将用比喻+分栏对比的方式为您梳理两者的核心区别（严格对应图中信息）：

就像「学霸的两种应试策略」

Prompt Learning（提示学习）	In-context Learning（上下文学习）	图像对应案例
核心技巧：考前给学霸塞小纸条，写上"这题要用法语翻译！"（通过任务描述引导作答）	核心技巧：学霸边做题边翻看前面做过的题目（利用历史记录辅助作答）	图中左侧所有示例的"Translate English to French："就是典型提示词
操作特点：① 主动设计"问题说明书"② 像老师划重点："这类题都用XX公式"	操作特点：① 被动感知题目关联性② 像学霸发现："前两题都是动词变形，第三题可能也是"	示例中每个法语翻译前的英语单词排列形成连贯上下文
效果验证：在"cheese=>__"测试中，仅凭任务描述就能翻译	效果验证：看到"sea otter→loutre de mer"示例后，自动联想"cheese"词性对应	图中zero/one/few-shot本质上都是两种技巧的叠加使用

与传统微调的致命差异 → 不伤筋骨

	传统微调（图中右侧）	本组方法（图中左侧）
学习方式	题海战术：做错一题就改一次脑回路（梯度更新）	现场发挥：带着考试秘籍进考场（冻结权重）
硬件需求	需要健身房（GPU集群）	咖啡馆笔记本电脑就能跑
数据依赖	必须吃下万人份训练数据	现场给3个例子就能举一反三

通过图像中的黄色"gradient update"标识与传统方法对比，更能直观理解为何GPT-3这类模型更青睐提示学习——这相当于让模型带着《五年高考三年模拟》的解题思路直接上考场，而非回炉重造。

二、思维链（Chain-of-Thought, CoT）：开山之作

CoT Prompting 作为一种促进语言模型推理的方法具有几个吸引人的特点：

• 首先，从原则上讲，CoT 允许模型将多步问题分解为中间步骤，这意味着可以将额外计算资源分配给需要更多推理步骤的问题。

• 其次，CoT 提供了对模型行为的可解释窗口，提示了它可能是如何得出特定答案的，并提供了调试推理路径错误之处的机会（尽管完全描述支持答案的模型计算仍然是一个未解决问题）。

• 第三，在数学应用题、常识推理和符号操作等任务中都可以使用思维链推理（CoT Reasoning），并且在原则上适用于任何人类能够通过语言解决的任务。

• 最后，在足够大规模现成语言模型中很容易引发 CoT Reasoning ，只需在少样本提示示例中包含一些连贯思路序列即可。

用「解题草稿本」比喻解析思维链（Chain-of-Thought）的作用：

什么是思维链？

就像学生在做数学题时写下的演算步骤：

先列公式：把解题思路一步步写出来
再算结果：根据推导过程得出最终答案模型通过生成中间推理步骤（如："10个苹果-3个=7个 → 7个+5个=12个"），模拟人类思考过程。

思维链的三大核心作用（对比图中传统微调方法）

作用维度	传统微调（图像右侧）	思维链（GPT-3类模型）	实例对照
思考透明度	黑箱操作：模型直接输出"12"（如直接显示cheese→fromage）	打开思考过程：展示"10-3=7 → 7+5=12"的推理链条	图像中法语翻译若用思维链，会先解释"cheese是乳制品→法语名词需性数配合→正确翻译为fromage"
复杂问题处理	依赖死记硬背：靠海量训练数据强行记住答案	动态拆解问题：将法律条文分析拆解为"金额界定→条款匹配→量刑推导"三步	对比图像中的梯度更新过程，思维链无需反复训练就能处理新法律条款
错误修正能力	错了只能重新训练：需用新数据再次调整模型参数	实时纠错：发现"7+5=13"可立即补上"进位运算规则"重新计算	图像中的"gradient update"需耗时数小时，而思维链调整只需修改提示词

思维链的实战案例解析

数学应用题（增强可解释性）

- 问题： 某书店首日卖出120本书，第二天销量比第一天多20%，第三天比第二天少15%，求总销量
- 思维链：

① 第二天销量 = 120 × 1.2 = 144本  
② 第三天销量 = 144 × 0.85 = 122.4本 → 取整122本  
③ 总销量 = 120 + 144 + 122 = 386本

- 对比传统方法： 若模型直接输出386，无法判断是猜对还是算对

医疗诊断（提升准确性）

- 问题： 患者发热+咳嗽+肺部阴影，可能患什么病？
- 思维链：

① 症状组合指向呼吸道感染  
② 需排除新冠肺炎（核酸检测）、肺炎（听诊啰音）  
③ 结合CT显示磨玻璃影，优先考虑病毒性肺炎

- 优势： 比直接输出"肺炎"更易验证诊断逻辑

编程调试（处理多步任务）

- 错误代码： print(sum([1,2,"3"])) 报错
- 思维链修正：

① 发现列表含字符串"3"导致类型错误  
② 解决方案A：过滤非数字 → sum([1,2,3])  
③ 解决方案B：转换类型 → sum([1,2,int("3")])  
④ 选择方案B并验证可行性

思维链举例：

没有使用思维链：

GPT-3.5：实测简单逻辑题

昨天，我在一个繁忙的一天结束后，决定去我最喜欢的咖啡店放松一下。我走进咖啡店，点了5杯拿铁和7杯美式，其中3杯拿铁是热的，有4杯冰美式。然后找了一个靠窗的位置坐下。我喝了1杯拿铁咖啡，送给了朋友5杯美式喝2杯热拿铁。看着窗外的人们匆匆忙忙，感觉非常惬意。然后，我从咖啡店出来，回到了家中。到家时，我还有几杯咖啡？

你会发现答案是错误的。

GPT-4：实测简单逻辑题

另一个题目：

CoT 实验结论

1. 对于小模型来说，CoT Prompting无法带来性能提升，甚至可能带来性能的下降。

2. 对于大模型来说，CoT Prompting 涌现出了性能提升。

3. 对于复杂的问题，CoT Prompting 能获得更多的性能收益。

CoT Prompt 黑魔法：Think step-by-step

三、自洽性（Self-Consistency）：多路径推理

Self-Consistency 提升 CoT 性能

用「学霸解题大赛」比喻解析这张表格的核心结论：

大赛规则

参赛选手：UL2、LaMDA、PaLM、GPT-3等不同规模的“学霸”（模型参数从20B到540B不等）
比赛科目：常识推理（CSQA）、策略分析（StrategyQA）、符号逻辑（Letter/Coinflip）等6个科目
解题策略：

- 单人分步推导（CoT提示）：学霸独自写草稿分步解题
- 团队交叉验证（自洽性）：学霸组队解题后投票选最优答案

终极对比 → 两种方法的实战差异

维度	CoT提示（单人解题）	自洽性（团队作战）
耗时	一次生成答案（3秒）	生成30个候选答案再投票（90秒）
硬件需求	普通GPU可运行	需要3倍显存
适用场景	简单常识问题（如"奶酪法语翻译？"）	复杂逻辑推理（如"如何用硬币模拟量子纠缠？"）

正如表格中**Coinflip (4)**任务展现的：当问题复杂度飙升时，自洽性方法带来的4.5%正确率提升，可能决定AI能否通过图灵测试——这不仅是技术参数的较量，更是人类如何设计智能思考范式的哲学探索。

关于 CoT 与大模型逻辑推理能力的现状

通过思维链，我们可以看到大语言模型的强与弱：

• 它强在，模型规模的提高，让语义理解、符号映射、连贯文本生成等能力跃升，从而让多步骤推理的思维链成为可能，带来“智能涌现” 。

• 它弱在，即使大语言模型表现出了前所未有的能力，但思维链暴露了它，依然是鹦鹉学舌，而非真的产生了意识。

没有思维链，大模型几乎无法实现逻辑推理。但有了思维链，大语言模型也可能出现错误推理，尤其是非常简单的计算错误。Jason Wei 等的论文中，曾展示过在 GSM8K 的一个子集中，大语言模型出现了 8% 的计算错误，比如6 * 13 = 68（正确答案是78）。

四、思维树（Tree-of-Thoughts, ToT）：续写佳话

Prompting 示意图

用「探险地图」比喻解析思维树（Tree of Thoughts, ToT）

什么是思维树？

想象你要在迷宫中找到宝藏，传统方法可能是一条路走到黑（IO提示），或者边走边做标记（CoT思维链）。而思维树（ToT）则是：

画全地图：把迷宫所有岔路口画成树状图
分兵探路：派多个小队（分支思想）同时探索不同路径
实时评估：每走100米就用电台汇报："前方有陷阱！换路线"（中间状态评估）
投票决策：最终选择伤亡最少、耗时最短的路线取宝

四类提示方法对比（对应图中四种架构）

方法	探险策略	适合场景	图中特征
IO提示	蒙眼狂奔	1+1=？等简单问题	圆形直连，无中间步骤（绿色箭头）
CoT思维链	边走边记路线	多步数学题	灰色方块串成的垂直链条
CoT-SC自洽性	克隆人分头走，投票选最优	答案唯一但路径多样的任务	粉色/绿色椭圆组成的多数决结构
ToT思维树	全地图分兵探索+动态调整	开放式复杂问题（如小说创作）	树状分支+多层评估节点（绿/粉方块）

ToT的四大核心机制（对应图中树状结构细节）

分支生成（Breadth）

- 如图中绿色/粉色方块的分叉，每个节点同时生成多种可能的解题思路
- 案例：写故事开头时，生成[科幻/悬疑/言情]三种类型大纲

深度探索（Depth）

- 每条分支延伸出子节点，如图中箭头连接的多层方块
- 案例：选择"科幻"分支后，进一步细化[时间旅行/外星文明/AI觉醒]子方向

状态评估（Evaluation）

- 每个节点都有评估模块（图中未标注但隐含在连接逻辑中）
- 规则：

if 当前情节逻辑矛盾 → 回溯到上一节点  
elif 角色塑造单薄 → 生成补充支线  
else → 继续向下探索

回溯机制（Backtrack）

- 如图中向左的箭头，允许放弃低质量分支，重新激活其他路径
- 案例：发现"AI觉醒"分支难以展开，跳回选择"外星文明"路线

ToT实战案例演示（结合图中颜色标识）

任务：设计碳中和城市方案

第一层分支（绿色方块）：

- 能源侧：光伏建筑/核聚变供电/氢能网络
- 交通侧：飞行汽车/超导磁悬浮/共享无人车

第二层评估（粉色方块）：

- 淘汰"核聚变"（技术未成熟）
- 深化"光伏建筑" → 计算全市屋顶面积转化率

第三层融合：

- 将"共享无人车"与"氢能网络"结合，设计加氢站分布算法。

正如图中右侧ToT架构与左侧三种方法的对比——它不再是被动遵循单一路径，而是像围棋高手一样，在脑内同时推演上百种可能棋局，通过评估和选择逼近最优解。这种机制让AI在创作、战略规划等开放性问题中，首次展现出接近人类专家的系统思考能力

ToT 实验结果：24点游戏

ToT 实验结果：创意写作与迷你填字游戏

这张图表如同一场精妙的战术推演：ToT-b5以74%的成功率，宣告了“暴力穷举”（CoT百人海选）和“运气博弈”（IO提示）的终结。它揭示的不仅是AI解题效率的跃升，更映射出人类面对复杂问题时“分兵探索-动态调整-群体决策”的终极智慧。

TOT 思路的启发思想：

“A genuine problem-solving process involves the repeated use of available informa- tion to initiate exploration, which discloses, in turn, more information until a way to attain the solution is finally discovered.” —— Newell et al. 1959

翻译：

真正的解题过程需要循环利用已知信息启动探索，这种探索会持续揭示新线索，直到最终找到破局路径。

人物介绍：

Allen Newell（1927-1992）是计算机科学和认知科学领域的奠基人之一，与其合作者（通常以 "Newell et al." 指代）的研究对现代人工智能产生了深远影响，他在1950年代提出的“探索-评估”循环（见图3a节点访问曲线），仍是当前ToT方法的底层逻辑

第三章：大模型中的提示学习