Chain-of-Thought Prompting Elicits Reasoning in Large Language Models论文阅读笔记

发布于:2025-08-03 ⋅ 阅读:(14) ⋅ 点赞:(0)

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

摘要

本文探索了思维链(chain of thought),即一系列中间推理过程,可以有效地增强大语言模型的复杂推理能力。

在三个大型语言模型上的实验表明,思维链提示提高了一系列算术、常识和符号推理任务的性能。

在这里插入图片描述

引言

这项工作探讨了如何通过一个简单的方法来解锁大型语言模型的推理能力,这个方法由两个想法驱动:首先,算术推理技术可以从生成导致最终答案的自然语言基本原理中受益。其次,大型语言模型提供了令人兴奋的前景,即通过提示在上下文中进行少量的学习。

困难:

  • 对于基本原理增强训练和微调方法,创建大量高质量的基本原理集是昂贵的,这比普通机器学习中使用的简单输入输出对要复杂得多
  • 对于传统的几次提示方法,它在需要推理能力的任务上表现不佳,并且通常不会随着语言模型规模的增加而得到实质性的改善

在本文中,作者以一种避免其局限性的方式结合了这两种理念的优势。具体来说,我们探索了语言模型在给定由三元组组成的提示符的情况下为推理任务执行少量提示的能力:<输入,思维链,输出>。思维链是一系列导致最终输出的中间自然语言推理步骤,我们将这种方法称为思维链提示

思维链

赋予语言模型产生类似思维链的能力,即一系列连贯的中间推理步骤,并推导出问题的最终答案。思维链提示作为一种促进语言模型推理的方法有几个吸引人的特性:

  • 首先,思维链原则上允许模型将多步骤问题分解为中间步骤,这意味着可以将额外的计算分配给需要更多推理步骤的问题
  • 其次,思想链为模型的行为提供了一个可解释的窗口,提示它是如何得出特定答案的,并提供了调试推理路径出错的机会(尽管完全描述支持答案的模型计算仍然是一个开放的问题)
  • 第三,思维链推理可以用于数学单词问题、常识推理和符号操作等任务,并且可能(至少在原则上)适用于人类可以通过语言解决的任何任务
  • 最后,思维链推理可以很容易地在足够大的现成语言模型中引出,只需将思维链序列的示例包含到少数提示的示例中

计算推理

我们首先考虑图1中形式的数学单词问题,它衡量语言模型的算术推理能力。虽然对人类来说很简单,但算术推理是语言模型经常难以完成的任务。引人注目的是,当与540B540B540B参数语言模型一起使用时,思维链提示在一些任务上的表现与特定于任务的微调模型相当,甚至在具有挑战性的任务上达到了新的技术水平GSM8KGSM8KGSM8K基准

实验步骤

在多个基准测试中探索各种语言模型的思维链提示

基准:我们考虑以下五个数学单词问题基准:

  • 数学单词问题的GSM8KGSM8KGSM8K基准
  • 具有不同结构的数学单词问题的SVAMPSVAMPSVAMP数据集
  • 各种数学单词问题的ASDivASDivASDiv数据集
  • 代数字题的AQuAAQuAAQuA数据集
  • MAWPSMAWPSMAWPS基准

标准提示:对于基线,我们考虑标准的几次提示,其中语言模型在输出测试时间示例的预测之前给出输入输出对的上下文示例

思维链提示:我们建议的方法是在几次提示中增加每个示例,并使用相关答案的思维链,如图1(右)所示。由于大多数数据集只有一个评估分割,我们手动组成了一组8个带有思维链的小样本——图1(右)显示了一个思维链样本

语言模型:五个语言模型:

  • GPT-3
  • LaMDA
  • PaLM
  • UL2 20B
  • Codex

在这里插入图片描述

结果

在这里插入图片描述

消融实验

观察到使用思维链提示的好处后,自然会提出一个问题,即是否可以通过其他类型的提示来获得同样的性能改进。图5显示了一项消融研究,其中包含如下所述的三种思维链变化:

  • 仅限方程:思维链提示可能有帮助的一个原因是,它产生了要评估的数学方程,因此我们测试了一个变量,其中模型在给出答案之前被提示只输出一个数学方程

在这里插入图片描述

  • 仅限变量计算:另一种直觉是,思维链允许模型在更难的问题上花费更多的计算(即中间令牌)。为了将变量计算的影响与思维链推理隔离开来,我们测试了一个配置,其中提示模型只输出与解决问题所需的方程中的字符数相等的点(…)

  • 回答后的思维链:思维链提示的另一个潜在好处是,这样的提示可以让模型更好地访问在预训练期间获得的相关知识。因此,我们测试了另一种配置,其中思想链提示仅在答案之后给出,从而隔离模型是否实际上依赖于生成的思想链来给出最终答案

思维链的鲁棒性

对样本的敏感性是提示方法的关键考虑因素,例如,改变少量样本的排列可能会导致GPT-3的准确性SST-2的范围从接近偶然(54.3%)到接近最新技术(93.4%)

在这里插入图片描述

常识推理

虽然思维链特别适用于数学单词问题,但思维链基于语言的性质实际上使其适用于广泛的常识推理问题,这些问题涉及在一般背景知识的假设下对物理和人类互动进行推理。常识推理是与世界互动的关键,目前的自然语言理解系统仍然无法做到

基准:CSQA、StrategyQA、Date、Sports、SayCan

提示:遵循与前一节相同的实验设置

结果: 图7突出显示了PaLM的这些结果(LaMDA、GPT-3和不同模型尺度的完整结果见表4)。

在这里插入图片描述

符号推理

我们最后的实验评估考虑了符号推理,这对人类来说很简单,但对语言模型来说可能具有挑战性。我们表明,思维链提示不仅使语言模型能够执行在标准提示设置中具有挑战性的符号推理任务,而且还有助于长度泛化到比在少数示例中看到的更长的推理时间输入

Task

  • Last letter concatenation。这个任务要求模型将名字中单词的最后一个字母连接起来(例如:“Amy Brown”→\rightarrow“yn”)
  • Coin flip。这个任务要求模型回答在人们抛硬币或不抛硬币后,硬币是否仍然是正面朝上的(例如,“硬币是正面朝上的。Phoebe抛硬币。Osvaldo不会抛硬币。硬币还是正面朝上吗?”→\rightarrow“不”)

在这里插入图片描述