前言
DeepSeek R1采用强化学习进行后训练,通过奖励机制和规则引导模型生成结构化思维链(CoT),从而显著提升了推理能力。这一创新方法使得DeepSeek R1能够在无需大量监督数据的情况下,通过自我进化发展出强大的推理能力。那么语言模型的推理能力具体是什么,让我们一起来讨论。
利用计算机做推理的历史
推理是人类运用逻辑或经验,从已知的事实或前提出发,推导出新的结论或判断的认知活动。推理在人类生活中无处不在,例如科学研究、法律审判、医学诊断、教育评估等。在这些场景中,人们需要根据已有的证据或假设,运用合适的推理方式,得出合理的结论或决策。
人类用计算机科学做推理的研究始于人工智能的诞生,例如早期的逻辑程序设计语言(如Prolog)和专家系统(如MYCIN)。这些系统都是基于符号逻辑的形式化推理,可以处理一些结构化的、确定性的、规则化的问题,例如数学证明、棋类游戏、医学诊断等。然而,这些系统也有很多局限性,难以处理不完备的、不确定性的、非结构化的问题,例如自然语言理解、常识推理等。
随着深度学习和神经网络的发展,人类用计算机科学做推理的方式也发生了变化。神经网络可以从大量的数据中自动学习特征和知识,而不需要人为地设计规则和符号也可以处理更多的复杂的、多模态的、动态的问题,例如语音识别、机器翻译、图像生成等。然而,神经网络也有很多挑战,例如难以解释和验证其内部的推理过程、难以泛化到新的领域和任务、难以利用先验知识和常识等。这些问题需要更多的推理和解释能力,而不仅仅是学习和记忆能力。
近年来,预训练技术催生了大语言模型,在提示学习(Prompt Learning)的引导下大语言模型展现出惊人的推理能力,吸引了学术界和工业界的广泛关注。这种技术可以在具备涌现能力的大语言模型下有效地提升大语言模型的推理能力和解释能力,使其能够应对更多的复杂问题和场景。
为什么大语言模型会产生推理
语言是人类用来表达思想和感情的符号系统,是人类大脑高级认知能力和思考过程的一种体现。大语言模型是一种利用海量的人类自然语言文本来学习和模仿人类语言沟通方式的人工智能技术,它的基本功能是根据给定的提示来生成或补全文本,例如写小说、新闻、诗歌等,这体现了它们的文本创造能力。然而,大语言模型不仅仅是在预测下一个词元(token),当模型达到一定规模时(100亿-1000亿个参数规模)就能够在没有进行训练的情况下完成特定任务,例如语言理解、生成、逻辑推理、翻译、编程等。这些任务需要一定的认知推理能力,而大语言模型似乎通过合理的提示就能够表现出这种能力,就像AI拥有了人类的意识一样。我们称这种能力为“涌现能力”。
这种涌现能力和传统的人工智能技术有着本质的区别。传统人工智能技术所展现出来的水平很大程度上取决于我们给它的训练样本,就像“鹦鹉学舌”一样,只是在样本所涵盖的知识领域内进行泛化。而大语言模型却让我们看到了一种质的飞跃,它能够主动地创造和解决问题,就像“乌鸦喝水”一样,我们并没有事先在训练过程中给它类似的样本或条件,它可以自己想出方法。这种自主的创造力就是大语言模型与其他技术显著不同的特征。
思维链(Chain of Thought,CoT)是一种新颖且有效的提示工程技术,它能够利用大语言模型的涌现能力,赋予大语言模型推理能力,并提升大语言模型在复杂推理任务中(例如算术推理、常识推理和符号推理)的表现。
然而,大语言模型只是一种自然语言生成模型,并不具备真正意义上的计算和推理能力,为什么给它一个逻辑清晰的例子时,它能按照逻辑的方式输出呢?这是因为通过这个例子为大语言模型提供了一个“更仔细、更认真思考、有逻辑性”的语境,这种语境是人类描述推理问题的某种习惯模式。在这个语境下后续文本生成将会获得一个偏向生成具有推理风格文本的最大概率。
比如说,“让我们一步一步思考(Let’s think step by step)”这句话在提示中出现时,通常意味着下面会有一个按照逻辑顺序分析的过程。
因此,站在一个更高的视角来观察,这些思维链无一例外都是通过“某种人类理解的、有逻辑的、抽象化的”结构来做提示编排(大部分模拟人类的思考逻辑过程的某种抽象结构),从而触发(启发)大语言模型消耗更多的算力往推理方向去生成。
深入阅读
在过去的一段时间里,人们总结了非常多的利用思维链提示(COT)增强大语言模型推理的方法,在人民邮电出版社出版的《AI原生应用开发:提示工程原理与实战》(京东图书:https://item.jd.com/14373635.html)一书中,作者用了一章的篇幅详细介绍了市面上主流的利用思维链技术提升大模型推理的方法,并且进一步研究了思维链的本质,揭开了利用语言模型推理的面纱,让我们一起看看吧!