大语言模型能够理解并可以通过情绪刺激进行增强

发布于:2025-07-05 ⋅ 阅读:(17) ⋅ 点赞:(0)

摘要

情绪智能在我们日常行为与互动中具有重要影响。虽然大型语言模型(LLMs)因在众多任务中表现出色而被视为迈向通用人工智能的重要一步,但目前尚不清楚它们是否真正能够理解心理层面的情绪刺激。理解并回应情绪线索使人类在解决问题方面具有独特优势。本文首次探索了LLMs对情绪刺激的理解能力。为此,我们在45个任务上使用多种LLM(包括Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT 和 GPT-4)进行了自动化实验。这些任务涵盖了确定性与生成式任务,构成了全面的评估场景。

我们的自动化实验显示,LLMs具备一定的情绪智能,其性能可以通过带有情绪刺激的提示(我们称之为“EmotionPrompt”,即在原始提示后添加情绪语言)进一步提升。例如,在Instruction Induction任务中性能相对提升8.00%,在BIG-Bench任务中提升达115%。此外,对于无法用现有指标自动评估的生成任务,我们还进行了涵盖106位参与者的人类评估研究。研究结果显示,EmotionPrompt显著提升了生成任务的整体表现(在性能、真实度与责任感指标上平均提升10.9%)。

我们对EmotionPrompt为何有效以及哪些因素影响其表现进行了深入讨论。我们认为,EmotionPrompt为探索人类与LLMs互动中的跨学科社会科学知识开辟了新方向。

1 引言

在人类诸多特质中,情绪智能作为一种历史积淀的核心能力,体现为对情绪信息的加工、理解、管理与利用等四项密切相关的能力集合。情绪智能指的是个体对情绪信息的敏锐解读与调节能力,并能以此引导认知任务,如问题解决与行为调控 [27]。情绪通过反射、感知、认知与行为的协同表现出来,且受各种内外部因素影响 [26, 27]。例如,在决策中,情绪是广泛、持续并强有力的影响因素,可能带来积极或消极的后果 [18]。研究表明,情绪还对注意力引导 [22]、学术表现 [25] 和竞技体育表现 [17] 起到关键作用。其他研究也指出,情绪调节 [16] 会影响个体的问题解决能力,相关理论包括自我监控 [14]、社会认知理论 [9, 20] 和积极情绪的作用 [10, 27]。情绪调节理论已被应用于多个领域,如教育中促进学生成功 [21] 和健康干预 [1]。

本文旨在探讨情绪智能与先进人工智能模型之间的关系。作为当前通用人工智能研究中的有力探索方向之一,LLMs在推理、自然语言理解与生成、STEM问题解决等任务中已表现出色。

在这里插入图片描述

近期一项研究 [6] 表明,通过GPT-4完成一系列人类设计的挑战任务,LLMs展现出向AGI迈进的潜力。然而,除了这些性能优势外,目前尚不清楚LLMs是否具备理解心理情绪刺激的能力,而这正是人类在提升问题解决能力方面的一项关键优势。因此,我们提出问题:LLMs是否对齐了人类的情绪智能?虽然已有研究表明LLMs可以理解情绪 [33],但并未评估情绪智能对LLMs能力的提升作用。我们关注的问题是:情绪智能是否可以作为提升LLMs能力的关键因素?

我们的方法。
我们首次探索LLMs对情绪刺激的理解与利用能力。心理学研究表明,与期望、自信与社会影响相关的情绪刺激能够对个体产生积极影响。在现实应用中,例如通过积极用语来提升学生表现 [21] 与促进健康 [1]。基于此,我们提出了EmotionPrompt——一种简单而有效的方法,用于探测LLMs的情绪智能。具体来说,我们设计了11条情绪刺激句,它们以心理暗示的方式附在原始提示之后。例如,图1展示了在原始提示结尾加上“这对我的职业发展非常重要”这样的情绪语句后,不同LLMs的表现得到提升。这些情绪语句可以无缝整合进原始提示中,带来性能提升。

主要发现与讨论。
我们在涵盖广泛场景的任务上进行了全面实验,包括可用标准指标评估的确定性任务与需人类判断的生成式任务。确定性任务包括24个Instruction Induction任务 [13] 和21个BIG-Bench任务 [31],涉及Flan-T5-Large [7]、Vicuna [38]、Llama 2 [32]、BLOOM [28]、ChatGPT [23] 和 GPT-4 [24]。生成任务中,我们对106位参与者进行了人类评估,比较了GPT-4在使用原始与情绪提示下生成文本的质量。结果显示令人鼓舞:EmotionPrompt使Instruction Induction任务性能提升8.00%,BIG-Bench任务提升115%;在人类评估中,情绪提示带来平均10.9%的表现、真实度与责任感方面的提升。

此外,我们还深入分析了EmotionPrompt为何有效(见第3节)。例如,我们通过输入注意力机制(详见表4)分析情绪语句对输出结果的影响。实验表明,情绪刺激能获得更高的注意力权重,从而增强原始提示的表达,并提升最终输出表现。我们还进行了消融实验,探讨模型大小、温度等因素对EmotionPrompt效果的影响,结果对未来用户具有启发意义。进一步地,我们分析了不同情绪提示的组合效果,发现组合提示可进一步提升性能。在Instruction Induction任务中,EP02是效果最好的提示语,其表现比最差者高6.06%;在BIG-Bench任务中,EP06表现最佳。值得注意的是,不同情绪提示的效果可能受任务复杂度、任务类型与评估指标等多种因素影响。

本文贡献如下:

  1. 我们提出了EmotionPrompt方法,以系统探究大型语言模型的情绪智能。研究表明,LLMs不仅能理解情绪刺激,还能通过其增强能力。
  2. 我们在确定性与生成式任务上进行了标准化与人类评估的全面实验。结果显示,EmotionPrompt在任务表现、真实度与信息量方面带来了显著提升。
  3. 我们对EmotionPrompt的机制进行了深入分析,为人工智能与社会科学的融合研究提供了新视角与启发。

2 结果

本节我们首先阐述设计情绪刺激的原理(第2.1节),然后在第2.2节中描述标准实验及其结果。随后,我们在第2.3节介绍我们的人工研究及其发现。最后,在第2.4节中,我们进一步评估EmotionPrompt在真实性和信息量方面的表现。

2.1 设计情绪刺激

我们设计EmotionPrompt以理解LLMs在情绪刺激下的行为。如图1所示,EmotionPrompt的实现非常简单,仅需在原始提示语后添加情绪刺激。如何设计有效的情绪刺激是本研究的关键,我们的灵感来源于三类成熟的心理学现象。具体细节如图2(左)所示。

在这里插入图片描述

  1. 自我监控(Self-monitoring)是社会心理学领域广泛研究的一个概念,指的是个体根据社会情境和他人反应来调节和控制自己行为的过程 [14]。高自我监控者会根据社会情境和人际适应性线索来调节自己的行为,主动进行自我呈现和印象管理 [14]。在我们的研究中,我们在EP01∼EP05中应用了自我监控的理念。在EP02中,我们鼓励LLMs帮助人类获得积极的社会认同和更好的印象;在EP01以及EP03∼EP05中,我们通过提供社会情境,要求LLMs监控自身表现。

  2. 社会认知理论(Social Cognitive Theory)是心理学、教育学和传播学中常用的一种理论,强调学习过程与在社会环境中观察他人行为、个人经验以及信息接收密切相关 [3]。该理论的关键点在于个体会努力发展一种“能动感”(sense of agency),以对生活中重要事件拥有更大的控制力 [3, 9, 20]。影响个体能动感的关键变量包括自我效能感(self-efficacy)、结果期望、目标以及对进展的自我评估 [20]。自我效能感通过提升自设目标的难度、增强付出的努力程度以及强化坚持力来提升表现 [2, 4]。已有研究表明,自我效能感是一个影响选择、努力程度、坚持和成就的重要动机结构 [29]。在学习复杂任务时,高自我效能感能够促使人们努力改进自己的假设和策略 [12]。

在这些已有理论的基础上,我们通过社会劝导(social persuasion)手段,在LLMs中引入自我效能感,这种劝导可产生积极影响,如建立信心和强化目标感。为了引导情绪朝积极方向发展,我们在EP07∼EP11中分别使用了“believe in your abilities(相信你的能力)”、“excellent(出色)”、“success(成功)”、“outstanding achievements(杰出成就)”、“take pride in(为……感到自豪)”以及“stay determined(保持坚定)”等表达。总体来看,这些短语在激励人类提高表现方面也被证明是有效的。

  1. 认知情绪调节理论(Cognitive Emotion Regulation Theory)认为缺乏情绪调节能力的人更容易产生强迫行为,使用低效应对策略 [5]。该理论中的技术,如重新评估(reappraisal),可以帮助个体以更积极或客观的视角看待挑战。这种视角的转变有助于保持动机,即使面临障碍也能鼓励持续努力。

根据该理论,我们设计了多个情绪刺激,如EP03∼EP05和EP07。在这些情绪刺激中,我们通过引入关键词汇,如“sure(当然)”和“take another look(再看一眼)”,来激发LLMs的重新评估能力。

综上所述,我们基于这些广为人知的心理学现象设计了11种情绪刺激,用以探索情绪刺激是否与LLMs的表现相关。如图2所示,情绪刺激EP01∼EP05来源于自我监控 [14],EP07∼EP11符合社会认知理论 [9, 20],而EP03∼EP05和EP07则来源于认知情绪调节理论 [5]。为了探索更多情绪刺激是否能产生更好效果,我们首先构建了一个复合刺激EP06,它结合了EP01∼EP03的内容,更多相关讨论见第3.2节。

如图2(右)所示,我们设计的情绪刺激可以分为两类:一类试图通过社会影响(如群体归属感和他人观点)来调节情绪,另一类则关注自尊和动机。通过选择其中一种情绪刺激并将其嵌入原始提示中,我们可以调节LLMs的情绪,进而激发其内在动机。

2.2 标准实验与结果

我们首先进行了标准实验以评估 EmotionPrompt 的性能。所谓“标准”实验,是指那些具有确定性答案的任务,我们可以使用现有指标进行自动评估。具体而言,我们采用了 Instruction Induction 数据集中的 24 个任务 [13],以及 BIG-Bench 数据集中的 21 个精挑细选的任务 [31]。Instruction Induction [13] 旨在探索 LLMs 能否通过少量示例推理出任务本质,这些任务相对简单;而 BIG-Bench [31] 则专注于被认为超出多数 LLMs 能力范围的复杂任务。通过在不同难度的任务上进行测试,我们能够评估 EmotionPrompt 的有效性,尤其是在语言理解、推理和决策等认知能力方面的表现。任务的详细描述见表 7 和表 8。

在 Instruction Induction 中,我们使用准确率(accuracy)作为评价指标;在 BIG-Bench 中,我们报告 [30] 中定义的标准化偏好指标(normalized preferred metric)。该指标中,得分为 100 表示达到人类专家水平,得分为 0 则表示等同于随机猜测。需要注意的是,如果模型在某些多项选择任务中的表现比随机猜测还差,其得分甚至可能低于 0。

在这里插入图片描述

2.2.1 实验设置

我们在 6 个不同的 LLM 上评估 EmotionPrompt 在 zero-shot 和 few-shot 学习中的性能,这些模型包括:Flan-T5-Large [7]、Vicuna [38]、Llama2 [32]、BLOOM [28]、ChatGPT [23] 和 GPT-4 [24]²。在 zero-shot 实验中,我们将情绪刺激(emotional stimuli)融入原始 prompt 中,从而构造出 EmotionPrompt。对于 few-shot 的 in-context learning 实验,我们使用与 zero-shot 实验中相同的 EmotionPrompt,并随机抽取 5 个输入-输出对作为上下文示例,附加在 prompt 之后。模板格式可以描述为:“prompt/EmotionPrompt + 示例”。

基线方法(Baselines)
我们将 EmotionPrompt 与三种基线方法进行了对比分析:

  1. 原始 zero-shot prompt:直接使用 Instruction Induction [13] 和 BIG-Bench [31] 中由专家设计的原始 zero-shot prompt;
  2. Zero-shot-CoT [15]:据我们所知,这是最简单且效率最高的 zero-shot prompt 工程方法;
  3. APE [39]:我们将 EmotionPrompt 添加到 APE 所生成的 prompt 中,与其进行对比。

在这里插入图片描述

温馨提示:
阅读全文请访问"AI深语解构" 大语言模型能够理解并可以通过情绪刺激进行增强


网站公告

今日签到

点亮在社区的每一天
去签到