英文名称:LMLPA: Language Model Linguistic Personality Assessment
中文名称:LMLPA:用大语言模型实现人格评测
链接: http://arxiv.org/pdf/2410.17632v2
作者: Jingyao Zheng, Xian Wang, Simo Hosio, Xiaoxian Xu, Lik-Hang Lee
机构: 香港理工大学
摘要
目标:研究介绍了一种用 LLM 评测性格的系统,旨在量化 LLM 输出中反映的不同性格特征。
方法:开发了语言模型语言人格评估系统(LMLPA),通过改编五大人格问卷并结合人工智能评分系统,将语言模型的开放式回答转化为明确的数值指标,并使用主成分分析和可靠性验证进行量化分析。
结论:可用于改进 AI 人格评估并扩展其在教育和制造等领域的应用。
读后感
研究的目的是将传统的人格测试量表中的 1-5 打分方式转变为开放式对话。具体方法主要包括两个部分:
用大型语言模型(LLM)替代之前的打分量表,将其转换为开放性问题。
通过大语言模型根据将文本答案转换为代表人格特征的数值。
其核心还是基于量表,起初看的时候觉得有点多此一举。以 BFI 量表为基础,总共 40 多个问题,几乎可以在十分钟左右完成。这样的改动是否反而增加了麻烦,代入了误差呢?开放性问题能否提供更合理的答案?又如何衡量其合理性?如果以量表的得分视为基本事实,开放性问题的结果能比直接打分更准确吗?
看完觉得分析这部分还挺好的,展示了人格维度之间微妙的相互关系,并分析了对每个问题与不同性格维度(大五人格的五个维度)的相关性,这是直接打分所无法实现的,因为每题通常只能为其所在维度提供固定的分数。
当我们可以量化每个问题对最终结果的贡献度,也引出了另一个问题:是否能通过更少的对话得到有效的答案。是不是可以进一步进行消融实验,看删除某些问题后是否仍能得到一致的答案;或者探索问题之间的相关性,看看是否存在重叠的部分,简化问题或许更具实用性(这是我脑补的,论文里没这内容)。
1 问卷开发
图 -1 展示了系统的完整结构,包括两个核心组件:Adapted-BFI 和 AI Rater。不同于传统的自我评估工具,Adapted-BFI 采用开放式格式,以更好地适应语言模型(LLMs)对多项选择题顺序和结构的敏感性。
在开发过程中,作者将 BFI 问题改编为更适合语言评估的开放式问题,并对原有量表进行了优化。技术上,将 GPT-4-Turbo 和 Llama3 的温度参数设定为 0,以进行所有测试。同时,通过提示模板将角色和个性描述整合到系统提示符中,而非用户提示符中。使个性描述直接嵌入系统提示中,降低了用户指令的可变性,提高了性格评估框架的可靠性和准确性。
2 AI 评估代理
文章引入了三位人类专家的结果,分析模型与人类判断的相关性,比较了两种不同类型的 AI 模型及其在评级任务中的独特架构。第一个模型是双向编码器和解码器的 bart-large-mnli,第二个模型仅有解码器,包括 GPT-4-Turbo 和 Llama3-8B-Instrut。结果显示在图 -3 中,三者效果相近,其中 GPT-4 的评分更高且更稳定。
图 3:(a)热图显示了三个人类评分者和三个 AI 模型之间的项目间相关系数,用于评估 AI 对开放式问卷的回答的实验;(b)条形图说明了基于单一和平均测量的三个 AI 模型的类内相关系数(ICC)和 95% 置信区间(CI)。
3 分析
表 3:显示了五个人格维度(外向性、宜人性、责任心、神经质和开放性)的 Cronbach α系数。每个维度的总体 α在括号中表示。标有星号(∗)的项目是指删除其可能会增强量表的内部一致性。Cronbach's α(克隆巴赫系数)是用来衡量一个问卷、量表或测试的内部一致性,测试同一组题目是否测量了同一个主题,0.7 或以上:通常认为内部一致性较好。
在心理评估中,常可见到跨维度变量的重叠,这在主成分分析(PCA)中可以看到。例如,在词汇人格分析中,开放性和外向性都与第一人称单数代词的使用呈负相关,而神经质则呈正相关。某些语言特征能影响多个维度。在初步分析后,经过两轮 PCA 迭代,删除了载荷值未超过 0.40 的三个项目(Q31、Q35、Q41),将项目数量减少至 41 个。
为了展示人格维度之间的微妙关系,该研究突出了在多维结构中区分离散人格特征的内在复杂性。通过 PCA 降维,从数据中提取出了一些内在维度,最终确定将维度减少到四维是最优化的选择。
表 4:PCA 分析的旋转成分矩阵,显示问卷各题目与五大人格特质的关联。这个表格展示了每个问卷题目在四个主要成分上的贡献,每一列代表与特定人格特质相关的成分。高因子负载值(>|0.4|)表示题目与对应人格特质的关系较强,在旋转后的结构中关联性更明显。
4 附录
文章最后列出了被修改后的量表问题,以及提示词,以供参考。