PNAS顶刊:使用 GPT-4 揭示概念的语义

发布于:2025-06-30 ⋅ 阅读:(15) ⋅ 点赞:(0)

Gaël Le Mens 、Balázs Kovács、Michael T. Hannan and Guillem Pros合作的题为“Uncovering the semantics of concepts using GPT-4”的文章,发表于Proceedings of the National Academy of Sciences。

图片

摘要

最近的大型语言模型 (LLM),如 GPT-3.5 和 GPT-4 生成类似人类的文本的能力表明,社会科学家可以使用这些 LLM 来构建符合人类判断的语义相似性度量。在本文中,我们对这种直觉进行了实证检验。我们使用 GPT-4 来构建典型性的度量——文本文档与概念的相似性。我们根据与人类典型性评级的相关性,将其性能与其他基于模型的典型性测量进行比较。我们在两个领域进行了这种比较分析:文学体裁书籍的典型性(使用现有的书籍描述数据集)和美国民主党和共和党国会议员撰写的推文的典型性(使用新的数据集)。使用 GPT-4 生成的典型性度量达到或超过我们在最近的一篇论文中介绍的先前最先进的典型性度量的性能 [G. Le Mens, B. Kovács, M. T. Hannan, G. Pros Rius, Sociol. Sci. 2023, 82–117 (2023)]。它无需对研究数据进行任何训练即可完成此作(这是零样本学习)。这是一个突破,因为之前最先进的措施需要对数十万个文本文档微调 LLM 才能实现其性能。


大型语言模型(LLM)如GPT-3.5和GPT-4展现的类人文本生成能力,启发社会科学研究者探索其构建与人类判断高度一致的语义相似度测量工具的可能性。近期一项研究对此进行了严谨的实证检验,聚焦于“典型性”(Typicality)这一核心概念——即特定文本材料与某一概念标签的语义接近程度。该研究利用GPT-4构建了典型性测量工具,并将其性能与现有基于模型的测量方法置于人类典型性评分的基准下进行比较评估,在文本类型和主题迥异的两个重要领域展开分析。

研究团队精心选择了两个实证场域进行对比验证。其一涉及文学领域,评估书籍描述与其所属文学流派(如科幻、悬疑)的匹配度,使用了现有的数据集。其二则转向政治传播领域,创新性地构建了一个新数据集,用于衡量美国国会成员所发布推文内容与其所属党派(民主党或共和党)意识形态立场的贴合程度。这种跨领域设计有效检验了测量方法的普适性与稳健性。

研究发现,GPT-4构建的典型性测量工具展现出卓越性能。其在预测人类典型性评分方面,达到甚至超越了近期由Le Mens、Kovács、Hannan和Pros Rius在《Sociological Science》期刊所提出的当前最优(state-of-the-art)典型性测量方法。这项突破的关键在于实现路径的根本差异:GPT-4方案完全无需使用研究数据本身进行任何模型训练或参数调整,是一种纯粹的零样本学习(Zero-Shot Learning)方法。相比之下,先前最优方法为了达到同等性能表现,必须依赖于对数十万乃至上百万份文本文档进行特定任务的模型精调(Fine-tuning)。

这一发现具有重要的方法论意义。它首次有力证明,像GPT-4这样的先进大型语言模型,能够在零样本条件下生成高度符合人类语义判断的文本相似性度量。这不仅显著简化了社会科学研究中文本语义分析的流程,大幅降低了对海量标注数据和复杂模型训练的技术门槛与资源消耗,也为快速、灵活且可靠地量化文本材料与抽象概念之间的关联提供了强大且易用的新工具。其“开箱即用”的特性预示着语义测量方法在社会科学实证研究中更广泛、更便捷的应用前景。

文献来源:

G.Le Mens,B.Kovács,M.T.Hannan,& G.Pros,Uncovering the semantics of concepts using GPT-4, Proc. Natl. Acad. Sci. U.S.A.120(49)e2309350120, https://doi.org/10.1073/pnas.2309350120 (2023).


网站公告

今日签到

点亮在社区的每一天
去签到