[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破

发布于:2025-07-05 ⋅ 阅读:(17) ⋅ 点赞:(0)

需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破

论文标题:Requirements Elicitation Follow-Up Question Generation

arXiv:2507.02858
Requirements Elicitation Follow-Up Question Generation
Yuchen Shen, Anmol Singhal, Travis Breaux
Comments: 13 pages, 2 figures, accepted at the 33rd IEEE International Requirements Engineering 2025
Subjects: Software Engineering (cs.SE); Computation and Language (cs.CL)

研究背景:需求获取访谈的"迷雾困境"

想象这样一个场景:一位产品经理正在与用户进行需求访谈,用户滔滔不绝地描述使用某款APP的体验,从界面布局到功能流程,信息量巨大。此时,产品经理需要快速消化这些信息,并抛出精准的跟进问题——但大脑可能已陷入"信息超载"的困境:既要理解用户表述的细节,又要判断哪些需求被遗漏,还要确保问题清晰相关。这正是传统需求获取访谈中面试官面临的典型挑战。

领域痛点:被忽视的"访谈黑洞"

  1. 认知负荷爆炸:面试官如同同时处理多项任务的"杂耍演员",一边听用户讲话,一边构思问题,还要记录关键信息。这种多任务处理导致大脑过载,就像电脑同时运行多个大型程序会卡顿一样。
  2. 领域知识鸿沟:若面试官不熟悉医疗、金融等专业领域,用户提到的"术语"或"隐性需求"可能成为理解障碍。例如,用户说"希望系统具备容错机制",非技术出身的面试官可能无法深入追问具体场景。
  3. 信息碎片化陷阱:用户表述常零散无序,如讨论租房APP时,突然跳到"地图导航不精准"的话题。面试官若不能及时捕捉并跟进,就会漏掉关键需求。

传统方法的局限性

过去的研究大多聚焦于访谈的"前期准备"和"后期分析",比如生成访谈脚本或分析转录文本。但对"实时问答互动"这一核心环节,缺乏有效的技术支持——就像造好了船,却没解决航行时的导航问题。

主要作者及单位信息

  • Yuchen Shen, Anmol Singhal, Travis Breaux
  • 卡内基梅隆大学(Carnegie Mellon University, Pittsburgh, USA)
  • 研究团队专注于需求工程与自然语言处理的交叉领域,在LLM应用于软件工程问题上有深厚积累。

创新点:给面试官装上"智能问答大脑"

1. 实时生成:从"事后分析"到"事中辅助"

打破传统研究局限,首次将GPT-4o应用于访谈过程中实时生成跟进问题。就像智能手机的实时翻译功能,让面试官在对话中获得即时支持,而非事后复盘。

2. 错误框架引导:让AI避开"坑"

构建了一个基于14类面试官常见错误的生成框架,例如:

  • 避免"问太泛的问题"(如"你觉得这个APP怎么样?")
  • 避免"使用专业术语"(如对普通用户说"请描述API调用流程")
    通过引导LLM规避这些错误,生成的问题质量显著提升。

3. 人机对决:AI与人类面试官的"公平较量"

设计严格的对照实验,让GPT-4o与人类面试官在同等条件下生成问题,并用"相关性、清晰度、信息量"三大指标进行评分。这就像让AI和人类选手在同一场比赛中比拼,验证其实际应用价值。

研究方法和思路:步步为营的"AI训练手册"

1. 数据收集:打造"访谈数据库"

  • 招募4名资深面试官:均有2年以上软件工程经验,接受专业访谈培训。
  • 开展14场真实访谈:覆盖租房、餐厅、徒步、医疗四个领域,例如询问"你如何选择就诊的诊所?"。
  • 标注146个跟进问题:记录每个问题对应的对话上下文,如用户提到"找公寓时最看重交通",面试官跟进"你能接受通勤时间是多久?"。

2. 实验设计:两场关键"AI能力测试"

实验1:最小引导下的"裸机性能"测试
  • 输入:仅提供用户之前的对话内容,不做额外提示。
  • 输出:GPT-4o生成跟进问题,如用户说"选餐厅时会看评分",AI生成"你更关注评分星级还是评论内容?"。
  • 评估:32名参与者用6点量表评分,对比AI与人类问题的质量。
实验2:错误引导下的"定向优化"测试
  • 输入:除对话内容外,额外告知AI需要避免的错误类型,如"不要问太技术的问题"。
  • 输出:AI生成规避特定错误的问题,如用户提到"APP加载慢",AI避免问"是不是服务器带宽问题",转而问"加载慢对你的使用体验有什么具体影响?"。
  • 评估:通过" Bradley-Terry模型"分析128对问题,判断AI是否更优。

3. 核心技术:让AI懂"访谈潜规则"

  • prompt设计技巧
    • 用大写角色标识(如"INTERVIEWEE")减少AI理解错误。
    • 将错误描述转为正面引导,如"要考虑替代方案"而非"不要忽略替代方案"。
  • 上下文处理:发现70%的问题仅需1轮对话上下文,AI可聚焦最近的用户表述生成问题。

主要贡献:给需求工程领域的"三把金钥匙"

1. 证明AI能当"合格面试官"

实验证实:GPT-4o生成的问题在相关性、清晰度、信息量上与人类相当,部分场景下甚至更优。例如在错误引导实验中,AI问题的相关性评分比人类高25%。

2. 打造"面试官错误避雷指南"

从文献中提炼出14类常见错误,如"问模糊问题"、“索要解决方案"等,并转化为AI可理解的生成规则。这就像给面试官一本"避坑手册”,AI能自动规避这些错误。

3. 开辟"实时AI辅助"新方向

首次验证LLM在访谈过程中实时生成问题的可行性,为开发"智能访谈助手"奠定基础。未来可能实现:面试官佩戴耳机,AI实时推送跟进问题建议,大幅提升需求获取效率。

总结:AI与人类的"需求获取双人舞"

解决的核心问题

  • 破解面试官在访谈中面临的认知负荷、信息过载、领域知识不足等难题。
  • 填补传统研究在"实时问答互动"环节的技术空白,让AI从"事后分析工具"升级为"事中辅助伙伴"。

主要成果

  • 性能验证:GPT-4o生成的问题质量不低于人类,错误引导下更优。
  • 方法创新:提出基于错误框架的生成方法,AI错误分类准确率达81%。
  • 数据支撑:通过146个问题的标注与128对问题的对比实验,为结论提供扎实证据。

思维导图

在这里插入图片描述


详细总结

一、研究背景与目标

  1. 需求获取访谈的挑战:在需求工程里,访谈是获取利益相关者需求的常用手段,但存在诸多挑战,像面试官可能对领域不熟悉、面临过高的认知负荷,以及信息过载等问题,这些都阻碍了对利益相关者话语的处理。
  2. LLM的应用潜力:近年来,大语言模型如GPT-4o在自然语言处理任务中表现出色,研究人员探索将其应用于需求获取访谈的跟进问题生成,以支持面试官。

二、研究方法

  1. 实验设计
    • 实验1:对比最小引导下GPT-4o生成的问题与人类创作的问题,评估指标为相关性、清晰度和信息量。
    • 实验2:当生成过程以面试官常见错误类型为引导时,对比GPT-4o生成的问题与人类问题。
  2. 数据收集
    • 招募4名有经验的面试官,开展14个关于目录服务(如找公寓、餐厅等)的访谈,获取146个跟进问题及其上下文。
    • 从文献中综合出14类面试官常见错误,涵盖跟进问题和问题框架两方面。
  3. 评估方法
    • 采用6点量表,由32名参与者对问题的相关性、清晰度和信息量进行评分。
    • 运用混合效应模型分析数据,验证假设。

三、研究结果

  1. 最小引导实验结果
    • GPT-4o生成的问题与人类问题在相关性、清晰度和信息量上无显著差异(p值均>0.05)。
    • 跟进问题类型分布:主题转换(71个)、答案探究(27个)、确认(13个)等。
  2. 错误引导实验结果
    • GPT-4o在错误分类上与人类的一致率为81%,在错误避免率上达84.3%。
    • 在相关性、清晰度和信息量上,GPT-4o生成的问题评分更高,例如相关性平均分为4.4,高于人类的3.5。

四、讨论与结论

  1. 提示设计与上下文影响:通过大写角色标识、正面表述错误类型等方式优化提示,可提升LLM性能;多数问题仅需1个先前对话轮次即可生成。
  2. LLM的优势:当以错误类型为引导时,GPT-4o生成的问题质量更高,这表明明确错误框架有助于提升问题生成效果。
  3. 未来方向:将LLM集成到实时访谈中,探索多错误同时避免,开展跨领域应用研究。

五、关键数据表格

评估指标 人类平均得分 GPT-4o平均得分 p值
最小引导实验-相关性 4.8 5.0 0.08
最小引导实验-清晰度 4.9 5.1 0.10
错误引导实验-相关性 3.5 4.4 <0.001
错误引导实验-清晰度 3.9 4.5 <0.001

关键问题

  1. 问题:在需求获取访谈中,GPT-4o生成跟进问题的表现如何?
    答案:在最小引导情况下,GPT-4o生成的问题在相关性、清晰度和信息量上与人类创作的问题相当;而当以面试官常见错误类型为引导时,其生成的问题在这三项指标上优于人类,错误分类准确率达81%。
  2. 问题:该研究中采用了哪些方法来评估LLM生成的问题?
    答案:研究设计了两项对照实验,招募32名参与者使用6点量表对问题的相关性、清晰度和信息量进行评分,并运用独立t检验和混合效应模型对数据进行分析。
  3. 问题:该研究的发现对需求工程实践有何意义?
    答案:研究表明,LLM如GPT-4o可助力面试官提升需求获取访谈的质量和效率,尤其是在以错误类型为引导时效果更优,这为开发实时辅助工具提供了依据。

一段话总结

本文聚焦于需求获取访谈中跟进问题生成,探究GPT-4o在该场景的应用。研究基于面试官常见错误类型框架,构建了通过 interviewee 话语生成问题的方法,并开展两项对照实验。结果表明,GPT-4o生成的问题在清晰度、相关性和信息量上不逊色于人类创作的问题,而当以常见错误类型为引导时,其表现更优于人类,这凸显了LLM助力面试官提升需求获取访谈质量与便捷性的潜力。


网站公告

今日签到

点亮在社区的每一天
去签到