大型语言模型的白日梦循环

发布于:2025-07-18 ⋅ 阅读:(17) ⋅ 点赞:(0)

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

尽管大型语言模型已经展现出令人惊叹的能力,但至今尚未取得真正意义上的突破性发现。这引发了一个耐人寻味的疑问:为什么会这样?

有一种可能的解释是,这类模型缺乏人类思维的一些根本特征:它们是静态的,无法从经验中持续学习,也没有类似人脑“默认模式网络”(Default Mode Network, DMN)那样的后台处理机制——而这恰恰是人类灵感和顿悟的重要来源之一。

为了应对这一局限,有研究者提出了一种称为“白日梦循环”(Day-Dreaming Loop, DDL)的设想。这是一种在背景中运行的过程,持续地从模型的记忆中抽取两个概念的组合,由生成模型探索它们之间非显而易见的联系,再由评估模型筛选出具有真正价值的创见。这些被识别出的想法将被重新注入系统的记忆中,形成一种复利式的反馈机制:新生成的想法又成为未来概念组合的种子。

不过,这一机制所需的代价——即所谓的“白日梦税”(daydreaming tax)——可能非常高昂,因为从大量组合中发现有价值的新颖点的命中率极低。然而,这种“浪费”可能正是创新的必要代价。同时,这也为模型蒸馏(model distillation)设置了障碍,因为白日梦机制所产生的洞见往往是无人会主动提出的问题。

从战略角度来看,这一结论具有反直觉的意味:为了让 AI 对终端用户来说更加高效且低成本,或许必须先建构那些大多数算力都用于无用搜索的“昂贵系统”。未来,可能会出现一类专用于生成专有训练数据的高成本白日梦型 AI,而真正面向大众的,是继承其成果的高效、小型模型。这种路径,可能为穿越即将到来的“数据壁垒”提供一条出路。

美国作家威廉·费菲尔德(William Fifield)在1964年的一篇综合访谈中,曾引用毕加索的一句话作为回应当时兴起的“电子大脑”现象:“但它们没用。它们只能给出答案。”这句话意味深长,似乎也道出了当前 LLM 研究的瓶颈。

在播客主持人帕特尔(Dwarkesh Patel)看来,至今尚未有任何大型语言模型展现出真正出人意料的突破性洞察,哪怕它们具备极高的知识密度和测试分数。这是一个真正的谜题——因为在提示适当时,这些模型似乎能以令人振奋的方式整合信息,几乎接近“洞察”的边缘,但始终未能跨越那一关键点。究竟缺少了什么?

有两项关键的“缺失能力”被认为是原因之一:

一、持续学习(Continual Learning)

当前主流 LLM 都是冻结状态的神经网络(frozen NNs),即在部署后不再发生参数更新。这意味着它们无法进行动态的再训练,也无法从新的经验中获得反馈。尽管“动态评估”(dynamic evaluation)等技术早已存在并可用于在线学习,但主流 LLM 并未采用。

因此,它们常常困在自身的“先验”知识中,无法摆脱初始猜测和显而易见的答案。人类历史中从未有任何一个患有顺行性遗忘症(anterograde amnesia)的人能创造出重大创新,而 LLM 恰恰面临类似状况。

二、持续思考(Continual Thinking)

另一项区别则是人类研究者从不停止思考。人脑即使在睡眠中,也在不断处理信息,这部分解释了为何大脑在静息状态下也消耗大量能量。

科学与创造力研究强调时间与睡眠在激发“孵化效应”(incubation effect)方面的重要性。人类的灵感往往并非出现在主动思考时,而是在放松或“放空”时突然出现。这种“涌现思维”的例子数不胜数:从过时的冷笑话到错过的暗示,从突如其来的焦虑想法到意外的灵感闪现。

这些思维的爆发往往是无意识且不可预测的,与当前所专注的任务毫无关联。例如,一位作者正在撰写游戏美学的文章时,突发灵感想到了“LLM 的默认模式网络应该是什么样子”这一问题,从而催生了这篇设想。

假设:白日梦循环机制(Day-Dreaming Loop)

那么,这种思维过程是如何、何时、何地发生的?

显然,它并非发生在显意识中,且通常是在无意间发生的。这是一种普遍现象,并不易耗尽:即便历经几十年,许多人仍然定期体验到这些突发念头。它可能是生物学上昂贵的过程,因为其本质涉及复杂的计算和神经资源消耗。推测多数动物并不具备类似“灵光一现”的能力。

其机制可能是并行的,因为人脑可能同时在多个神经通路中进行概念组合。它可能部分与海马体在睡眠中进行的记忆重播过程相关,但又不完全等同,因为白日梦式的思考也常发生在醒着时处理短期记忆的过程中。

此外,它可能被集中注意力的任务所抑制。例如,研究者发现,在专注阅读或编码时,这种突发想法几乎停止;而一旦暂停,灵感就如潮水般涌来。

因此提出了“白日梦循环”这一模型:人脑在空闲时随机提取两个记忆片段进行组合,并对结果进行评估,若认为“有趣”,便晋升为显意识,甚至可能写入长期记忆。这一机制虽然简单,却可能是人类创新的核心引擎。

研究者指出,不需要复杂的高阶组合就能实现持续创新,因为一旦新的组合进入知识库,它就会生成更多潜在的新组合。在经济创新模型中,查尔斯·琼斯(Charles I. Jones, 2021)也曾展示,即使“低垂果实”被优先采摘,创新仍然可以持续增长,甚至呈指数爆炸。

不过,该机制也极为浪费,大多数组合毫无价值,难以优化。由于人脑会随时间改变,过去被判断为无趣的组合在将来可能变得有价值,因此也必须反复检查。

LLM 对应机制的可能性

当前的大型语言模型并不具备任何类似机制。它们需要明确的提示才能开始任务,不会主动对记忆中的事实进行组合或生成内在独白。

然而,这种机制的实现并非遥不可及。例如,可从向量数据库中随机抽取两个概念,然后使用“头脑风暴”提示语,接着进行价值判断。具体提示可以包括如下要素:

生成模型任务:

你是一位富有创意的综合思维者。请在以下两个概念之间寻找深刻、非显而易见且具有潜在突破意义的联系。不要陈述显而易见之处,而应生成假设、隐喻、研究问题或创新观点,并对推理过程加以解释。

概念一:{Chunk A}
概念二:{Chunk B}

评价模型任务:

请从以下维度对生成的假设进行评分(1-10):

  • 新颖性:该想法是否令人惊讶且非显而易见?

  • 连贯性:推理是否合乎逻辑?

  • 实用性:该想法能否引发测试性假设、新产品或解决问题的可能?

并简要说明评分理由。

障碍与问题

在效率、质量与成本之间,难以三者兼得。如果以人脑为类比,“白日梦机制”的成本上限可能是普通 LLM 推理成本的 20 倍,这对实际应用提出了巨大挑战。

这也解释了为何 LLM 在经济层面优于人类:它们主动避开了“生成新颖性”和“持续代理”的高代价。因为即便偶尔有突破,也很少有用户愿意为其额外付出几十倍的费用。

而且,由于突破往往来自最偏僻的概念组合,也就无法通过简单筛选降低计算成本。即便用户对系统输出随机冷笑话或吸血鬼假新闻感到不满,也无从改进。

深远影响

未来可能出现以“白日梦 AI”为核心的全新训练体系。这些系统专门用于生成高质量、原创性的专有训练数据,从而喂养下一代更加高效的小型 LLM。

这类机制也将形成一种天然的“数据护城河”(data moat):它们生成的内容不是用户事先知道要问的问题,因此无法通过 API 日志或蒸馏方式轻易复制。只有那些愿意承担“白日梦税”的研究者、高端用户或自治智能体才可能真正从中受益。

考虑到强化学习(RL)规模法则和持续上升的资本投入,未来的语言模型可能需要先变得“缓慢且昂贵”,才能在终端实现“快速且便宜”。


网站公告

今日签到

点亮在社区的每一天
去签到