人工智能正在学习自我提升的方式

发布于:2025-08-11 ⋅ 阅读:(21) ⋅ 点赞:(0)

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

上周,马克·扎克伯格宣布,Meta的目标是实现“比人类更聪明的人工智能”。他似乎已经有了实现这一目标的“配方”,而第一种关键原料就是人类人才。据报道,扎克伯格曾试图以九位数的薪酬吸引顶尖研究人员加入Meta超级智能实验室。第二种原料则是人工智能本身。扎克伯格在一次财报电话会议上表示,Meta超级智能实验室将专注于打造能够自我提升的AI系统——这些系统可以自我引导,不断提升性能。

自我改进的可能性让人工智能区别于其他革命性技术。比如,CRISPR基因编辑无法自己提升DNA序列靶向能力,核聚变反应堆也不能自行找到商业化的突破口。但大型语言模型(LLM)却能优化运行所依赖的计算芯片、廉价高效地训练其他LLM,甚至可能提出全新的AI研究思路。在这些领域,AI已经取得了不小的进展。

扎克伯格认为,AI的自我提升可能会带来一个人类摆脱日常琐事、在超高效智能伙伴的支持下追求更高目标的世界。然而,非营利AI研究机构METR的政策主管克里斯·佩因特(Chris Painter)警告说,自我改进也伴随着根本性风险。如果AI能够加速自身能力发展,它可能会迅速提升黑客攻击、武器设计和操纵人类的能力。一些研究人员甚至推测,这种正反馈循环可能导致所谓的“智能爆炸”,即AI在短时间内将自身能力提升到远超人类的水平。

即便不是最悲观的预测者,也不得不认真对待自我改进AI的潜在影响。OpenAI、Anthropic和谷歌在各自的AI安全框架中,都提到了自动化AI研究这一概念,与化学武器、网络安全等熟悉的风险类别并列。英属哥伦比亚大学计算机科学教授、谷歌DeepMind高级研究顾问杰夫·克鲁恩(Jeff Clune)指出:“我认为这是通往强大AI的最快路径,可能是我们最应该关注的事情。”

克鲁恩同时表示,自动化AI研发也可能带来巨大好处。单凭人类,可能无法想到那些能让AI有朝一日解决癌症、气候变化等巨大难题的创新与改进。

目前,人类的创造力仍然是AI进步的主要引擎,否则Meta也不会用如此高昂的待遇去吸引研究人员进入其超级智能实验室。但AI已经开始参与自身的研发过程,而且在未来几年中,这种参与度有望进一步增加。以下是AI正在“让自己变得更好”的五种方式。

1. 提升生产力
目前,LLM对AI研发最重要的贡献或许也是最平凡的:编程辅助。“最大作用就是编程帮助。”AI研究机构Forethought的高级研究员汤姆·戴维森(Tom Davidson)表示。像Claude Code和Cursor这样的工具能帮助工程师更快地编写代码,已在AI行业广受欢迎。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024年10月透露,公司四分之一的新代码由AI生成。Anthropic也记录了其员工使用Claude Code的多种方式。如果工程师因此提高了生产效率,就能更快设计、测试和部署新的AI系统。

然而,这些工具的生产力优势仍有待验证。如果工程师花大量时间纠正AI的错误,那么即使手动写代码的时间减少,整体效率也未必提高。METR最近的一项研究发现,经验极其丰富的开发人员在使用AI编程助手时,完成任务的时间反而延长了约20%。不过,研究联合负责人内特·拉什(Nate Rush)强调,该研究针对的是在大型代码库上工作的资深开发者,结论未必适用于那些只是写简短脚本来跑实验的AI研究人员。

在前沿实验室中开展类似研究,可能更清楚地揭示编程助手是否真的能提升顶尖AI研究人员的生产效率。但目前,这样的研究尚未开展。同时,仅凭软件工程师的主观感受并不可靠——METR的研究对象虽然觉得AI编程工具让自己更高效,实际却被显著拖慢了速度。

2. 优化基础设施
如果运行代码需要等待数小时、数天甚至数周,再快的编写速度也无济于事。LLM训练尤其缓慢,而最先进的推理模型生成一次响应就可能需要几分钟。这些延迟是AI研发的重大瓶颈。斯坦福大学计算机科学助理教授、谷歌DeepMind高级科学家阿扎利娅·米尔霍赛尼(Azalia Mirhoseini)表示:“如果我们能让AI运行得更快,我们就能更快创新。”

早在2021年,米尔霍赛尼和谷歌的同事就构建了一个非LLM AI系统,用来优化芯片组件布局,从而提升效率。尽管有研究者未能复现其结果,米尔霍赛尼表示,《自然》杂志已对论文进行调查并确认其有效性,而且谷歌确实在多代自研AI芯片设计中采用了该系统的成果。

最近,她将LLM应用于芯片内核(kernel)编写——这些低层函数决定了矩阵乘法等操作的执行方式。结果显示,即便是通用LLM,有时也能写出比人类版本更快的内核。

谷歌的另一支团队开发了名为AlphaEvolve的系统,用Gemini LLM生成解决问题的算法,对算法进行评估,并反复迭代改进。AlphaEvolve设计了一种新的数据中心运行方法,为谷歌节省了0.7%的计算资源,还改进了定制芯片设计,并开发出一个让Gemini训练速度提升1%的新内核。

虽然1%的提升看似微小,但在谷歌这样的大公司,这意味着巨大的时间、资金和能源节约。AlphaEvolve项目负责人马泰·巴洛格(Matej Balog)指出,该系统目前只优化了Gemini训练流程的一个小环节,若更广泛应用,节省空间会更大。

3. 自动化训练
LLM以数据“胃口大”著称,训练成本高昂。在某些领域(如冷门编程语言),现实世界数据稀缺,难以有效训练LLM。人类反馈强化学习(RLHF)是训练LLM符合人类标准的关键技术,但获取人类反馈既慢又贵。

如今,LLM正被用于填补这一空白。只要提供足够示例,LLM就能在未训练过的领域生成可信的合成数据,用于模型训练。在“LLM评判者”(LLM as a judge)方法中,由LLM而非人类来评估模型输出,这也是Anthropic在2022年提出的“宪法AI”框架的核心。

数据稀缺对AI智能体尤其是难题,因为高效的智能体必须能执行多步计划,而这种完整成功案例在网上极少。为此,米尔霍赛尼团队尝试让一个LLM智能体生成任务分步方案,由另一个LLM评判每步有效性,再用这些步骤训练新的智能体。“数据不再是限制,因为模型可以无限生成新的经验。”她表示。

4. 完善智能体设计
在LLM自身架构设计方面,AI贡献尚不显著。如今的LLM都基于2017年人类提出的Transformer结构,后续改进也由人类完成。但LLM智能体的兴起开辟了新的设计空间,尤其是与外部世界交互的工具和使用指令的优化。

克鲁恩与Sakana AI研究人员共同开发了“达尔文-哥德尔机”(Darwin Gödel Machine)——一种能迭代修改自身提示词、工具及代码以提升任务表现的LLM智能体。它不仅通过自我修改获得更高分,还能发现原始版本无法找到的新改进,实现了真正的自我改进循环。

5. 推动科研
尽管LLM加快了研发流程的诸多环节,人类或许仍将在相当长时间内主导AI科研。许多专家认为,科研“品味”——即挑选有前景研究方向的能力——是AI面临的重大挑战。

但克鲁恩认为,这一挑战未必如想象般大。他与Sakana AI正在研发名为“AI科学家”的端到端科研系统,能自主在文献中寻找研究问题、运行实验并撰写论文。今年早些时候,该系统提出并测试了一种新的训练策略,旨在让神经网络更好地组合训练数据中的示例,论文匿名提交至国际机器学习大会(ICML)某研讨会,并获得足够高的评分进入录取范围(尽管研讨会的录取标准低于主会)。另一次,该系统的科研想法后来被一位人类研究者独立提出,并在社交平台上引发关注。

克鲁恩表示:“我们正处在AI科学家的GPT-1时刻。几年后,它将撰写能被顶级期刊和会议接收的论文,甚至作出全新的科学发现。”

超级智能会很快到来吗?
随着对AI自我提升的热情不断高涨,未来数月乃至数年,AI在自身发展中的作用可能会越来越大。扎克伯格认为,这意味着超越人类能力的超级智能模型或许就在眼前。然而,现实中自我提升AI的影响尚不确定。

例如,AlphaEvolve确实让核心LLM系统Gemini的训练速度提升了1%,但这未必会显著加快谷歌的AI进展。巴洛格指出:“这是一个非常缓慢的反馈循环。Gemini的训练周期很长,所以目前只是看到这种良性循环的开端。”

如果每一代Gemini都能在训练速度上再加1%,这种加速效应会复利增长。而且随着能力提升,每一代都可能带来更大的速度提升及其他自我优化方法。在这种情况下,超级智能支持者认为“智能爆炸”似乎不可避免。

然而,这种推论忽略了一个关键事实:创新会随着时间变得更加困难。任何科学领域的早期阶段,发现往往来得又快又容易;而随着深度学习科学的成熟,额外改进可能需要投入更多人力和AI协作。等到AI达到人类水平的科研能力时,可能“容易摘的果子”已经被人类和弱AI摘光。

因此,准确评估AI自我提升的实际影响非常困难。更棘手的是,最关键的AI系统——那些在前沿公司内部使用的——往往比公开发布的版本更先进,外部研究者难以直接判断内部情况。

即便如此,外部研究者仍在努力,例如通过监测AI完成任务的速度来推测发展趋势。METR的研究显示,自2019年GPT-2发布以来,AI能独立完成的任务长度大约每7个月翻一倍;自2024年以来,这一倍增周期缩短为4个月,表明AI发展确实在加速。这一加速可能源于充足的投资,也可能部分得益于AI的自我提升。

戴维森表示,METR的研究暗示,目前低垂果效尚未显著拖慢人类研究速度,或者说投资增长抵消了减速。如果AI显著提升人类研究人员的生产力,甚至直接接手部分研究工作,那么研究加速的天平将进一步倾向于AI一方。“完全可以预期会有一段时间,AI进展会加快,”戴维森说,“关键问题是,这段加速会持续多久。”


网站公告

今日签到

点亮在社区的每一天
去签到