注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
GPT多模态大模型与AI Agent智能体书籍本章配套视频课程【陈敬雷】
文章目录
GPT多模态大模型与AI Agent智能体系列二十五
大模型军备竞赛升级!Grok 4 携 “多智能体内生化” 破局,重构 AI 算力与 Agent 2.0 时代
几天前,马斯克的xAI正式发布号称世界最强AI的Grok 4大模型,引发全球关注。这一新一代AI究竟强在何处?其核心创新“多智能体内生化”将如何改变行业格局?本文将深入剖析Grok 4的技术突破、性能表现及对未来AI产业趋势与算力需求的影响。
一、大力出奇迹,性能登顶各大Benchmark
Grok 4由xAI在自研的Colossus超算上训练而成,训练规模空前,计算资源投入为Grok - 2的100倍、Grok - 3的10倍。这使得Grok 4在推理性能、多模态能力和上下文处理能力上实现了巨大飞跃。
Grok 4推出了两个版本:月费30美金的单Agent版本Grok 4,以及月费高达300美金的多Agent协作版本Grok 4 Heavy。Grok 4 Heavy能够同时启动多个Agent并行工作,并整合结果,大幅提升复杂任务处理能力。
经过实测,Grok 4在多个Benchmark测试中表现优异,超越了o3、Gemini 2.5 Pro、Claude 4 Opus等模型。尤其在被誉为AI界“最后审判”的HLE(人类最后考试)中,Grok 4 Heavy获得了44.4%的成绩,而此前的冠军Gemini 2.5 Pro仅为26.9%,成绩提升显著。
二、HLE:人类最后的考试
随着大模型能力不断提升,现有Benchmark逐渐难以区分模型的智能水平。为此,Center for AI Safety和Scale AI在25年初提出了HLE。
HLE包含2500个极具挑战性的问题,覆盖数学、人文学科、自然科学等超过100个学科,问题设计旨在避免模型通过简单互联网检索快速回答。在Grok 4推出前,市面上强大的模型在HLE上表现普遍不佳,如GPR - 4o准确率仅2.7%。而且,大模型在给出错误回答时,往往表现出极高的置信度,凸显其处理复杂问题的短板。
以下是HLE测试集中的几个样例问题:
- 图文理解与古代文字破译:[展示相关图片及问题]
- 数学能力考察:[具体数学问题]
- 计算机与图论问题:[相关问题描述]
- 生物化学问题:[专业问题]
这些问题难度极高,充分考验模型的综合能力。
三、Grok 4的核心创新:多智能体内生化
Grok 4 Heavy的核心创新在于训练阶段引入多智能体协作,即“多智能体内生化”。回顾大模型发展历程,“内生化”趋势逐渐显现。
2022年,CoT思维链风靡一时,当时需要引入提示词(如“Let’s think step by step”)来诱发大模型深度思考,CoT能力属于独立于大模型之外的Prompt工程技巧。2024年9月,OpenAI推出o1模型,首次将深度思考能力“内化”到大模型中,确立了从Scaling Training到Scaling Inference的训练新范式。2025年2月,DeepSeek进一步验证了“CoT能力内化”对提升大模型推理性能的显著作用。
Grok 4则更进一步,将Agent能力内生化融入训练过程。它在训练中融合了Agent调用及实时搜索等能力,使多个Agent之间的debate和self - check成为大模型的内生能力。今年5月的论文阐述了从AI Agent到Agentic AI的发展趋势,强调多代理协作的新范式。Grok 4率先将Agentic AI的多代理协作、动态任务分配、持久记忆等能力训练进入大模型,让AI能更有效地解决复杂任务。
四、深度思考内生化、Agent内生化、多模态内生化
OpenAI o1出现前,激发大模型深度思考需学习大量提示词工程技巧,如今这些技巧已不再关键。Grok 4 Heavy出现前,人们借助Manus等Agent工具让大模型处理复杂任务。如今Agent能力内生化方向确立,更多AI大厂将加入竞争。未来通用型Agent产品需重新定位,聚焦工具链设计、业务知识注入和记忆层辅助,基于更强大内核解决复杂任务。
除“Agent能力内生化”外,多模态内生化也是大模型发展主线。未来大模型应能输入输出任何模态数据,实现Omni Model。目前OpenAI模型尚不支持视频模态输入,而Google Gemini已能支持视频模态的输入输出,其旗下Youtube的海量视频资源库成为巨大优势,Veo 3生成的AI视频便是明证。
对于大模型应用类公司,核心壁垒在于私域数据积累和对应用场景的深度洞察。
五、AI Coding能力的认知分歧,以及Base44带来的启发
Grok 4上线后,实测反馈与官方跑分结果存在分歧。主要原因是主流Benchmark测评污染严重,问题集可能流入大模型训练集,导致测评误差。Grok 4将实时搜索和Agent能力内化,数据污染边界难以控制,Benchmark结果仅供参考。
从用户反馈看,Grok 4在代码生成能力上存在不足,如生成代码依赖库丢失、界面UI粗糙。编写游戏时,常遗漏重要的pygame库。不过马斯克已表示未来几个月将发布coding模型。
人们对大模型Coding能力存在认知误区,理想的coding model不应只是刷榜LeetCode的奥赛型选手,商业场景更需要能整合Github repo资源、构建项目级应用的实战派选手。这正是Base44成功的原因之一。
Base44是专注于Vibe Coding的AI初创企业,创立6个月即被高价收购。它通过自然语言交互生成完整软件系统,涵盖数据库搭建、身份验证、数据分析等功能,目标用户为无编程经验的普通开发者,满足了用户一站式创建项目的需求。随着Grok 4将更多实用Agent能力内生化,有望达到媲美全栈高级程序员的效果。
六、Grok 4之后的全球算力需求展望
今年年初以来,海外大模型发展迅猛,背后是算力资源的持续投入。xAI每月资金消耗高达10亿美元,2025年全年总支出预估130亿美金。
Grok4依托xAI自建的Colossus超算中心,该中心部署了35万块H100,总浮点运算能力达100 EFLOPS,预计下半年扩展到超50万张卡。Grok4将Colossus超算80%的算力投入推理训练,这是其在HLE基准测试取得佳绩的核心原因。
预训练、后训练、测试时均遵循Scaling Law。过去两年以预训练为主,今年开始后训练、测试时推理需求快速增长。多Agent内生化开启了算力需求增长的新维度,未来全球算力需求将呈几何级增长。
七、结语:Agent内生化趋势明确,新一代AI训练军备竞赛已启动
Grok 4开启了Agent能力内生化的新篇章,各AI大厂大概率跟进,训练端仍有巨大Scaling空间,新一代大模型训练的军备竞赛已经打响。未来,随着技术不断发展,AI将走向何方,让我们拭目以待。
更多技术内容
更多技术内容可参见
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
GPT多模态大模型与AI Agent智能体书籍本章配套视频 - 第1章 大模型技术原理【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑,详解 Transformer 架构如何突破传统神经网络局限,实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练(BERT)、解码预训练(GPT 系列)及编解码架构(BART、T5)的技术差异,掌握大模型从 “理解” 到 “生成” 的核心逻辑。
实战驱动,掌握大模型开发全流程
提示学习与指令微调:通过 Zero-shot、Few-shot 等案例,演示如何用提示词激活大模型潜能,结合 LoRA 轻量化微调技术,实现广告生成、文本摘要等场景落地(附 ChatGLM3-6B 微调实战代码)。
人类反馈强化学习(RLHF):拆解 PPO 算法原理,通过智谱 AI 等案例,掌握如何用人类偏好优化模型输出,提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻,抢占技术高地
解析大模型 “智能涌现” 现象(如上下文学习、思维链推理),理解为何参数规模突破阈值后,模型能实现从 “量变” 到 “质变” 的能力跃升。
前瞻通用人工智能(AGI)发展趋势,探讨多模态模型(如 Sora)如何推动 AI 从 “单一任务” 向 “类人智能” 进化,提前布局未来技术赛道。
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄