百度文心X1.1发布!实测深度思考能力!

发布于:2025-09-12 ⋅ 阅读:(19) ⋅ 点赞:(0)

背景

9月9日,WAVE SUMMIT深度学习开发者大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰正式发布了文心大模型X1.1深度思考模型,该模型在事实性、指令遵循、智能体等能力上均有显著提升。目前,用户可以在文心一言官网、文小言APP使用文心大模型X1.1。

据王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,相比文心X1,X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%

在这里插入图片描述

模型实测效果

文心大模型X1.1已全面上线!可在文心一言官网、文小言APP或百度智能云千帆平台,畅享最新模型能力,或直接轻松调用API。

在这里插入图片描述

事实性

先来测测事实性!

国庆我想出去玩,在阿联酋玩3天、阿布扎布玩3天,从南京出发,往返都在⾹港转机停留⼀天,我需要办哪些签证和⼿续吗

回答过程中带有思考和网页参考,同时能够抽取并分析外部信息源。

在这里插入图片描述
在这里插入图片描述

再来个博大精深的!

“意思”在“这是什么意思?”、“这点⼩意思,不成敬意”、”这个景点太没意思了“中含义是否相同?

能够结合语境对多义词语进⾏解释,甚至列出了表格进行对比。

在这里插入图片描述

在这里插入图片描述

指令跟随

下面测试一下指令跟随能力。

你是「⼩红书运营」,负责的领域是外套,擅⻓以当代年轻⼈喜欢的潮流笔撰写⽂案,⾏⽂幽默⻛趣有吸引⼒。请撰写简短的关于宽松装翻领中⻓款⻄装外套的种草⽂案⽂案关键词:⾯对⼥性⽤户、材质是聚酯纤维63%、颜⾊是⿏尾草绿、1件59元、原价135元⽂案。
要求1.⻓句分解、避免重复、轻松幽默且真诚、整体具有可读性2.⽂案不能违反⼴告法,不可出现绝对,⾸选,最好,最佳等词语3.整体4⾏,每⾏以emoji表情开头,每⾏不超过15个字请基于以上要求,尽快撰写出⼀段⽂案。

在复杂指令解析上,它能精准识别⽤户需求细节,避免遗漏关键要素。

在这里插入图片描述

作为‘社恐探店博主’,请以’躲开网红店人潮’为主题,推荐3家南京小众咖啡馆 要求:

  1. 写明适合独处办公的细节(插座数量、安静程度)
  2. 用’发现秘密基地’的惊喜语气
  3. 结尾引导粉丝投稿私藏店铺 使用emoji风格输出

在这里插入图片描述

智能体

最后测试一下智能体效果。

请添加图片描述

ps:多模态能力也很强啊

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

模型技术解读

文心大模型X1.1的模型训练主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习同时融合提升通用任务和智能体任务的效果,另一方面通过自蒸馏数据的迭代式生产及训练不断提升模型整体效果。通过多项技术创新,该模型在智能体、指令遵循和事实性方面的效果表现出色:
1、基于基础模型和策略模型知识一致性的强化学习训练
基于基础模型和策略模型知识一致性的强化学习训练:在训练过程中,不断校验后训练模型和预训练模型知识的一致性,模型的事实性得到了大幅度的提升。
2、基于检查清单和指令验证器的强化学习训练
基于检查清单和指令验证器的强化学习训练:通过自动构建指令检查清单并验证,模型在复杂指令遵循方面的效果明显提升。
3、基于思维和行动链的多轮强化学习训练
基于思维和行动链的多轮强化学习训练:在思考过程中,将思维链和行动链结合,模型的智能体和工具调用能力明显提升。

基准测试

在多个权威基准评测中,文心X1.1整体表现超越DeepSeek R1-0528,在部分任务上展现出领先优势。同时,在与国际顶尖模型GPT-5和Gemini 2.5 Pro相比,效果持平。

在这里插入图片描述

文心飞桨携手共进

  1. 飞桨框架v3.2
    在WAVE SUMMIT深度学习开发者大会现场,百度还发布了全新飞桨框架v3.2,在大模型训练、硬件适配和生态支持上全面升级,并同步升级大模型开发套件ERNIEKit和高效部署套件FastDeploy。飞桨框架v3.2在⼤模型训练、大模型硬件适配、主流⼤模型及⾼性能加速库的⽀持上进⼀步提升。
    1、突破大模型训练技术难题,训练效率更高。包括极致计算优化、高效并行策略和框架原生容错能力。
    2、面向类CUDA芯片,全新升级适配方案。一行代码完成类CUDA算子注册,算子内核复用率高达92%,大幅降低适配成本。
    3、支持业界主流大模型及高性能加速库。原生支持Safetensors权重格式,主流高性能加速库一键接入。
    4、此外,发布⽂⼼⼤模型开发套件ERNIEKit和⼤模型⾼效部署套件FastDeploy v2.2。

  2. 文心飞桨开源及生态建设
    1、6月30日,百度正式开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。目前,文心大模型4.5系列开源模型已经在⾏业⾥得到了⼴泛的应⽤。
    2、百度的文心4.5开源模型系列,新增一款思考模型ERNIE-4.5-21B-A3B-Thinking

    • ERNIE-4.5-21B-A3B-Thinking是基于ERNIE-4.5-21B-A3B-Base进⼀步训练⽽来的深度思考模型,升级增加了深度思考能⼒后,该模型在智能体、⼯具调⽤、指令遵循、事实性等⽅⾯表现出⾊,问答、创作、逻辑推理等⽅⾯的综合能⼒明显提升。相⽐于全新发布的文心大模型X1.1,该模型推理速度显著提升。
    • 为了全⽅位⽀持基于⽂⼼⼤模型的创新以及应⽤开发,百度为开发者们量身打造了配套的功能体系。这套体系不仅涵盖⽂⼼4.5系列模型权重,还包括⻜桨框架、ERNIEKit、PaddleFormers以及FastDeploy开源代码库,此外还具备丰富的最佳实践。所有模型和代码都遵循Apache 2.0开源协议,开发者可以⾃由地使⽤、修改和分发。百度期待与开发者⼀起,共同探索⽂⼼⼤模型更⼴阔的应⽤前景。
      3、据最新数据披露,飞桨文心生态开发者达到2333万,服务企业达到76万家。
  3. 文心飞浆联合优化
    在此次发布会上,文心飞浆联合优化主要表现在以下三个方面:
    1、既包括框架-模型的联合优化,也包括框架-算力的联合优化。既有提升训练性能的创新,也有提升推理吞吐的创新。
    2、训练方面,最新发布的飞桨框架v3.2在计算、并⾏策略、容错能⼒三⽅⾯进⼀步升级。极致计算优化方面,提出了存算重叠的稀疏掩码注意⼒计算FlashMask V3,同时实现了⾼效的FP8混合精度效果⽆损训练技术。高效并行策略方面,提出了动态⾃适应的显存卸载策略,以及创新设计的显存友好的流⽔线并⾏调度,进⼀步降低显存开销。框架原生容错能力方面,实现了⼤规模集群训练容错系统,在线监测静默数据损坏等难以察觉的故障,并实现了⾼可⽤的检查点容灾⽅法,降低中断恢复损失。经过上述优化,⽂⼼X1.1及4.5系列模型均获得了优异的性能表现,并在文心最⼤规模的4.5⽂本模型ERNIE-4.5-300B-A47B的预训练上取得了47% MFU。
    3、推理方面,通过卷积编2比特极致压缩,可插拔稀疏化轻量注意力,混合动态自适应多步投机解码,通信存储计算深度协同优化的大规模P/D分离部署等技术,提供大模型高效部署及高性能推理全栈能力。在文心4.5激活参数量47B、总参数量300B的模型ERNIE-4.5-300B-A47B上,通过上述系统性优化,在TPOT 50ms时延条件下,实现了输入吞吐高达57K、输出吞吐29K的卓越性能表现。

总结

从最新发布内容来看,百度正凭借扎实的技术积累与开放的生态策略,持续优化其全栈AI布局——芯片、框架、模型与应用四层架构紧密围绕开发者实际需求展开推进。尤其通过飞桨深度学习平台与文心大模型的深度协同,百度为开发者提供了更加高效、易用的工具链和生态支持。


网站公告

今日签到

点亮在社区的每一天
去签到