语言模型:AM-Thinking-v1 能和大参数语言模型媲美的 32B 单卡推理模型

发布于:2025-05-18 ⋅ 阅读:(18) ⋅ 点赞:(0)

介绍

a-m-team 是北科 (Ke.com) 的一个内部团队,致力于探索 AGI 技术。这是一个专注于增强推理能力的 32B 密集语言模型。 a-m-team / AM-Thinking-v1 是其旗下的一个语言模型,采用低成本的方式能实现和大参数模型媲美。

DeepSeek-R1 或 Qwen3-235B-A22B 等大型专家混合 (MoE) 模型在排行榜上占据主导地位,但它们也需要高端 GPU 集群。许多团队只需要适合单个卡的最佳密集模型。

AM-Thinking-v1 基于 Qwen 2.5-32B-Base 构建,在推理基准测试中表现出强大的性能,可与 DeepSeek-R1、Qwen3-235B-A22B、Seed1.5-Thinking 等更大的 MoE 模型以及 Nemotron-Ultra-253B-v1 等更大的密集模型相媲美。

开源组件:

  • 在AIME’24/'25和LiveCodeBench上的表现优于DeepSeek-R1,尽管参数数量只有Qwen3-235B-A22B的1/7。
  • 基于公开可用的 Qwen 2.5-32B-Base 以及 RL 训练查询构建。
  • 数据表明,通过精心设计的训练后管道( SFT + dual-stage RL ),您可以从 32 B 密集模型中挤出旗舰级推理。
  • 部署在一个 A100-80 GB 上,具有确定性延迟 - 无 MoE 路由开销。

将 base model 转变为高性能 reasoner 所涉及的关键阶段:

第 1 步 – 冷启动 SFT。我们从开源的 Qwen 2.5-32B-Base 开始,并在数学、代码和开放域聊天的混合训练数据集上运行广泛的监督微调。这赋予了模型一种 “思考-后回答 ”的行为模式,并使其具备了最初的推理能力。

第 2 步 – 通过率感知数据管理。在任何 RL 之前,SFT 模型都会在每个面向数学和代码的训练查询上进行评估。对于每个项目,我们都会记录一个通过率;仅保留 0 < 和 1 的 < 的通过率。实际上,我们丢弃了模型已经掌握的问题和它完全失败的问题,将学习集中在真正信息丰富的案例上。

第 3 步 – 强化学习。我们采用两阶段 GRPO 方案:第一阶段仅训练数学和代码查询。收敛后,第 2 阶段首先删除模型在第 1 阶段中 100% 正确回答的每个查询,并调整关键超参数,例如最大生成长度和学习率。

benchmark

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代码任务

例如在“旋转三角形中红球反弹”的问题中,模型能完成较为完整的碰撞判断与动态轨迹模拟,说明其对多步逻辑有较好掌握。

在这里插入图片描述

逻辑推理任务

在结构性推理问题中,模型通常能保持较为稳定的思考过程。

在这里插入图片描述

写作与表达任务

我们也测试了其在长文本写作方面的能力,例如围绕“苏轼”撰写议论文,发现它在表达逻辑和意象捕捉方面已有初步的组织能力。
在这里插入图片描述

博客地址:https://a-m-team.github.io/am-thinking-v1/
huggingface:https://huggingface.co/a-m-team/AM-Thinking-v1

综合评价

  • 设备有限的企业可以选用,性价比还是很高的
  • 不支持mcp(function call),所以有这方面需求的不要用这个模型。未来会支持,青睐其性能但想要mcp的可以再蹲蹲
  • 对信息限制(比如严禁词汇)要求高的企业,需要微调训练。

官方描述:

While AM‑Thinking‑v1 excels at pure language reasoning and open‑domain chat, it has not yet been trained for structured function‑calling or tool‑use workflows, which restricts its usefulness in agent‑style applications that must act on external systems. Improving the model’s ability to follow complex instructions is also an important direction for our future work. In addition, our safety alignment is still at an early stage, so more rigorous red‑teaming are required to reduce potential harms.

在未来,会对更多能力进行支持:

  • 函数调用、工具联动等 Agent 化能力;
  • 进一步加强控制机制和边界测试;
  • 多模态交互的基础支持;
  • 更好地与外部工具集成等。