MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

发布于:2025-06-27 ⋅ 阅读:(15) ⋅ 点赞:(0)

TL;DR

  • 2025 年 minimax 推出的 MiniMax-M1 模型,全球首个开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家(Mixture-of-Experts, MoE)架构,并结合线性注意力机制,456B 总参数量,激活参数量 45B。还提出了增强 RL 效率的新算法 CISPO,MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练,总租用成本仅为 534,700 美元。

Paper name
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper Reading Note

Paper URL:

  • https://arxiv.org/pdf/2506.13585

Project URL:

  • https://www.minimax.io/news/minimaxm1

Code URL:

  • https://github.com/MiniMax-AI/MiniMax-M1

Introduction

背景

  • 大型推理模型(Large Reasoning Models,LRMs),如 OpenAI o1(OpenAI,2024a)和 DeepSeek-R1(DeepSeek-AI 等,2025),通过大规模强化学习(RL)扩展推理过程的长度,展现出卓越性能。
  • LRMs 成功的关键在于测试阶段计算这一全新扩展维度——当为生成中延展推理过程分配更多计算量(FLOPs)时,模型性能持续提升
    • 然而,由于传统 Transformer 架构中 softmax 注意力机制的二次方计算复杂度,不断延长推理过程非常具有挑战性
    • 目前几乎所有具竞争力的 LRM 仍采用传统注意力设计。腾讯 AI 实验室(2025)的 Hunyuan-T1 模型是唯一例外,它采用了 Mamba 架构,但该模型并未开源,相关细节也披露有限。

本文方案

在这里插入图片描述

  • 推出 MiniMax-M1,这是一款全球首个开源权重的大规模混合注意力推理模型。
    • MiniMax-M1 采用混合专家(Mixture-of-Experts, MoE)架构,并结合闪电注意力机制,作为模型的核心动力。该模型基于我们先前的 MiniMax-Text-01 模型(MiniMax 等,2025),总共拥有 4560 亿个参数,其中每个 token 激活约 459 亿个参数。
    • M1 模型原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文长度的 8 倍。
    • 此外,MiniMax-M1 中采用的闪电注意力机制能够实现测试时计算成本的高效扩展。例如,在生成长度为 10 万 token 时,M1 仅消耗 DeepSeek R1 约 25% 的 FLOPs。这些特性使 M1 特别适合需要处理长输入并进行深入推理的复杂任务。
    • 还提出了增强 RL 效率的新算法 CISPO,MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练,总租用成本仅为 534,700 美元。

2. 准备可扩展强化学习:持续预训练与有监督微调(SFT)

在本工作中,我们专注于通过扩展强化学习(RL)提升 MiniMax-Text-01 模型的推理能力。为了便于可扩展 RL 训练,我们首先对底座模型开展持续预训练,以增强模型本身的推理与长上下文能力。接着,我们实施冷启动有监督微调(SFT),注入特定的推理模式,为随后的 RL 阶段奠定坚实基础。

2.1 持续预训练:为 RL 扩展奠定基础

为了提升底座模型的推理与长上下文能力,同时确保数据的多样性,我们在优化后的数据质量与配比前提下,以 7.5 万亿(T) tokens 继续训练 MiniMax-Text-01 模型。

训练数据
我们优化了 Web 与 PDF 解析策略,并改进启发式清洗规则,以确保对数学与代码数据的高召回率。我们优先从网页、论坛、书籍等广泛来源中提取自然问答(QA)对,并严格避免使用合成数据。此外,我们对 QA 数据进行了语义去重,保证数据多样性与唯一性。同时,我们将 STEM(科学、技术、工程与数学)、代码、书籍与推理相关数据的比例提升到 70%,显著增强模型处理复杂任务的能力,而不影响其通用任务性能。

训练策略
我们减少 MoE 辅助损失权重,并调整并行训练策略,以支持更大的微批次大小,从而减少辅助损失对模型整体性能的负面影响。在 MiniMax-Text-01 的基础上,我们继续以恒定学习率 8e-5 训练 2.5T tokens,随后在 5T tokens 中采用学习率衰减策略将学习率降低至 8e-6。

长上下文扩展
对于具备混合-闪电注意力架构的模型,由于该模型具有较高的收敛复杂度,我们发现过于激进地扩展训练上下文窗口可能导致梯度突然爆炸,这给训练优化带来了极大的挑战。我们将这一问题归因于前后层参数优化步调不一致——闪电注意力中前后层有不同的权重衰减率,这导致前层更关注局部信息,而与后层步调脱节。因此我们采用四个阶段平滑扩展上下文长度:先从 32K token 上下文开始,逐步扩展,最终将训练上下文延长至 100 万 tokens,以实现稳定训练。

2.2 有监督微调:聚焦对齐以提高 RL 效率

在持续预训练后,我们执行有监督微调(SFT),以在模型中注入期望行为,例如通过反思式链式思维(CoT)推理示例训练模型,为后续更高效、更稳定的 RL 阶段打下良好开端。具体而言,我们整理出长 CoT 响应样本,这些样本涵盖数学、编程、STEM、写作、问答与多轮对话等广泛领域,其中数学与编程样本约占所有数据的 60%。这些高质量示例能帮助模型掌握复杂推理模式,为后续强化学习提供坚实起点。

3. 高效可扩展 RL:算法与闪电注意力

如图 1(右)所示,M1 架构在推理过程中展现出明显的效率优势。这意味着当生成长响应时,模型天然适合大规模 RL 训练。然而,作为使用混合架构开展大规模 RL 实验的先行者,我们也遇到了一系列独特挑战,如训练过程可能变得不稳定甚至崩溃。因此我们制定了针对性的解决方案,成功地在 M1 上实现可扩展 RL 训练。此外,我们还提出一种新的 RL 算法,在效率上优于现有方法。这些贡献共同构成了高效、可扩展的 M1 RL 框架,使我们仅需 512 张 H800 GPU、约 0.53 百万美元租用成本,三周便可完成完整训练。在这一节中,我们先介绍 RL 背景与我们的算法,然后描述混合架构中面临的挑战,以及对应解决方案。

3.1 使用 CISPO 实现高效 RL 扩展

背景
对数据集 D D D 中的问题 q q q,我们用策略模型 π θ \pi_\theta πθ 生成响应 o o o。PPO(Schulman 等,2017)的目标函数如下,其中截断操作被用于稳定训练:

J P P O ( θ ) = E q ∼ D , o i ∼ π θ old ( ⋅ ∣ q ) [ min ⁡ ( r i , t ( θ ) A ^ i , t , clip ( r i , t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ i , t ) ] − β D K L ( π θ ∣ ∣ π ref ) , ( 1 ) J_{PPO}(\theta) = \mathbb{E}_{q\sim D, o_i \sim \pi_{\theta_\text{old}}(\cdot|q)}\Big[ \min(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}(r_{i,t}(\theta),1-\epsilon,1+\epsilon)\hat{A}_{i,t})\Big]-\beta D_{KL}(\pi_\theta||\pi_\text{ref}), \quad (1) JPPO(θ)=EqD,oiπθold(q)[min(ri,t(θ)A^i,t,clip(ri,t(θ),1ϵ,1+ϵ)A^i,t)]βDKL(πθ∣∣πref),(1)

其中重要性采样权重为 r i , t ( θ ) r_{i,t}(\theta) ri,t(θ)。GRPO(Shao 等,2024)简化 PPO,不再使用价值模型,而是以相对奖励标准化得到优势:

A ^ i , t = R i − mean ( R j j = 1 G ) std ( R j j = 1 G ) , ( 2 ) \hat{A}_{i,t} = \frac{R_i-\text{mean}({R_j}_{j=1}^G)}{\text{std}({R_j}_{j=1}^G)},\quad(2) A^i,t=std(Rjj=1G)Rimean(Rjj=1G),(2)

截断的局限
我们在零 RL 实验中发现,GRPO 依赖截断损害训练效果,无法有效促进长 CoT 推理模式出现。这是因为“反思”类 token(如 However, Recheck, Wait, Aha)稀有且概率低,在更新中具有较大的 r i , t r_{i,t} ri,t 权重,导致它们在首次更新后被截断掉,无法继续在离线更新中传递梯度。这一问题在混合架构中尤为明显,限制了可扩展 RL。这类低概率 token 恰恰是维持熵(Cui 等,2025)和可扩展 RL(Wang 等,2025)的关键因素,而 DAPO(Yu 等,2025)通过增大截断上界缓解问题的方法并不适用我们的任务。

CISPO 算法
为避免截断丢弃 token,我们设计一种新算法,称为 CISPO(Clipped IS-weight Policy Optimization),它只截断重要性权重,而不截断 token 梯度更新:

J R E I N F O R C E ( θ ) = E ( q , a ) ∼ D , o i ∼ π θ old [ ∑ t = 1 sg ( r i , t ( θ ) ) A ^ i , t log ⁡ π θ ( o i , t ∣ q , o i , < t ) ] , ( 3 ) J_{REINFORCE}(\theta) = \mathbb{E}_{(q,a)\sim D, o_i \sim \pi_{\theta_\text{old}}}\Big[\sum_{t=1}\text{sg}(r_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t}|q,o_{i,<t})\Big],\quad(3) JREINFORCE(θ)=E(q,a)D,oiπθold[t=1sg(ri,t(θ))A^i,tlogπθ(oi,tq,oi,<t)],(3)

其中 r ^ i , t ( θ ) \hat{r}_{i,t}(\theta) r^i,t(θ) 定义为:

r ^ i , t ( θ ) = clip ( r i , t ( θ ) , 1 − ϵ I S _ l o w , 1 + ϵ I S _ h i g h ) , ( 5 ) \hat{r}_{i,t}(\theta) = \text{clip}(r_{i,t}(\theta),1-\epsilon_{IS\_low},1+\epsilon_{IS\_high}),\quad(5) r^i,t(θ)=clip(ri,t(θ),1ϵIS_low,1+ϵIS_high),(5)

在训练中我们只设上界 ϵ I S _ h i g h \epsilon_{IS\_high} ϵIS_high,未对下界限制,这样保证梯度来源覆盖所有 token,减少方差并稳定训练。我们也采用 Yu 等(2025)的动态采样与长度惩罚策略,不再使用 KL 正则(Hu 等,2025;Yu 等,2025)。

通用统一表示
为了在相同框架中支持不同截断策略,我们引入 token 掩码:

J u n i f y ( θ ) = E ( q , a ) ∼ D [ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ sg ( r ^ i , t ( θ ) ) A ^ i , t log ⁡ π θ ( o i , t ∣ q , o i , < t ) M i , t ] , ( 6 ) J_{unify}(\theta) = \mathbb{E}_{(q,a)\sim D}\Big[\sum_{i=1}^G\sum_{t=1}^{|o_i|}\text{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t}|q,o_{i,<t})M_{i,t}\Big],\quad(6) Junify(θ)=E(q,a)D[i=1Gt=1oisg(r^i,t(θ))A^i,tlogπθ(oi,tq,oi,<t)Mi,t],(6)

其中 M i , t M_{i,t} Mi,t 对应 PPO 中隐含的截断逻辑:

M i , t = { 0 A ^ i , t > 0  且  r i , t > 1 + ϵ h i g h 0 A ^ i , t < 0  且  r i , t < 1 − ϵ l o w 1 其他情况 , ( 7 ) M_{i,t}= \begin{cases} 0 & \hat{A}_{i,t}>0 \text{ 且 } r_{i,t}>1+\epsilon_{high} \\ 0 & \hat{A}_{i,t}<0 \text{ 且 } r_{i,t}<1-\epsilon_{low} \\ 1 & \text{其他情况} \end{cases},\quad(7) Mi,t= 001A^i,t>0  ri,t>1+ϵhighA^i,t<0  ri,t<1ϵlow其他情况,(7)

CISPO 实验验证
我们在零 RL 训练中对比 CISPO、DAPO、GRPO,在 Yu 等(2025)数学推理数据上训练 Qwen2.5-32B 模型,AIME 2024 性能如图 2 所示。结果显示 CISPO 大幅超越 DAPO 和 GRPO,且仅需一半训练步即可达到 DAPO 相同水平。
在这里插入图片描述

3.2 使用闪电注意力实现高效 RL 扩展:挑战与对策

如图 1(右)所示,混合注意力架构天然为 RL 扩展提供算力优势。然而,在大规模训练中我们也遇到新挑战并设计出对应解决方案如下。

训练与推理精度匹配
我们发现在训练与推理模式中模型 roll-out 时 token 概率出现显著差异(如图 3 左),导致训练中无法获得奖励提升。这源于训练与推理 kernel 精度不匹配,在模型 head 输出处出现大幅度激活偏差,而这在标准 softmax 注意力模型中不存在。为解决这一问题,我们将 LM head 输出精度提升至 FP32,如图 3(右)所示,训练与推理概率的相关度从 0.9x 提升至 0.99x,且训练中保持稳定,为奖励提升提供保障。
在这里插入图片描述

优化器超参数敏感性
我们采用 AdamW(Loshchilov 和 Hutter,2019),发现默认超参数设置(如 β 1 = 0.9 , β 2 = 0.999 , ϵ = 1 e − 8 \beta_1 = 0.9,\beta_2=0.999,\epsilon=1e-8 β1=0.9,β2=0.999,ϵ=1e8,VeRL 默认设置,Sheng 等,2024)可能导致训练不收敛(Molybog 等,2023),尤其当梯度范围广泛(从 1 e − 18 1e-18 1e18 1 e − 5 1e-5 1e5,绝大部分梯度小于 1 e − 14 1e-14 1e14 且相邻迭代相关性低)时。因此我们将 β 1 \beta_1 β1 调整为 0.9, β 2 \beta_2 β2 调整为 0.95, ϵ \epsilon ϵ 降低为 1e-15,从而提高训练稳定性。

上述调节的原理讲解:
为方便推导,先给出 AdamW 的标准一次更新公式(省略学习率调度与权重衰减 λ 项):

m t = β 1   m t − 1 + ( 1 − β 1 )   g t v t = β 2   v t − 1 + ( 1 − β 2 )   g t 2 m ^ t = m t 1 − β 1   t , v ^ t    =    v t 1 − β 2   t θ t + 1 = θ t    −    η   m ^ t v ^ t + ε , \begin{aligned} m_t &= \beta_1\,m_{t-1} + (1-\beta_1)\,g_t \\[2pt] v_t &= \beta_2\,v_{t-1} + (1-\beta_2)\,g_t^{2} \\[2pt] \hat m_t &= \frac{m_t}{1-\beta_1^{\,t}}, \qquad \hat v_t \;=\; \frac{v_t}{1-\beta_2^{\,t}} \\[4pt] \theta_{t+1} &= \theta_t\;-\;\eta\,\frac{\hat m_t}{\sqrt{\hat v_t} + \varepsilon} , \end{aligned} mtvtm^tθt+1=β1mt1+(1β1)gt=β2vt1+(1β2)gt2=1β1tmt,v^t=1β2tvt=θtηv^t +εm^t,

其中 g t = ∇ θ L ( θ t ) g_t=\nabla_{\theta}\mathcal L (\theta_t) gt=θL(θt)AdamW 只是把 − λ θ t -\lambda\theta_t λθt 的权重衰减项放到与梯度估计解耦的位置,对下文讨论的 β 1 , β 2 , ε \beta_1,\beta_2,\varepsilon β1,β2,ε 并无额外影响。

  • 梯度幅值
    题设给出的梯度范围 1 0 − 18  ⁣ ∼  ⁣ 1 0 − 5 10^{-18}\!\sim\!10^{-5} 1018105,且大多数分量 < 1 0 − 14 <10^{-14} <1014。在 FP32 精度下,

    g t 2 ≲ 1 0 − 28  ⁣ −  ⁣ 1 0 − 10 , v ^ t ≲ 1 0 − 14  ⁣ −  ⁣ 1 0 − 5 . g_t^{2}\lesssim 10^{-28}\!-\!10^{-10}, \quad \sqrt{\hat v_t}\lesssim 10^{-14}\!-\!10^{-5}. gt210281010,v^t 1014105.

    而默认 ε = 1 0 − 8 \varepsilon=10^{-8} ε=108 本身就高于绝大多数 v ^ t \sqrt{\hat v_t} v^t ,导致分母几乎被 ε \varepsilon ε 主导——适应性彻底丢失,AdamW 退化为一种「被统一缩放的动量 SGD」。

  • 梯度时间相关性低
    若相邻迭代的梯度方向相似度低,过大的 β 2 \beta_2 β2(记忆窗口太长)会让二阶动量 v t v_t vt 含有大量与当前分布不匹配的陈旧方差信息;在低幅梯度下,这更易造成 v ^ t \hat v_t v^t 被严重低估,进而让 m ^ t / v ^ t \hat m_t/\sqrt{\hat v_t} m^t/v^t 放大,出现不稳定的大跳步(甚至 NaN)。

重复响应的早截断策略
在 RL 训练中,复杂提示可能触发模型进入病态长重复响应,这类长尾样本的梯度极大,影响模型稳定性。为避免浪费计算并提高稳定性,我们设计启发式提前截断机制,而非事后惩罚重复 token。我们观察到进入重复循环时 token 概率极高,因此当连续 3,000 个 token 概率均大于 0.99 时提前中止生成。这一方法能有效减少训练过程中的模型不稳定与吞吐开销。


4 使用多样化数据扩展强化学习规模

在本节中,我们介绍 RL 阶段所采用的数据与奖励设计。我们在 RL 训练流程中引入了多种环境,既包含可用确定性规则验证的任务,也包含需借助奖励模型评估的一般性任务,并通过精心设计的课程式策略将它们整合进 RL 阶段。

4.1 基于规则验证的高推理任务

数学推理
  • 数据来源:数十万条公开与竞赛级高质量题目,配有标准答案。
  • 清洗流程:去除残缺样本、格式错误;使用 Embedding 去重并确保与 SFT 数据零重叠;过滤多子题、证明题、真假题;选择 pass@10 介于 0–0.9 的样本。
  • 规模:≈ 5 万条。
逻辑推理
  • 任务:选择 41 个如密码破译、数独等非平凡逻辑任务。
  • SynLogic 框架:任务特定的生成器 + 规则校验器自动合成,动态调整难度;随模型能力提升逐步加大难度。
  • 规模:≈ 5.3 万条。
竞赛编程
  • 数据:公开 OJ/代码网站题目;缺失测试集的题目通过 LLM(MiniMax-Text-01)生成全面测试用例。
  • 筛选:保留中等难度、高质量题目。
  • 规模:≈ 3 万条。
软件工程
  • 数据:参考 SWE-bench,从 GitHub 问题/PR 中提取 bug 定位、代码修复、测试生成场景。
  • 环境:容器化沙盒执行真实代码;测试用例通过是否全部通过给出奖励。
  • 规模:数千条,每条含问题描述、故障代码及测试集。

4.2 需模型反馈的一般领域任务

4.2.1 数据及奖励模型
  • 总体规模:2.5 万条复合型样本。
  • 带真值样本:多为 STEM / 事实类问题,答案客观但表达多样。采用生成式奖励模型 (GenRM) 五级评分。
  • 无真值样本:包含指令跟随、创意写作等开放任务;先生成多模型答案并人工评估选出参考答案;训练时用成对比较 (−1/0/1) 评价。
  • 约束任务:规则奖励(检查约束)+ 模型奖励(质量)。
4.2.2 缓解长链式推理奖励模型偏差
  • 发现 GenRM 偏好冗长输出 → 奖励黑客风险。
  • 离线措施:多样化长度与质量、加入对抗样例、改进架构。
  • 在线措施:RL 期间监控长度偏置;若检测到“拉长文本”现象即在线校准 GenRM,并配合奖励整形、裁剪、归一化抑制非实质性奖励。

4.3 多样化数据的课程学习策略

  • 阶段式混合:先仅训练可规则验证的推理任务,再逐步引入一般领域任务。
  • 目标:避免遗忘数学/代码等可验证技能,同时提升在复杂指令与开放式推理上的泛化能力,在统一策略下实现“场景自适应”。
模块 关键要点 数据规模
规则可验任务 数学 50 K、逻辑 53 K、编程 30 K、软件工程若干千 14 万
一般任务 带真值 STEM & 事实、无真值指令/创作;GenRM 五级评分 + 成对比较 25 K
奖励设计 规则奖励(确定性通过/未通过)+ 生成式奖励模型;在线监控并校准长度偏置
课程策略 先推理密集、后混合一般任务;动态权重防遗忘、促泛化

5 将强化学习扩展到更长的“思考长度”

我们最初的 RL 训练将输出长度限制在 40 K tokens。由于 M1 混合架构在长序列上具备近线性扩展能力(见图 1,右),我们进一步把 RL 阶段的生成长度扩展到 80 K tokens,得到新模型 MiniMax-M1-80k

数据构建

  • 过滤基准:用已训练的 40 K 模型评估第 §4 节整理的数据集,通过 pass rate 剔除“易解”样本。
  • 难度倾斜:增加高难数学与编程题比例;观察到合成推理数据会削弱长上下文稳定性后,对其进行下采样(因模型易陷入重复、同质化模式)。

长度扩展策略

  • 采用 分阶段窗口扩张(40 K → 48 K → 56 K → 64 K → 72 K → 80 K)。

  • 迁移时机 由经验指标决定:

    1. 生成序列的困惑度 (perplexity) 收敛;
    2. 输出长度 99 分位数接近当前窗口上限。
      这保证每一步都稳定后才继续扩大长度。

训练不稳定性的来源与解决

现象:在每个窗口后期,生成序列尾段出现模式坍缩,变为无意义字符,同时 perplexity 升高。
根因:负样本长度增长远快于正样本,先触达窗口上限 → 在序列后段累积过大负梯度;这与 GRPO 的优势归一化及 token 级损失的不对称性有关。

三项改进

  1. 重复模式早停:检测连续高概率 token,提前截断,避免无谓占用上下文窗口。
  2. 样本级损失 + token 级归一化:缓解正负样本不平衡,降低尾部负梯度冲击。
  3. 降低梯度裁剪阈值与 ϵ h i g h I S ϵ^{IS}_{high} ϵhighIS:进一步稳固生成过程。
模块 关键举措 / 发现
目标 将 RL 输出长度从 40 K 扩展至 80 K,得到 MiniMax-M1-80k
数据策略 40 K 模型指导过滤;提升高难度样本比例;下采样易诱发重复的合成推理数据
扩长方法 分阶段窗口扩张:40 K → 48 K → 56 K → 64 K → 72 K → 80 K
迁移判据 (i) PPL 收敛 (ii) 输出长度 P99 逼近窗口上限
不稳定根因 负样本先达窗口极限 → 序列尾部负梯度过大 → 模式坍缩
三大缓解措施 1) 重复检测早停 2) 样本级损失+token 归一化 3) 更严格梯度裁剪与 ϵ h i g h I S ϵ^{IS}_{high} ϵhighIS 调整

6 评测结果

6.1 核心基准

我们在八大领域对 MiniMax-M1 系列模型进行了全面评测,采样设置为 temperature = 1.0top-p = 0.95

领域 评测集与说明
数学 MATH-500、AIME 2024、AIME 2025。AIME 取 32 次采样的平均 pass@tate。
通用编程 LiveCodeBench 与 FullStackBench,16 次采样取平均 passrate。
推理与知识 GPQA-Diamond、MMLU-Pro、HLE(不使用外部工具)、ZebraLogic。GPQA-Diamond 取 32 次采样平均分。
软件工程 SWE-bench Verified(Agentless scaffold);两阶段文件定位(无向量检索)。
长上下文 OpenAI-MRCR 与 LongBench-v2(上下文 8 k–2 M 字)。
工具使用 TAU-bench(GPT-4.1 充当用户;系统通用 prompt;无自定义工具;最多 40 轮)。
事实性 SimpleQA。
通用助手 MultiChallenge(GPT-4o 评审)。

综合成绩亮点

在这里插入图片描述

  1. 数学推理

    • MiniMax-M1-80k 在 AIME 2024 上得分 86.0 %,在开源权重模型中仅次于最新 DeepSeek-R1-0528。
  2. 通用编程

    • 在 LiveCodeBench 与 FullStackBench 上,MiniMax-M1-80k 分别追平或超越 Qwen3-235B。
  3. 推理与知识

    • 在 GPQA-Diamond / MMLU-Pro / HLE 上紧随 DeepSeek-R1-0528,整体位于开源模型第一梯队。
  4. 软件工程

    • SWE-bench Verified:MiniMax-M1-40k / 80k 得分 55.6 % / 56.0 %,略低于 DeepSeek-R1-0528(57.6 %),显著领先其余开源模型。
  5. 长上下文理解

    • 得益于 1 M token 窗口,在 OpenAI-MRCR 与 LongBench-v2 上超越所有开源模型,并超过 OpenAI o3 与 Claude 4 Opus,仅次于 Gemini 2.5 Pro。
  6. 工具使用 (TAU-bench)

    • MiniMax-M1-40k 已领先所有开源模型及 Gemini-2.5 Pro;80k 版本进一步提升。
  7. 事实性 & 多轮助手

    • SimpleQA 上次于 DeepSeek-R1,但优于其他开源模型。
    • MultiChallenge 表现与 DeepSeek-R1-0528、Claude 4 Opus 相当,仅弱于 OpenAI o3 与 Gemini-2.5 Pro。
  8. 规模效益

    • MiniMax-M1-80k 在大多数基准上均优于 40k 版本,证明推理-RL 长度与推理质量同向提升。
维度 最佳表现 竞争地位
数学 (AIME 2024) 86 % 开源第 2
软件工程 (SWE-bench) 56 % 开源第 2
长上下文 (1 M ctx) 超越 o3 / Claude 4 全球第 2,仅次 Gemini-2.5 Pro
工具使用 (TAU-bench) 40k > Gemini-2.5 Pro 开源第 1
整体趋势 80k > 40k 长序列训练显著提升多项任务

总结:MiniMax-M1-80k 通过 1 M 上下文窗口与分阶段 RL 扩长策略,在数学、编程、软件工程、长上下文及工具使用等复杂场景中达到或逼近最先进开放权重模型水平,并在长上下文与工具使用两大难点上取得领先。

6.2 RL 扩展效应在这里插入图片描述

为研究 RL 扩展对模型能力的影响,我们在训练过程中持续跟踪性能指标与回复长度。图 4 展示了 AIME 2024、AIME 2025 以及 LiveCodeBench v5 上的三个代表性样例。结果表明:

  • 性能与回复长度同步提升:在整个训练阶段,模型得分与平均输出长度都呈显著上升趋势。
  • 长链推理显著增长:AIME 与 LiveCodeBench 的平均答题长度均超过 20 000 tokens
  • 准确率大幅跃升:以 AIME 2024 为例,准确率由 68 % → 80 %
  • 长度–性能强相关:可视化结果进一步凸显,延长 RL 训练可支持的输出窗口,是促成深度推理能力提升的关键。

7 结论与未来工作

本文发布了 MiniMax-M1 —— 全球首个开源权重、具备 Lightning Attention 的大规模推理模型。核心贡献与意义如下:

  1. 超长上下文与生成

    • 本地支持 1 M token 输入80 K token 生成,远超现有开源模型。
    • 在软件工程、工具使用、长上下文理解等复杂场景中表现领先。
  2. 高效训练框架

    • 提出新型 RL 算法 CISPO,结合 Lightning Attention,仅用 512×H800 GPU × 3 周 完成 RL 训练。
  3. 综合评测表现

    • 与 DeepSeek-R1、Qwen3-235B 并列当前最佳开源权重模型。
    • 在长上下文和工具使用基准上排名全球第二,仅次于 Gemini 2.5 Pro。
  4. 应用前景

    • 适用于自动化企业流程、科学研究等需数十到数百轮推理、跨模态长信息整合的真实环境。
    • 作为多主体、工具交互型智能体(Agent)基础模型具有独特优势。

未来方向

  • 更强 Agent 化:增强与外部工具、系统、其他智能体的交互能力。
  • 持续扩长与压缩:在保持效率的前提下进一步突破上下文窗口,并探索推理裁剪技术。
  • 现实任务落地:与产业与科研伙伴合作,在自动化软件开发、科学发现等场景进行大规模实测与优化。

网站公告

今日签到

点亮在社区的每一天
去签到