MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention-EW帮帮网

TL;DR

2025 年 minimax 推出的 MiniMax-M1 模型，全球首个开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家（Mixture-of-Experts, MoE）架构，并结合线性注意力机制，456B 总参数量，激活参数量 45B。还提出了增强 RL 效率的新算法 CISPO，MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练，总租用成本仅为 534,700 美元。

Paper name
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper Reading Note

Paper URL:

https://arxiv.org/pdf/2506.13585

Project URL:

https://www.minimax.io/news/minimaxm1

Code URL:

https://github.com/MiniMax-AI/MiniMax-M1

Introduction

背景

大型推理模型（Large Reasoning Models，LRMs），如 OpenAI o1（OpenAI，2024a）和 DeepSeek-R1（DeepSeek-AI 等，2025），通过大规模强化学习（RL）扩展推理过程的长度，展现出卓越性能。
LRMs 成功的关键在于测试阶段计算这一全新扩展维度——当为生成中延展推理过程分配更多计算量（FLOPs）时，模型性能持续提升
- 然而，由于传统 Transformer 架构中 softmax 注意力机制的二次方计算复杂度，不断延长推理过程非常具有挑战性
- 目前几乎所有具竞争力的 LRM 仍采用传统注意力设计。腾讯 AI 实验室（2025）的 Hunyuan-T1 模型是唯一例外，它采用了 Mamba 架构，但该模型并未开源，相关细节也披露有限。

本文方案

在这里插入图片描述

推出 MiniMax-M1，这是一款全球首个开源权重的大规模混合注意力推理模型。
- MiniMax-M1 采用混合专家（Mixture-of-Experts, MoE）架构，并结合闪电注意力机制，作为模型的核心动力。该模型基于我们先前的 MiniMax-Text-01 模型（MiniMax 等，2025），总共拥有 4560 亿个参数，其中每个 token 激活约 459 亿个参数。
- M1 模型原生支持 100 万 token 的上下文长度，是 DeepSeek R1 上下文长度的 8 倍。
- 此外，MiniMax-M1 中采用的闪电注意力机制能够实现测试时计算成本的高效扩展。例如，在生成长度为 10 万 token 时，M1 仅消耗 DeepSeek R1 约 25% 的 FLOPs。这些特性使 M1 特别适合需要处理长输入并进行深入推理的复杂任务。
- 还提出了增强 RL 效率的新算法 CISPO，MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练，总租用成本仅为 534,700 美元。

2. 准备可扩展强化学习：持续预训练与有监督微调（SFT）

在本工作中，我们专注于通过扩展强化学习（RL）提升 MiniMax-Text-01 模型的推理能力。为了便于可扩展 RL 训练，我们首先对底座模型开展持续预训练，以增强模型本身的推理与长上下文能力。接着，我们实施冷启动有监督微调（SFT），注入特定的推理模式，为随后的 RL 阶段奠定坚实基础。

2.1 持续预训练：为 RL 扩展奠定基础

为了提升底座模型的推理与长上下文能力，同时确保数据的多样性，我们在优化后的数据质量与配比前提下，以 7.5 万亿（T） tokens 继续训练 MiniMax-Text-01 模型。

训练数据
我们优化了 Web 与 PDF 解析策略，并改进启发式清洗规则，以确保对数学与代码数据的高召回率。我们优先从网页、论坛、书籍等广泛来源中提取自然问答（QA）对，并严格避免使用合成数据。此外，我们对 QA 数据进行了语义去重，保证数据多样性与唯一性。同时，我们将 STEM（科学、技术、工程与数学）、代码、书籍与推理相关数据的比例提升到 70%，显著增强模型处理复杂任务的能力，而不影响其通用任务性能。

训练策略
我们减少 MoE 辅助损失权重，并调整并行训练策略，以支持更大的微批次大小，从而减少辅助损失对模型整体性能的负面影响。在 MiniMax-Text-01 的基础上，我们继续以恒定学习率 8e-5 训练 2.5T tokens，随后在 5T tokens 中采用学习率衰减策略将学习率降低至 8e-6。

长上下文扩展
对于具备混合-闪电注意力架构的模型，由于该模型具有较高的收敛复杂度，我们发现过于激进地扩展训练上下文窗口可能导致梯度突然爆炸，这给训练优化带来了极大的挑战。我们将这一问题归因于前后层参数优化步调不一致——闪电注意力中前后层有不同的权重衰减率，这导致前层更关注局部信息，而与后层步调脱节。因此我们采用四个阶段平滑扩展上下文长度：先从 32K token 上下文开始，逐步扩展，最终将训练上下文延长至 100 万 tokens，以实现稳定训练。

2.2 有监督微调：聚焦对齐以提高 RL 效率

在持续预训练后，我们执行有监督微调（SFT），以在模型中注入期望行为，例如通过反思式链式思维（CoT）推理示例训练模型，为后续更高效、更稳定的 RL 阶段打下良好开端。具体而言，我们整理出长 CoT 响应样本，这些样本涵盖数学、编程、STEM、写作、问答与多轮对话等广泛领域，其中数学与编程样本约占所有数据的 60%。这些高质量示例能帮助模型掌握复杂推理模式，为后续强化学习提供坚实起点。

3. 高效可扩展 RL：算法与闪电注意力

如图 1（右）所示，M1 架构在推理过程中展现出明显的效率优势。这意味着当生成长响应时，模型天然适合大规模 RL 训练。然而，作为使用混合架构开展大规模 RL 实验的先行者，我们也遇到了一系列独特挑战，如训练过程可能变得不稳定甚至崩溃。因此我们制定了针对性的解决方案，成功地在 M1 上实现可扩展 RL 训练。此外，我们还提出一种新的 RL 算法，在效率上优于现有方法。这些贡献共同构成了高效、可扩展的 M1 RL 框架，使我们仅需 512 张 H800 GPU、约 0.53 百万美元租用成本，三周便可完成完整训练。在这一节中，我们先介绍 RL 背景与我们的算法，然后描述混合架构中面临的挑战，以及对应解决方案。

3.1 使用 CISPO 实现高效 RL 扩展

背景
对数据集 $D$ 中的问题 $q$ ，我们用策略模型 $\pi_\theta$ 生成响应 $o$ 。PPO（Schulman 等，2017）的目标函数如下，其中截断操作被用于稳定训练：

$J_{PPO}(\theta) = \mathbb{E}_{q\sim D, o_i \sim \pi_{\theta_\text{old}}(\cdot|q)}\Big[ \min(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}(r_{i,t}(\theta),1-\epsilon,1+\epsilon)\hat{A}_{i,t})\Big]-\beta D_{KL}(\pi_\theta||\pi_\text{ref}), \quad (1)$

其中重要性采样权重为 $r_{i,t}(\theta)$ 。GRPO（Shao 等，2024）简化 PPO，不再使用价值模型，而是以相对奖励标准化得到优势：

$\hat{A}_{i,t} = \frac{R_i-\text{mean}({R_j}_{j=1}^G)}{\text{std}({R_j}_{j=1}^G)},\quad(2)$

截断的局限
我们在零 RL 实验中发现，GRPO 依赖截断损害训练效果，无法有效促进长 CoT 推理模式出现。这是因为“反思”类 token（如 However, Recheck, Wait, Aha）稀有且概率低，在更新中具有较大的 $r_{i,t}$ 权重，导致它们在首次更新后被截断掉，无法继续在离线更新中传递梯度。这一问题在混合架构中尤为明显，限制了可扩展 RL。这类低概率 token 恰恰是维持熵（Cui 等，2025）和可扩展 RL（Wang 等，2025）的关键因素，而 DAPO（Yu 等，2025）通过增大截断上界缓解问题的方法并不适用我们的任务。

CISPO 算法
为避免截断丢弃 token，我们设计一种新算法，称为 CISPO（Clipped IS-weight Policy Optimization），它只截断重要性权重，而不截断 token 梯度更新：

$J_{REINFORCE}(\theta) = \mathbb{E}_{(q,a)\sim D, o_i \sim \pi_{\theta_\text{old}}}\Big[\sum_{t=1}\text{sg}(r_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t}|q,o_{i,<t})\Big],\quad(3)$

其中 $\hat{r}_{i,t}(\theta)$ 定义为：

$\hat{r}_{i,t}(\theta) = \text{clip}(r_{i,t}(\theta),1-\epsilon_{IS\_low},1+\epsilon_{IS\_high}),\quad(5)$

在训练中我们只设上界 $\epsilon_{IS\_high}$ ，未对下界限制，这样保证梯度来源覆盖所有 token，减少方差并稳定训练。我们也采用 Yu 等（2025）的动态采样与长度惩罚策略，不再使用 KL 正则（Hu 等，2025；Yu 等，2025）。

通用统一表示
为了在相同框架中支持不同截断策略，我们引入 token 掩码：

$J_{unify}(\theta) = \mathbb{E}_{(q,a)\sim D}\Big[\sum_{i=1}^G\sum_{t=1}^{|o_i|}\text{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_\theta(o_{i,t}|q,o_{i,<t})M_{i,t}\Big],\quad(6)$

其中 $M_{i,t}$ 对应 PPO 中隐含的截断逻辑：

$M_{i,t}= \begin{cases} 0 & \hat{A}_{i,t}>0 \text{ 且 } r_{i,t}>1+\epsilon_{high} \\ 0 & \hat{A}_{i,t}<0 \text{ 且 } r_{i,t}<1-\epsilon_{low} \\ 1 & \text{其他情况} \end{cases},\quad(7)$

CISPO 实验验证
我们在零 RL 训练中对比 CISPO、DAPO、GRPO，在 Yu 等（2025）数学推理数据上训练 Qwen2.5-32B 模型，AIME 2024 性能如图 2 所示。结果显示 CISPO 大幅超越 DAPO 和 GRPO，且仅需一半训练步即可达到 DAPO 相同水平。
在这里插入图片描述

3.2 使用闪电注意力实现高效 RL 扩展：挑战与对策

如图 1（右）所示，混合注意力架构天然为 RL 扩展提供算力优势。然而，在大规模训练中我们也遇到新挑战并设计出对应解决方案如下。

训练与推理精度匹配
我们发现在训练与推理模式中模型 roll-out 时 token 概率出现显著差异（如图 3 左），导致训练中无法获得奖励提升。这源于训练与推理 kernel 精度不匹配，在模型 head 输出处出现大幅度激活偏差，而这在标准 softmax 注意力模型中不存在。为解决这一问题，我们将 LM head 输出精度提升至 FP32，如图 3（右）所示，训练与推理概率的相关度从 0.9x 提升至 0.99x，且训练中保持稳定，为奖励提升提供保障。
在这里插入图片描述

优化器超参数敏感性
我们采用 AdamW（Loshchilov 和 Hutter，2019），发现默认超参数设置（如 $\beta_1 = 0.9,\beta_2=0.999,\epsilon=1e-8$ ，VeRL 默认设置，Sheng 等，2024）可能导致训练不收敛（Molybog 等，2023），尤其当梯度范围广泛（从 $1 e - 18$ 到 $1 e - 5$ ，绝大部分梯度小于 $1 e - 14$ 且相邻迭代相关性低）时。因此我们将 $\beta_1$ 调整为 0.9， $\beta_2$ 调整为 0.95， $\epsilon$ 降低为 1e-15，从而提高训练稳定性。

上述调节的原理讲解：
为方便推导，先给出 AdamW 的标准一次更新公式（省略学习率调度与权重衰减 λ 项）：

$\begin{aligned} m_t &= \beta_1\,m_{t-1} + (1-\beta_1)\,g_t \\[2pt] v_t &= \beta_2\,v_{t-1} + (1-\beta_2)\,g_t^{2} \\[2pt] \hat m_t &= \frac{m_t}{1-\beta_1^{\,t}}, \qquad \hat v_t \;=\; \frac{v_t}{1-\beta_2^{\,t}} \\[4pt] \theta_{t+1} &= \theta_t\;-\;\eta\,\frac{\hat m_t}{\sqrt{\hat v_t} + \varepsilon} , \end{aligned}$

其中 $g_t=\nabla_{\theta}\mathcal L (\theta_t)$ 。AdamW 只是把 $-\lambda\theta_t$ 的权重衰减项放到与梯度估计解耦的位置，对下文讨论的 $\beta_1,\beta_2,\varepsilon$ 并无额外影响。

梯度幅值
题设给出的梯度范围 $10^{-18}\!\sim\!10^{-5}$ ，且大多数分量 $10^{-14}$ 。在 FP32 精度下，

$g_t^{2}\lesssim 10^{-28}\!-\!10^{-10}, \quad \sqrt{\hat v_t}\lesssim 10^{-14}\!-\!10^{-5}.$

而默认 $\varepsilon=10^{-8}$ 本身就高于绝大多数 $\sqrt{\hat v_t}$ ，导致分母几乎被 $\varepsilon$ 主导——适应性彻底丢失，AdamW 退化为一种「被统一缩放的动量 SGD」。
梯度时间相关性低
若相邻迭代的梯度方向相似度低，过大的 $\beta_2$ （记忆窗口太长）会让二阶动量 $v_t$ 含有大量与当前分布不匹配的陈旧方差信息；在低幅梯度下，这更易造成 $\hat v_t$ 被严重低估，进而让 $\hat m_t/\sqrt{\hat v_t}$ 放大，出现不稳定的大跳步（甚至 NaN）。

重复响应的早截断策略
在 RL 训练中，复杂提示可能触发模型进入病态长重复响应，这类长尾样本的梯度极大，影响模型稳定性。为避免浪费计算并提高稳定性，我们设计启发式提前截断机制，而非事后惩罚重复 token。我们观察到进入重复循环时 token 概率极高，因此当连续 3,000 个 token 概率均大于 0.99 时提前中止生成。这一方法能有效减少训练过程中的模型不稳定与吞吐开销。

4 使用多样化数据扩展强化学习规模

在本节中，我们介绍 RL 阶段所采用的数据与奖励设计。我们在 RL 训练流程中引入了多种环境，既包含可用确定性规则验证的任务，也包含需借助奖励模型评估的一般性任务，并通过精心设计的课程式策略将它们整合进 RL 阶段。

4.1 基于规则验证的高推理任务

数学推理

数据来源：数十万条公开与竞赛级高质量题目，配有标准答案。
清洗流程：去除残缺样本、格式错误；使用 Embedding 去重并确保与 SFT 数据零重叠；过滤多子题、证明题、真假题；选择 pass@10 介于 0–0.9 的样本。
规模：≈ 5 万条。

逻辑推理

任务：选择 41 个如密码破译、数独等非平凡逻辑任务。
SynLogic 框架：任务特定的生成器 + 规则校验器自动合成，动态调整难度；随模型能力提升逐步加大难度。
规模：≈ 5.3 万条。

竞赛编程

数据：公开 OJ/代码网站题目；缺失测试集的题目通过 LLM（MiniMax-Text-01）生成全面测试用例。
筛选：保留中等难度、高质量题目。
规模：≈ 3 万条。

软件工程

数据：参考 SWE-bench，从 GitHub 问题/PR 中提取 bug 定位、代码修复、测试生成场景。
环境：容器化沙盒执行真实代码；测试用例通过是否全部通过给出奖励。
规模：数千条，每条含问题描述、故障代码及测试集。

4.2 需模型反馈的一般领域任务

4.2.1 数据及奖励模型

总体规模：2.5 万条复合型样本。
带真值样本：多为 STEM / 事实类问题，答案客观但表达多样。采用生成式奖励模型 (GenRM) 五级评分。
无真值样本：包含指令跟随、创意写作等开放任务；先生成多模型答案并人工评估选出参考答案；训练时用成对比较 (−1/0/1) 评价。
约束任务：规则奖励（检查约束）+ 模型奖励（质量）。

4.2.2 缓解长链式推理奖励模型偏差

发现 GenRM 偏好冗长输出 → 奖励黑客风险。
离线措施：多样化长度与质量、加入对抗样例、改进架构。
在线措施：RL 期间监控长度偏置；若检测到“拉长文本”现象即在线校准 GenRM，并配合奖励整形、裁剪、归一化抑制非实质性奖励。

4.3 多样化数据的课程学习策略

阶段式混合：先仅训练可规则验证的推理任务，再逐步引入一般领域任务。
目标：避免遗忘数学/代码等可验证技能，同时提升在复杂指令与开放式推理上的泛化能力，在统一策略下实现“场景自适应”。

模块	关键要点	数据规模
规则可验任务	数学 50 K、逻辑 53 K、编程 30 K、软件工程若干千	≈ 14 万
一般任务	带真值 STEM & 事实、无真值指令/创作；GenRM 五级评分 + 成对比较	25 K
奖励设计	规则奖励（确定性通过/未通过）+ 生成式奖励模型；在线监控并校准长度偏置	—
课程策略	先推理密集、后混合一般任务；动态权重防遗忘、促泛化	—

5 将强化学习扩展到更长的“思考长度”

我们最初的 RL 训练将输出长度限制在 40 K tokens。由于 M1 混合架构在长序列上具备近线性扩展能力（见图 1，右），我们进一步把 RL 阶段的生成长度扩展到 80 K tokens，得到新模型 MiniMax-M1-80k。

数据构建

过滤基准：用已训练的 40 K 模型评估第 §4 节整理的数据集，通过 pass rate 剔除“易解”样本。
难度倾斜：增加高难数学与编程题比例；观察到合成推理数据会削弱长上下文稳定性后，对其进行下采样（因模型易陷入重复、同质化模式）。

长度扩展策略

采用 分阶段窗口扩张（40 K → 48 K → 56 K → 64 K → 72 K → 80 K）。
迁移时机 由经验指标决定：
1. 生成序列的困惑度 (perplexity) 收敛；
2. 输出长度 99 分位数接近当前窗口上限。
  这保证每一步都稳定后才继续扩大长度。

训练不稳定性的来源与解决

现象：在每个窗口后期，生成序列尾段出现模式坍缩，变为无意义字符，同时 perplexity 升高。
根因：负样本长度增长远快于正样本，先触达窗口上限 → 在序列后段累积过大负梯度；这与 GRPO 的优势归一化及 token 级损失的不对称性有关。

三项改进

重复模式早停：检测连续高概率 token，提前截断，避免无谓占用上下文窗口。
样本级损失 + token 级归一化：缓解正负样本不平衡，降低尾部负梯度冲击。
降低梯度裁剪阈值与 $ϵ^{IS}_{high}$ ：进一步稳固生成过程。

模块	关键举措 / 发现
目标	将 RL 输出长度从 40 K 扩展至 80 K，得到 MiniMax-M1-80k
数据策略	40 K 模型指导过滤；提升高难度样本比例；下采样易诱发重复的合成推理数据
扩长方法	分阶段窗口扩张：40 K → 48 K → 56 K → 64 K → 72 K → 80 K
迁移判据	(i) PPL 收敛 (ii) 输出长度 P99 逼近窗口上限
不稳定根因	负样本先达窗口极限 → 序列尾部负梯度过大 → 模式坍缩
三大缓解措施	1) 重复检测早停 2) 样本级损失+token 归一化 3) 更严格梯度裁剪与 $ϵ^{IS}_{high}$ 调整

6 评测结果

6.1 核心基准

我们在八大领域对 MiniMax-M1 系列模型进行了全面评测，采样设置为 temperature = 1.0、top-p = 0.95：

领域	评测集与说明
数学	MATH-500、AIME 2024、AIME 2025。AIME 取 32 次采样的平均 pass@tate。
通用编程	LiveCodeBench 与 FullStackBench，16 次采样取平均 passrate。
推理与知识	GPQA-Diamond、MMLU-Pro、HLE（不使用外部工具）、ZebraLogic。GPQA-Diamond 取 32 次采样平均分。
软件工程	SWE-bench Verified（Agentless scaffold）；两阶段文件定位（无向量检索）。
长上下文	OpenAI-MRCR 与 LongBench-v2（上下文 8 k–2 M 字）。
工具使用	TAU-bench（GPT-4.1 充当用户；系统通用 prompt；无自定义工具；最多 40 轮）。
事实性	SimpleQA。
通用助手	MultiChallenge（GPT-4o 评审）。

综合成绩亮点