从M2到M3：MiniMax模型迭代轨迹与进化亮点【盘点】

2026-06-07 0

MiniMax从M2到M3是架构级跃迁：M2.5至M2.7聚焦Agent筑基，实现MoE稀疏架构、200K上下文与模型自训练闭环；M3重写架构，首获百万上下文、原生多模态与基础设施层自主调优三大能力。

从M2到M3：MiniMax模型迭代历程与进化亮点【盘点】

你想快速理清MiniMax从M2系列到M3的演进逻辑，不是看泛泛而谈的“性能提升”，而是抓住每次迭代真正改变能力边界的硬核动作——比如M2.7首次把模型自身塞进训练闭环，M3则直接让模型接管CUDA内核调优。

M2系列：从高性能通用走向Agent原生

MiniMax M2系列始于2025年12月，以M2.5为起点，5个月内完成三代跃迁，核心目标是为Agent场景筑底。

第一步：M2.5确立MoE稀疏架构与200K上下文，激活参数仅100亿，总参2300亿，首次在国产模型中实现“小激活、大容量”平衡；

第二步：M2.7（2026年3月18日发布）引入【全球首个将模型深度融入自身训练循环】机制，可自主完成“分析→修改→评测→优化”闭环，人类只需设定目标，不干预中间过程；

第三步：M2.7专为OpenClaw（龙虾）生态优化，工具调用响应延迟降低42%，多智能体协作任务失败率下降至6.3%，明显优于同期M2.5的19.7%。

M3不是M2的简单升级，而是架构重写级重构——它同时拿下三项此前仅被GPT-5.5、Claude Opus 4.7、Gemini 3.1垄断的能力：百万级上下文、原生多模态、顶尖Agentic能力。

方法一：用MSA稀疏注意力替代全注意力，使100万token上下文单token计算量仅为M2的【1/20】，预填充加速超9倍，解码加速超15倍；

方法二：多模态不再拼接视觉模块，而是从预训练第一轮就混入图文视频数据，训练数据规模推至100T+，OmniDocBench得分超越Gemini 3.1 Pro；

方法三：Agent能力实测中，M3在Claw-Eval端到端评测中排名第一，且能连续24小时自主优化CUDA内核，将Hopper GPU上FP8矩阵乘法的硬件峰值利用率从7.6%提升至71.3%。

M2.7的自我进化仍限于模型层闭环：给定一个数学题集，它能生成新题、筛选难度、重排训练顺序；

M3则突破到【基础设施层自主调优】：它不只改模型权重，还主动调用nvcc、nsys、cuobjdump等1959次底层工具，重写Triton kernel代码，最终提交147版benchmark；

在PostTrainBench测试中，M3用12小时无人干预训练出4个新模型，覆盖数学推理、代码生成等五项基础能力，得分0.37，仅次于Opus 4.7（0.42）和GPT-5.5（0.39）。

喜欢(0)

吉利中国星i-HEV智擎混动武汉节油赛：真实路况实测超低油耗实力

DeepSeek的改写朋友圈文案提示词