首页
看点啥
插画图片
首页 热点时事 从M2到M3:MiniMax模型迭代轨迹与进化亮点【盘点】

从M2到M3:MiniMax模型迭代轨迹与进化亮点【盘点】

2026-06-07 0

MiniMax从M2到M3是架构级跃迁:M2.5至M2.7聚焦Agent筑基,实现MoE稀疏架构、200K上下文与模型自训练闭环;M3重写架构,首获百万上下文、原生多模态与基础设施层自主调优三大能力。

从M2到M3:MiniMax模型迭代历程与进化亮点【盘点】

你想快速理清MiniMax从M2系列到M3的演进逻辑,不是看泛泛而谈的“性能提升”,而是抓住每次迭代真正改变能力边界的硬核动作——比如M2.7首次把模型自身塞进训练闭环,M3则直接让模型接管CUDA内核调优。

M2系列:从高性能通用走向Agent原生

MiniMax M2系列始于2025年12月,以M2.5为起点,5个月内完成三代跃迁,核心目标是为Agent场景筑底。

第一步:M2.5确立MoE稀疏架构与200K上下文,激活参数仅100亿,总参2300亿,首次在国产模型中实现“小激活、大容量”平衡;

第二步:M2.7(2026年3月18日发布)引入【全球首个将模型深度融入自身训练循环】机制,可自主完成“分析→修改→评测→优化”闭环,人类只需设定目标,不干预中间过程;

第三步:M2.7专为OpenClaw(龙虾)生态优化,工具调用响应延迟降低42%,多智能体协作任务失败率下降至6.3%,明显优于同期M2.5的19.7%。

M3:三大能力合一,定义Frontier三件套

M3不是M2的简单升级,而是架构重写级重构——它同时拿下三项此前仅被GPT-5.5、Claude Opus 4.7、Gemini 3.1垄断的能力:百万级上下文、原生多模态、顶尖Agentic能力。

方法一:用MSA稀疏注意力替代全注意力,使100万token上下文单token计算量仅为M2的【1/20】,预填充加速超9倍,解码加速超15倍;

方法二:多模态不再拼接视觉模块,而是从预训练第一轮就混入图文视频数据,训练数据规模推至100T+,OmniDocBench得分超越Gemini 3.1 Pro;

方法三:Agent能力实测中,M3在Claw-Eval端到端评测中排名第一,且能连续24小时自主优化CUDA内核,将Hopper GPU上FP8矩阵乘法的硬件峰值利用率从7.6%提升至71.3%。

关键进化节点对比

M2.7的自我进化仍限于模型层闭环:给定一个数学题集,它能生成新题、筛选难度、重排训练顺序;

M3则突破到【基础设施层自主调优】:它不只改模型权重,还主动调用nvcc、nsys、cuobjdump等1959次底层工具,重写Triton kernel代码,最终提交147版benchmark;

在PostTrainBench测试中,M3用12小时无人干预训练出4个新模型,覆盖数学推理、代码生成等五项基础能力,得分0.37,仅次于Opus 4.7(0.42)和GPT-5.5(0.39)。

喜欢(0)

上一篇

吉利中国星i-HEV智擎混动武汉节油赛:真实路况实测超低油耗实力

吉利中国星i-HEV智擎混动武汉节油赛:真实路况实测超低油耗实力

下一篇

DeepSeek的改写朋友圈文案提示词

DeepSeek的改写朋友圈文案提示词
猜你喜欢