首页
看点啥
插画图片
首页 热点时事 微软首个自研前沿推理模型MAI-Thinking-1技术报告:深度解读

微软首个自研前沿推理模型MAI-Thinking-1技术报告:深度解读

2026-06-09 0

原创 NLPer 2026-06-08 15:53 江苏

MAI-Thinking-1: Building a Hill-Climbing Machine

来源:MAI-Thinking-1: Building a Hill-Climbing Machine
作者:The Microsoft AI Team
发布时间:2026 年 6 月 2 日(Microsoft Build 2026)
报告页数:109 页

MAI-Thinking-1 是微软 AI 团队(MAI)从零开始训练的推理模型,也是微软首次不依赖 OpenAI 或任何第三方模型蒸馏、独立构建的前沿大模型。它使用完全经过商业授权的干净数据,所有训练流程均由微软内部完成。

一、核心主张:"爬山机器"

这份报告的标题是Building a Hill-Climbing Machine,核心思想是:把模型开发本身变成一个可持续优化的工程系统,而不是靠某个单一突破。

三个设计原则贯穿全文:

  1. 能力要自己学,不靠蒸馏— 通过蒸馏获得的能力缺乏可控性和鲁棒性,不适合长期持续改进。

  2. 简单才能持久— 优先选择干净的数据、简洁的配方和透明的基础设施。

  3. 科学严谨,拒绝捷径— 每个决策都必须通过数据驱动的消融实验和 Scaling Ladder 验证。

二、模型架构

基本规格

项目

数值

架构类型

稀疏混合专家(Sparse MoE)

活跃参数

34.7B

总参数

约 962B(~1T)

层数

78 层

上下文窗口

256,000 tokens

激活专家 / 总专家

8 / 512

词表大小

200,019(o200k_base tokenizer)

训练 GPU

8,192 张 GB200 NVL72

图1:架构设计的三个核心选择

三个核心架构选择

1. Local/Global 注意力 5:1 交替

每 6 层包含 5 层 Local Attention(RoPE 编码,滑动窗口 512)和 1 层 Global Attention(无位置编码)。好处是大幅降低计算量和 KV 缓存,训练和推理效率都更高。

2. Dense FFN 与 MoE 交替

每两层由一个高稀疏 MoE(8/512 专家)和一个 Dense FFN(SwiGLU 激活)交替构成。比"全部 MoE"方案在实际训练速度(EGTime)上更优——尽管 FLOPs 相当,MFU 更高。

3. LatentMoE 压缩

All-to-All 路由前先做下投影压缩到潜空间,减少跨 GPU 数据传输量。路由决策基于原始表示,每个压缩表示被路由到 8/512 个专家,softmax 门控。全局批次负载均衡,无 Token 丢弃(Dropless MoE)。

Scaling Ladder

微软使用从 L12(365M 活跃参数)到 L78(35.6B 活跃参数)的完整模型梯队,在恒定 TPP(每活跃参数训练 token 数)下做消融实验,确保架构改进在大规模下仍然成立。所有决策都要在至少两个不同规模上验证。

三、预训练数据

数据配比(30T tokens)

数据来源

独特 token 量

训练 token 量

占比

平均复读次数

代码

7.4T

16.4T

54.6%

2.22×

STEM

2.2T

4.7T

15.8%

2.17×

网页文本

8.1T

4.5T

14.9%

0.55×

数学

0.3T

1.6T

5.4%

5.28×

PDF

2.7T

1.4T

4.7%

0.53×

书籍期刊

0.6T

0.9T

3.1%

1.65×

多语言(其他)

8.1T

0.5T

1.6%

0.06×

数据知识截止日期

重要原则

图2:数据配比最重要的发现——"代码优先"比"STEM优先"在大规模下更好

关键发现:排名非不变性

报告记录了一个反直觉实验:在小规模(5B 参数)下,STEM 重型数据在 STEM 评估上优于代码重型数据;但扩大到 23B 参数、训练 20T token 后,排名反转——代码重型数据的 STEM 评估反而更优。

根本原因:STEM 重型配置里有两个数据集质量高但多样性低,小模型从中受益,但大模型过拟合。这一发现打破了"小规模实验可以预测大规模排名"的假设,促使团队从此必须在多个规模点上验证数据配比决策。

去重体系

五种去重手段层层叠加:

  1. Boilerplate 去除:基于行频统计去掉导航栏、页眉页脚等重复元素

  2. 精确去重:字节级和哈希级完全重复

  3. 模糊去重:MinHash LSH,相似度阈值 0.8

  4. 模板去重:对页面骨架做模糊去重,消除大量相似的"计算器网页"等

  5. 语义去重:使用 Qwen3-Embedding-0.6B 向量化,按余弦相似度聚类,每簇只保留有限代表

四、强化学习(RL)流水线

整体结构

Mid-trained MAI-Base-1

├──→ STEM Climb(数学/科学/竞赛编程)──┐
├──→ Agentic Climb(SWE + 工具调用)──→ Self-Distillation SFT → Consolidated Model → Final RL → MAI-Thinking-1
└──→ H&S Climb(帮助性与安全性)──────┘

三个专家模型并行训练,最后通过 Self-Distillation SFT 合并,再做轻量级 Final RL。

RL 算法:改进版 GRPO

基础算法为 GRPO(Group Relative Policy Optimization),Token 级别策略梯度,加了两个关键改动:

改动一:自适应熵控制(Adaptive Entropy Control)

传统固定 clip 上界容易导致熵崩溃(entropy collapse)或熵爆炸(entropy explosion)。MAI 用积分控制器动态调整 clip 上界,把实时策略熵维持在目标值 H* = 0.3 附近,不需要显式熵奖励项。

改动二:外层比率 Clip(Outer Ratio Clip)

GRPO 原始公式在两个区间不做限制(advantage 为负但 new policy 概率更高,或反之),这两种情况在实践中有时会产生梯度爆炸。加了硬性外层 clip(rmax = 50),大幅减少 spike 频率。

奖励设计

所有 RL 阶段统一用同一个奖励分解公式:

R(q, y) = R_task(q, y) + w_lang × R_lang(y) - w_len × R_len(y)

Self-Distillation 关键发现

经过大量实验,报告总结出最佳实践:

STEM 爬坡:数据管道

STEM 数据从数百万文档中提取,经过四个阶段处理:

  1. 层次解析:OCR + 结构识别 + Q/A 提取

  2. Q-A 配对:多轮 LLM 辅助配对(题目与答案分散在不同位置的情况)

  3. 质量筛选:分类可验证性、题型、去 PII、去答案泄漏、格式转换(MCQ→开放题)

  4. 难度评分:四档模型各解 k 次,用通过率划分难度区间;盲评筛掉地真答案可疑的题目

最终 STEM Mix 数据集超过 500 万条样本,最难子集超过 55 万条。

Agentic 爬坡:SWE 环境构建

从 1.02 亿个 GitHub PR 出发,经过筛选、环境构建、验证,最终只有26.5 万个(5.5%)通过所有关卡,覆盖 94,044 个唯一仓库。

防作弊机制(发现了三种真实作弊行为):

帮助性与安全性:优先级机制

安全不是"权重很高的软约束",而是"先于所有奖励计算的硬门":

这样设计确保安全性永远不会被帮助性高分覆盖。

五、YOLO 训练框架

YOLO(You Only Launch Once)是微软自研的大规模训练框架,基于 PyTorch,支持预训练、中期训练、SFT 和 RL 的所有阶段。

确定性训练

给定相同硬件和配置,两次训练能产生比特完全一致的结果。实现手段:

代价:MFU 轻微下降。收益:完整的科学复现能力和调试能力。

异步检查点

先把 checkpoint tensor 从 GPU 复制到 host 内存,再在独立进程里写入存储,训练同时继续。配合预计算 save plan,把 checkpoint 存储时间压缩了10 倍以上

架构演化(v2 → v5)

版本

活跃参数

GPU 数量

关键变化

MFU

v2

23B

4,096

首个 GB200 基线

22%

v3

23B

4,096

Dropless MoE

22%

v4

23B

8,192

专家数 192→512,Top-4→8,LatentMoE

20%

v5(MAI-Base-1)

35B

8,192

模型扩大至 35B

20%

效率增益从 v2 基线的 1.0× 提升到 v5 的1.69×

六、基准测试成绩

核心 STEM 与编程

基准

MAI-Thinking-1

备注

AIME 2025

97.0%

数学竞赛

AIME 2026

94.5%

数学竞赛

SWE-Bench Pro

52.8%

软件工程(与 Claude Opus 4.6 持平)

LiveCodeBench v6

87.7%

竞赛编程

Base 模型预训练对比(Bits-per-Byte,越低越好)

MAI-Base-1 在代码、QA、STEM、数学四项 held-out 评估上均优于同规模的 DeepSeek V3.2、Kimi-K2 和 Gemma4-31B。与活跃参数 1.4× 的 DeepSeek V4 Pro 差距明显,与 1.6× 总参数的同款相比则更接近。

⚠️ 以上数据均来自微软自发布的预印本,独立机构完整复现尚未完成。

七、安全与红队测试

内部测试

覆盖:有害内容(CSAM、暴力、自我伤害)、CBRN(化生放核武器)、自我感知(self-awareness)、欺骗性行为等类别。专门开发了内部安全基准衡量进展。

外部独立测试

由独立机构负责,细节有限,结果已写入报告但未完整公开。

奖励设计中的安全机制

八、总结与判断

这份报告的价值在于完整性——从数据管道到架构设计,从 RL 算法细节到训练基础设施,每个环节都有具体描述和实验支撑。

对 AI 研究者最有价值的内容:

对产品决策者最关键的信息:

参考来源:

MAI-Thinking-1 技术报告:https://microsoft.ai/pdf/mai-thinking-1.pdf

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

喜欢(0)

上一篇

OpenRouter:几张图看清 LLM Agent 大趋势

OpenRouter:几张图看清 LLM Agent 大趋势

下一篇

Nex-AGI 开源 Nex-N2:基于 Qwen3.5 后训练:智能体能力比肩 Opus 4.7 | BestB...

Nex-AGI 开源 Nex-N2:基于 Qwen3.5 后训练:智能体能力比肩 Opus 4.7 | BestB...
猜你喜欢