VibeThinker-3B是什么
VibeThinker-3B是新浪微博团队开源的 30 亿参数密集推理模型,基于 Qwen2.5-Coder-3B 构建,通过升级版 Spectrum-to-Signal 后训练流程,在数学、编程等可验证推理任务上达到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同级性能,探索小模型能力边界并与传统 Scaling Law 形成互补。
![]()
VibeThinker-3B的主要功能
- 高难度数学推理:在 AIME’26 达 94.3 分,HMMT’25 达 89.3 分,BruMO’25 达 93.8 分。
- 竞技编程:LiveCodeBench v6 达 80.2 Pass@1,LeetCode 最新周赛/双周赛通过率高达 96.1%。
- STEM 推理:在 IMO-AnswerBench 达 76.4 分(+CLR 提升至 80.6),支持复杂科学问题求解。
- 指令遵循:IFBench 达 74.5 分,具备格式敏感和约束检查能力。
- 测试时缩放(CLR):引入 Claim-Level 可靠性评估策略,可在推理阶段进一步提升答案可靠性。
VibeThinker-3B的技术原理
- 基座模型:基于 Qwen2.5-Coder-3B 构建,30亿参数密集架构未做改动,全部性能提升来自后训练技术栈的极致优化。
- Spectrum-to-Signal 范式:核心训练流程分为”频谱阶段”(SFT 扩展能力覆盖)与”信号阶段”(RLVR 精准优化可验证任务)。
- 两阶段课程 SFT:第一阶段广泛覆盖数学、编程、STEM 和对话能力,第二阶段聚焦高难度长推理样本,逐步递进提升深度。
- 多样性探索蒸馏:不追求单一最优解,而是保留多个有效推理路径,增强模型在复杂问题上的泛化能力。
- MGPO 强化学习:在 GRPO 基础上增加额外权重,优先选择对当前策略”既不太易也不太难”的样本进行优化。
- 多领域顺序 RL:严格按 Math → Code → STEM 的顺序依次进行强化学习,实验发现此顺序对整体效果最优。
![]()
微信关注回复“开源”,加入AI开源项目交流群
如何使用VibeThinker-3B
- 下载模型:访问 HuggingFace 或 GitHub 仓库获取模型权重。
- 本地部署:基于 transformers 等框架加载 3B 参数模型,支持消费级硬件运行。
- 调用推理:输入数学、编程或 STEM 类问题,模型将输出带完整推理链(CoT)的答案。
- 启用 CLR(可选):对数学类任务可开启 Claim-Level 可靠性评估,进一步提升准确率。
VibeThinker-3B的核心优势
- 极小参数,前沿性能:仅 3B 参数即可对标千亿级前沿模型在可验证推理任务上的表现。
- 课程式两阶段 SFT:从广泛能力覆盖到高难度长推理样本,逐步提升推理深度。
- 多领域 RL 强化:按 Math → Code → STEM 顺序依次进行强化学习,保留完整 64K 长上下文推理轨迹。
- 离线自蒸馏:筛选高质量轨迹进行统一蒸馏,优先学习学生模型尚未掌握的正确路径。
VibeThinker-3B的项目地址
- GitHub仓库:https://github.com/WeiboAI/VibeThinker
- HuggingFace模型库:https://huggingface.co/WeiboAI/VibeThinker-3B
- arXiv技术论文:https://arxiv.org/pdf/2606.16140
VibeThinker-3B的同类竞品对比
维度 | VibeThinker-3B | Claude Opus 4.5 | 开发方新浪微博 AI 团队Anthropic
参数规模3B(密集模型)未公开(推测数百B~千亿级)
开源程度完全开源(论文+代码+权重)闭源(仅 API/产品)
部署方式本地消费级 GPU 可运行仅云端 API
定位可验证推理专用引擎通用智能助手
VibeThinker-3B的应用场景
- 算法竞赛备赛:辅助解答 AIME、HMMT、IMO 等数学竞赛题目,提供多路径推理参考。
- 编程面试训练:刷 LeetCode、LiveCodeBench 等编程题,获取带详细解释的正确解法。
- STEM 教育辅导:为物理、化学、生物等理科问题提供逐步推导的解题过程。
- 边缘端推理部署:因模型仅 3B 参数,适合手机、IoT 设备等低算力环境本地运行。
- 推理能力研究:作为小模型推理上限的探索基准,供学术界研究 Scaling Law 的替代路径。