VibeThinker-3B - 微博开源 30 亿参数密集推理模型-45看点

VibeThinker-3B是什么

VibeThinker-3B是新浪微博团队开源的 30 亿参数密集推理模型，基于 Qwen2.5-Coder-3B 构建，通过升级版 Spectrum-to-Signal 后训练流程，在数学、编程等可验证推理任务上达到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同级性能，探索小模型能力边界并与传统 Scaling Law 形成互补。

VibeThinker-3B的主要功能

高难度数学推理：在 AIME’26 达 94.3 分，HMMT’25 达 89.3 分，BruMO’25 达 93.8 分。

竞技编程：LiveCodeBench v6 达 80.2 Pass@1，LeetCode 最新周赛/双周赛通过率高达 96.1%。

STEM 推理：在 IMO-AnswerBench 达 76.4 分（+CLR 提升至 80.6），支持复杂科学问题求解。

指令遵循：IFBench 达 74.5 分，具备格式敏感和约束检查能力。

测试时缩放（CLR）：引入 Claim-Level 可靠性评估策略，可在推理阶段进一步提升答案可靠性。

VibeThinker-3B的技术原理

基座模型：基于 Qwen2.5-Coder-3B 构建，30亿参数密集架构未做改动，全部性能提升来自后训练技术栈的极致优化。

Spectrum-to-Signal 范式：核心训练流程分为”频谱阶段”（SFT 扩展能力覆盖）与”信号阶段”（RLVR 精准优化可验证任务）。

两阶段课程 SFT：第一阶段广泛覆盖数学、编程、STEM 和对话能力，第二阶段聚焦高难度长推理样本，逐步递进提升深度。

多样性探索蒸馏：不追求单一最优解，而是保留多个有效推理路径，增强模型在复杂问题上的泛化能力。

MGPO 强化学习：在 GRPO 基础上增加额外权重，优先选择对当前策略”既不太易也不太难”的样本进行优化。

多领域顺序 RL：严格按 Math → Code → STEM 的顺序依次进行强化学习，实验发现此顺序对整体效果最优。

微信关注回复“开源”，加入AI开源项目交流群

如何使用VibeThinker-3B

下载模型：访问 HuggingFace 或 GitHub 仓库获取模型权重。

本地部署：基于 transformers 等框架加载 3B 参数模型，支持消费级硬件运行。

调用推理：输入数学、编程或 STEM 类问题，模型将输出带完整推理链（CoT）的答案。

启用 CLR（可选）：对数学类任务可开启 Claim-Level 可靠性评估，进一步提升准确率。

VibeThinker-3B的核心优势

极小参数，前沿性能：仅 3B 参数即可对标千亿级前沿模型在可验证推理任务上的表现。

课程式两阶段 SFT：从广泛能力覆盖到高难度长推理样本，逐步提升推理深度。

多领域 RL 强化：按 Math → Code → STEM 顺序依次进行强化学习，保留完整 64K 长上下文推理轨迹。

离线自蒸馏：筛选高质量轨迹进行统一蒸馏，优先学习学生模型尚未掌握的正确路径。

VibeThinker-3B的应用场景

算法竞赛备赛：辅助解答 AIME、HMMT、IMO 等数学竞赛题目，提供多路径推理参考。

编程面试训练：刷 LeetCode、LiveCodeBench 等编程题，获取带详细解释的正确解法。

STEM 教育辅导：为物理、化学、生物等理科问题提供逐步推导的解题过程。

边缘端推理部署：因模型仅 3B 参数，适合手机、IoT 设备等低算力环境本地运行。

推理能力研究：作为小模型推理上限的探索基准，供学术界研究 Scaling Law 的替代路径。

古代中国女子电影感视频提示词

2026-06-30 3373426

VibeThinker-3B - 微博开源 30 亿参数密集推理模型