Nemotron-Labs-TwoTower - 英伟达开源的双塔结构扩散语言模型

2026-07-03 0

Nemotron-Labs-TwoTower是什么

NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型，总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔，冻结的AR上下文塔处理干净token，可训练的扩散去噪塔通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建，训练约2.1T tokens，保留自回归基线98.7%质量，生成吞吐量提升2.42倍，支持Mask Diffusion、Mock-AR与AR-only三种推理模式。

Nemotron-Labs-TwoTower的主要功能

双塔分离推理：将上下文编码与去噪生成分解为两个独立模块，避免单一网络”身兼两职”的性能瓶颈。
三种推理模式切换：单一检查点支持 Mask Diffusion、Mock-AR与 AR-only，灵活适配不同场景需求。
高质量文本生成：在保留自回归基线 98.7% 聚合基准质量的前提下，实现可并行的迭代生成。
高吞吐生成加速：2×H100 环境下生成吞吐量提升 2.42 倍，显著降低推理延迟与计算成本。
商用级开源部署：用NVIDIA Nemotron Open Model License 开源权重，支持企业商用与二次开发。

Nemotron-Labs-TwoTower的技术原理

核心思想：传统扩散语言模型使用单一网络同时承担”上下文理解”和”迭代去噪”两个角色，导致两者互相掣肘。TwoTower 将这两个职责解耦为双塔架构：
- 上下文塔（Context Tower）：冻结的 Nemotron-3-Nano-30B-A3B，采用因果注意力因果处理干净 token，负责高质量的上下文表示编码。
- 去噪塔（Denoiser Tower）：可训练模块，采用双向块注意力处理带噪声的 token 块，通过交叉注意力从上下文塔获取语义指导，逐步精炼去噪。
训练方式：基于 30B 混合 Mamba-Transformer MoE 骨架，在约 2.1T tokens 上训练，用 MoE 稀疏激活实现高效计算。
推理优势：扩散模型的并行迭代特性天然支持加速解码，双塔分离后去噪塔无需重复编码上下文，在保证质量的同时大幅提升 wall-clock 吞吐量。

微信关注回复“开源”，加入AI开源项目交流群

如何使用Nemotron-Labs-TwoTower

访问 HuggingFace 模型页：打开 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方仓库页面。
阅读模型卡与许可：确认 NVIDIA Nemotron Open Model License 商用条款，了解模型架构与硬件要求。
克隆/下载权重：用 git lfs 或 HuggingFace transformers 库下载模型权重与配置文件。
配置运行环境：准备至少 2×H100 GPU 环境，安装 PyTorch 及依赖库（参考仓库 requirements.txt）。
加载模型与分词器：通过 AutoModelForCausalLM 和 AutoTokenizer 加载模型，选择 Mask Diffusion / Mock-AR / AR-only 推理模式。
执行推理生成：输入 prompt，调用模型生成接口，利用双塔架构完成高效并行去噪生成。
微调适配：基于自有数据对可训练的去噪塔进行进一步微调，冻结上下文塔保持不变。

Nemotron-Labs-TwoTower的核心优势

双塔解耦，各司其职：将上下文编码与去噪生成分离为两个独立塔，避免单一网络角色冲突导致的性能瓶颈。
质量几乎无损：保留自回归基线 98.7% 的聚合基准质量，扩散生成不再以牺牲输出质量为代价。
推理速度翻倍：在 2×H100 环境下实现 2.42 倍 wall-clock 生成吞吐量，显著降低延迟与算力成本。
一模型三模式：单一检查点支持 Mask Diffusion、Mock-AR、AR-only 三种推理方式，灵活适配不同延迟与质量需求场景。
开源可商用：用 NVIDIA Nemotron Open Model License 发布权重，支持企业自由部署与商业二次开发。

Nemotron-Labs-TwoTower的项目地址

HuggingFace模型库：https://huggingface.co/collections/nvidia/nemotron-labs-twotower
arXiv技术论文：https://arxiv.org/pdf/2606.26493

Nemotron-Labs-TwoTower的同类竞品对比

对比维度Nemotron-Labs-TwoTowerLLaDA发布机构NVIDIAMIT架构设计双塔分离：冻结AR上下文塔 + 可训练扩散去噪塔（交叉注意力连接）单塔统一：单一Transformer同时承担上下文编码与掩码去噪总参数量~60B（活跃3B，MoE稀疏）8B（稠密）基座模型Nemotron-3-Nano-30B-A3B（Mamba-Transformer MoE）自研Transformer训练数据~2.1T tokens~2T tokens基线质量保留98.7%（相对自回归基线）~95%（相对同等规模AR模型）吞吐提升2.42×（2×H100，wall-clock）~1.5×（标准GPU环境）推理模式三种：Mask Diffusion / Mock-AR / AR-only单一：掩码扩散（随机/半自回归采样）注意力机制上下文塔：因果注意力；去噪塔：双向块注意力 + 交叉注意力统一双向注意力 + 位置编码处理核心创新角色解耦：避免单一网络”身兼两职”的性能瓶颈简单 scalable：证明扩散模型可scale至8B并逼近GPT-4质量

Nemotron-Labs-TwoTower的应用场景

高并发在线服务：2.42倍吞吐提升使其适合搜索引擎、智能客服等需要低延迟、高并发的实时文本生成场景。
长文档生成：扩散模型的并行迭代特性适合长文本续写、报告生成、代码补全等需要多步 refine 的任务。
多模式灵活部署：三种推理模式切换让企业可根据成本/质量权衡，在边缘端用 AR-only、在云端用 Mask Diffusion。
商用产品开发：模型可商用许可支持企业将模型集成至写作助手、营销文案生成器、代码辅助工具等商业化产品。
科研与二次创新：开源权重与论文细节便于研究者探索扩散语言模型架构、训练策略及跨模态扩展方向。

喜欢(0)

Astryx - Meta 开源 React 设计系统

2000余智算产业代表齐聚深圳，2026中国智算产业生态发展年会成功举办！