首页
看点啥
插画图片
首页 看点啥 Nemotron-Labs-TwoTower - 英伟达开源的双塔结构扩散语言模型

Nemotron-Labs-TwoTower - 英伟达开源的双塔结构扩散语言模型

2026-07-03 0

Nemotron-Labs-TwoTower是什么

NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下文塔处理干净token,可训练的扩散去噪塔通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建,训练约2.1T tokens,保留自回归基线98.7%质量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR与AR-only三种推理模式。

Nemotron-Labs-TwoTower的主要功能

Nemotron-Labs-TwoTower的技术原理

微信关注回复“开源”,加入AI开源项目交流群

如何使用Nemotron-Labs-TwoTower

Nemotron-Labs-TwoTower的核心优势

Nemotron-Labs-TwoTower的项目地址

Nemotron-Labs-TwoTower的同类竞品对比

对比维度Nemotron-Labs-TwoTowerLLaDA发布机构NVIDIAMIT架构设计双塔分离:冻结AR上下文塔 + 可训练扩散去噪塔(交叉注意力连接)单塔统一:单一Transformer同时承担上下文编码与掩码去噪总参数量~60B(活跃3B,MoE稀疏)8B(稠密)基座模型Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE)自研Transformer训练数据~2.1T tokens~2T tokens基线质量保留98.7%(相对自回归基线)~95%(相对同等规模AR模型)吞吐提升2.42×(2×H100,wall-clock)~1.5×(标准GPU环境)推理模式三种:Mask Diffusion / Mock-AR / AR-only单一:掩码扩散(随机/半自回归采样)注意力机制上下文塔:因果注意力;去噪塔:双向块注意力 + 交叉注意力统一双向注意力 + 位置编码处理核心创新角色解耦:避免单一网络”身兼两职”的性能瓶颈简单 scalable:证明扩散模型可scale至8B并逼近GPT-4质量

Nemotron-Labs-TwoTower的应用场景

喜欢(0)

上一篇

Astryx - Meta 开源 React 设计系统

Astryx - Meta 开源 React 设计系统

下一篇

2000余智算产业代表齐聚深圳,2026中国智算产业生态发展年会成功举办!

2000余智算产业代表齐聚深圳,2026中国智算产业生态发展年会成功举办!
猜你喜欢