NVIDIA公布Nemotron_3_Ultra模型优化复杂工作流

2026-06-06 0

6月5日，NVIDIA正式发布Nemotron 3 Ultra——一款面向高复杂度工作流的开源混合专家（MoE）大模型。该模型总参数量达5500亿，每次推理激活参数为550亿，专为应对长周期、高负载任务中的性能瓶颈与部署成本难题而打造。依托先进的推理优化策略与创新性架构设计，其在维持顶尖精度的前提下，推理吞吐能力相较主流开源同类模型提升达5倍，同时可将端到端任务执行成本最高压缩30%。

模型融合多项关键技术：采用兼顾长程建模能力与计算效率的Mamba-Transformer混合架构，支持超长上下文理解；引入多Token预测（MTP）机制，显著加快文本生成速度；并原生适配NVFP4低精度格式，全面兼容各类NVIDIA GPU硬件平台。与此同时，NVIDIA还同步推出Nemotron 3.5内容安全检测模型与多语言语音识别模型，分别聚焦于AI生成内容合规审查与跨语种实时语音转写等关键应用场景。

为加速产业落地，Nemotron全系列模型严格遵循OpenMDL-1.1开源许可协议，全面开放模型权重、训练数据集及完整训练配置方案。开发者既可通过Hugging Face平台直接获取模型资源，也可借助NVIDIA NIM微服务框架，或在主流云服务商平台上快速集成，高效构建兼具安全性与高性能的智能自动化工作流。

喜欢(0)

QoderWake环境搭建：如何构建极简高效的编程界面

通义灵码兼容PyCharm吗_JetBrains全家桶安装教程

NVIDIA公布Nemotron_3_Ultra模型 优化复杂工作流

NVIDIA公布Nemotron_3_Ultra模型优化复杂工作流