Nemotron-Labs-TwoTower是什么
NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下文塔处理干净token,可训练的扩散去噪塔通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建,训练约2.1T tokens,保留自回归基线98.7%质量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR与AR-only三种推理模式。

Nemotron-Labs-TwoTower的主要功能
- 双塔分离推理:将上下文编码与去噪生成分解为两个独立模块,避免单一网络”身兼两职”的性能瓶颈。
- 三种推理模式切换:单一检查点支持 Mask Diffusion、Mock-AR与 AR-only,灵活适配不同场景需求。
- 高质量文本生成:在保留自回归基线 98.7% 聚合基准质量的前提下,实现可并行的迭代生成。
- 高吞吐生成加速:2×H100 环境下生成吞吐量提升 2.42 倍,显著降低推理延迟与计算成本。
- 商用级开源部署:用NVIDIA Nemotron Open Model License 开源权重,支持企业商用与二次开发。
Nemotron-Labs-TwoTower的技术原理
- 核心思想:传统扩散语言模型使用单一网络同时承担”上下文理解”和”迭代去噪”两个角色,导致两者互相掣肘。TwoTower 将这两个职责解耦为双塔架构:
- 上下文塔(Context Tower):冻结的 Nemotron-3-Nano-30B-A3B,采用因果注意力因果处理干净 token,负责高质量的上下文表示编码。
- 去噪塔(Denoiser Tower):可训练模块,采用双向块注意力处理带噪声的 token 块,通过交叉注意力从上下文塔获取语义指导,逐步精炼去噪。
- 训练方式:基于 30B 混合 Mamba-Transformer MoE 骨架,在约 2.1T tokens 上训练,用 MoE 稀疏激活实现高效计算。
- 推理优势:扩散模型的并行迭代特性天然支持加速解码,双塔分离后去噪塔无需重复编码上下文,在保证质量的同时大幅提升 wall-clock 吞吐量。

微信关注回复“开源”,加入AI开源项目交流群
如何使用Nemotron-Labs-TwoTower
- 访问 HuggingFace 模型页:打开 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方仓库页面。
- 阅读模型卡与许可:确认 NVIDIA Nemotron Open Model License 商用条款,了解模型架构与硬件要求。
- 克隆/下载权重:用
git lfs 或 HuggingFace transformers 库下载模型权重与配置文件。 - 配置运行环境:准备至少 2×H100 GPU 环境,安装 PyTorch 及依赖库(参考仓库
requirements.txt)。 - 加载模型与分词器:通过
AutoModelForCausalLM 和 AutoTokenizer 加载模型,选择 Mask Diffusion / Mock-AR / AR-only 推理模式。 - 执行推理生成:输入 prompt,调用模型生成接口,利用双塔架构完成高效并行去噪生成。
- 微调适配:基于自有数据对可训练的去噪塔进行进一步微调,冻结上下文塔保持不变。
Nemotron-Labs-TwoTower的核心优势
- 双塔解耦,各司其职:将上下文编码与去噪生成分离为两个独立塔,避免单一网络角色冲突导致的性能瓶颈。
- 质量几乎无损:保留自回归基线 98.7% 的聚合基准质量,扩散生成不再以牺牲输出质量为代价。
- 推理速度翻倍:在 2×H100 环境下实现 2.42 倍 wall-clock 生成吞吐量,显著降低延迟与算力成本。
- 一模型三模式:单一检查点支持 Mask Diffusion、Mock-AR、AR-only 三种推理方式,灵活适配不同延迟与质量需求场景。
- 开源可商用:用 NVIDIA Nemotron Open Model License 发布权重,支持企业自由部署与商业二次开发。
Nemotron-Labs-TwoTower的项目地址
- HuggingFace模型库:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
- arXiv技术论文:https://arxiv.org/pdf/2606.26493
Nemotron-Labs-TwoTower的同类竞品对比
对比维度 | Nemotron-Labs-TwoTower | LLaDA | 发布机构NVIDIAMIT
架构设计双塔分离:冻结AR上下文塔 + 可训练扩散去噪塔(交叉注意力连接)
单塔统一:单一Transformer同时承担上下文编码与掩码去噪
总参数量~60B(活跃3B,MoE稀疏)8B(稠密)
基座模型Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE)自研Transformer
训练数据~2.1T tokens~2T tokens
基线质量保留98.7%(相对自回归基线)~95%(相对同等规模AR模型)
吞吐提升2.42×(2×H100,wall-clock)~1.5×(标准GPU环境)
推理模式三种:Mask Diffusion / Mock-AR / AR-only
单一:掩码扩散(随机/半自回归采样)
注意力机制上下文塔:因果注意力;去噪塔:双向块注意力 + 交叉注意力统一双向注意力 + 位置编码处理
核心创新角色解耦:避免单一网络”身兼两职”的性能瓶颈
简单 scalable:证明扩散模型可scale至8B并逼近GPT-4质量
Nemotron-Labs-TwoTower的应用场景
- 高并发在线服务:2.42倍吞吐提升使其适合搜索引擎、智能客服等需要低延迟、高并发的实时文本生成场景。
- 长文档生成:扩散模型的并行迭代特性适合长文本续写、报告生成、代码补全等需要多步 refine 的任务。
- 多模式灵活部署:三种推理模式切换让企业可根据成本/质量权衡,在边缘端用 AR-only、在云端用 Mask Diffusion。
- 商用产品开发:模型可商用许可支持企业将模型集成至写作助手、营销文案生成器、代码辅助工具等商业化产品。
- 科研与二次创新:开源权重与论文细节便于研究者探索扩散语言模型架构、训练策略及跨模态扩展方向。
郑重声明:本站发布内容宗旨在传播更多信息,仅提供查阅,与本站立场无关,不拥有所有权,不承担相关法律责任。不具有任何效益,仅供参考。如果需要专业知识建议,请咨询相关专业人士。如有侵权请联系邮箱。一经查实,立即删除!