首页看点啥北大联合DeepSeek开源DSpark框架：大模型高并发推理效率跃升

北大联合DeepSeek开源DSpark框架：大模型高并发推理效率跃升

2026-07-01 0

近日，深度求索（DeepSeek）与北京大学正式联合发布大语言模型推理加速框架DSpark，这一开源成果直指当前大模型在高并发生产环境下的核心效率瓶颈，在同等吞吐量水平下实现单用户生成速度60%至85%的大幅提升，目前已经率先部署在DeepSeek-V4-Flash与DeepSeek-V4-Pro的预览版服务引擎中，相关论文、训练代码及模型检查点已同步在GitHub的DeepSpec项目中完全开源，为整个大模型产业的生产级落地提供了一套可直接复用的高性能推理底座。

北大联合DeepSeek开源DSpark框架，大模型高并发推理效率跃升

当前大模型规模化落地的最大痛点之一，就是高并发场景下的推理效率矛盾。随着大模型应用在办公助手、智能客服、AI生成内容等场景的大规模普及，单台推理服务器往往需要同时承载数十甚至上百个用户的并发请求，传统的单token推测解码方案，很容易在高负载下出现单用户生成速度骤降的问题：大量用户的请求排队等待算力调度，原本流畅的对话体验变成长时间的加载等待，不仅大幅降低了终端用户的使用体验，也让企业需要投入更多算力资源才能保障基础的服务体验，直接推高了大模型服务的运营成本。DSpark框架的推出，正是针对这一行业共性痛点，完成了从底层算法到工程实现的全维度突破。

相比DeepSeek此前生产环境广泛使用的单token推测解码基线MTP-1，DSpark框架的核心创新在于重构了推测解码的全流程逻辑。它不再局限于传统的单步token预测模式，而是通过深度优化的多步并行推测机制，结合北京大学在分布式系统与并行计算领域的多年技术积累，实现了在高并发场景下的算力资源动态调度。这套框架可以根据实时的用户请求负载，智能调整推测解码的步长与算力分配策略，避免传统方案在高并发下出现的算力资源争抢、无效计算占比过高的问题，最终在不降低整体系统吞吐量的前提下，让单用户的生成速度直接提升60%以上，部分优化场景下甚至能达到85%的性能跃升。

目前这套框架已经完成了真实生产环境的验证落地，率先搭载在DeepSeek最新的V4系列大模型预览版服务引擎中。大量内测用户反馈，在高峰时段多人同时调用服务时，模型的长文本生成速度几乎没有出现明显的延迟上升，哪怕是生成数千字的长文档、复杂代码，也能保持流畅的逐字输出体验，彻底告别了过去高并发场景下“转圈等待”的糟糕体验。更重要的是，整套框架完全向社区开源，所有大模型企业、开发者都可以免费获取完整的代码与模型检查点，无需从零开始投入大量资源做推理优化，就能直接将这套高性能加速方案部署到自己的大模型服务中。

作为国内顶尖高校与头部大模型企业的产学研联合成果，DSpark的开源落地有着远超技术本身的行业价值。过去很多中小大模型团队受限于推理优化的技术门槛，很难在生产环境中做到头部厂商级别的响应速度，这套开源框架直接抹平了这部分技术差距，让全行业都能共享顶尖的推理加速技术成果，大幅降低大模型服务的部署成本。

随着DSpark框架在全行业的大规模普及，整个大模型产业的生产级落地门槛将进一步降低，更多高性价比的大模型服务将走向千行百业，为AI应用的普惠化发展注入全新的技术动力。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

中国移动正式设立Token办公室：AI时代经营转型落地关键一步

OpenAI正式发布GPT-5.6系列模型：性能价格双突破引行业变局