首页热点时事登顶HuggingFace日榜：英伟达清华团队γ-World突破世界模型从单机到联机_BestBlogs

登顶HuggingFace日榜：英伟达清华团队γ-World突破世界模型从单机到联机_BestBlogs

2026-05-31 0

世界模型技术正迎来关键转折点，从单智能体向多智能体协同进化。这一突破将彻底改变AI对物理世界的理解方式。

视频世界模型在过去两年取得显著突破，Sora、Cosmos和Genie等模型不断推动画质、时序和交互能力的边界。但这些进展都建立在单参与者假设上，而现实场景往往需要处理多智能体协同问题。

多智能体交互的挑战

真实应用场景普遍存在因果耦合现象：多人游戏中玩家的走位相互影响，工厂产线上机械臂的运动相互制约，具身智能训练中多个agent在同一环境中互相作用。这些场景需要模型能够处理动态变化的共享环境状态。

论文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
机构：NVIDIA / 清华大学 / 多伦多大学 / Vector Institute
作者：Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816

近期多智能体世界模型研究密集涌现，但都面临扩展性瓶颈。Solaris通过Minecraft数据训练出双人视角模型，Multiverse采用开源双模型方案，Agora-1实现了四人共享对战世界。这些方案虽然证明了可行性，但难以扩展。

Solaris存在两个结构性限制：首先，其固定身份向量设计破坏了玩家对称性，新增玩家需要重新训练；其次，全连接架构导致算力需求随玩家数量平方增长，8人场景计算量将达16倍。

NVIDIA联合多所高校推出的Gamma-World重新设计了世界模型框架。通过正单纯形顶点映射解决对称性问题，任何数量玩家都能保持几何一致性。采用hub token通信枢纽将计算复杂度从平方级降至线性级，8人场景延迟降低75%。

在双人Minecraft测试中，两路画面实时同步且空间自洽。最令人惊讶的是四人零样本泛化能力，模型未经训练即可生成四路同步视角。机械臂协同测试验证了框架的迁移能力，同一模型可直接应用于物理机器人场景。

多智能体世界模型将改变Physical AI的数据采集范式，通过虚拟环境持续生成高质量交互数据。这种主动式数据生产方式将形成自我强化的训练闭环，有望突破当前物理AI发展的数据瓶颈。

随着Solaris、Multiverse、Agora-1和Gamma-World等方案的涌现，世界模型技术正在从单机时代迈向联机时代。未来的竞争将围绕模型扩展性、数据生成质量和应用场景广度展开，而验证虚拟与现实的物理一致性将是关键挑战。

世界模型技术正迎来从单机到联机的历史性转变，这场变革将重塑AI理解物理世界的方式，开启智能系统协同进化的新纪元。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

疯狂水世界：当前版本哪些英雄最强势

电影靠近我温暖你剧情解析