精简架构聚焦AI:网络安全公司SentinelOne宣布裁员8%
2026-05-29
2026-05-31 0
世界模型技术正迎来关键转折点,从单智能体向多智能体协同进化。这一突破将彻底改变AI对物理世界的理解方式。


视频世界模型在过去两年取得显著突破,Sora、Cosmos和Genie等模型不断推动画质、时序和交互能力的边界。但这些进展都建立在单参与者假设上,而现实场景往往需要处理多智能体协同问题。
真实应用场景普遍存在因果耦合现象:多人游戏中玩家的走位相互影响,工厂产线上机械臂的运动相互制约,具身智能训练中多个agent在同一环境中互相作用。这些场景需要模型能够处理动态变化的共享环境状态。

论文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
机构:NVIDIA / 清华大学 / 多伦多大学 / Vector Institute
作者:Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub:https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816
近期多智能体世界模型研究密集涌现,但都面临扩展性瓶颈。Solaris通过Minecraft数据训练出双人视角模型,Multiverse采用开源双模型方案,Agora-1实现了四人共享对战世界。这些方案虽然证明了可行性,但难以扩展。
Solaris存在两个结构性限制:首先,其固定身份向量设计破坏了玩家对称性,新增玩家需要重新训练;其次,全连接架构导致算力需求随玩家数量平方增长,8人场景计算量将达16倍。
NVIDIA联合多所高校推出的Gamma-World重新设计了世界模型框架。通过正单纯形顶点映射解决对称性问题,任何数量玩家都能保持几何一致性。采用hub token通信枢纽将计算复杂度从平方级降至线性级,8人场景延迟降低75%。

在双人Minecraft测试中,两路画面实时同步且空间自洽。最令人惊讶的是四人零样本泛化能力,模型未经训练即可生成四路同步视角。机械臂协同测试验证了框架的迁移能力,同一模型可直接应用于物理机器人场景。
多智能体世界模型将改变Physical AI的数据采集范式,通过虚拟环境持续生成高质量交互数据。这种主动式数据生产方式将形成自我强化的训练闭环,有望突破当前物理AI发展的数据瓶颈。
随着Solaris、Multiverse、Agora-1和Gamma-World等方案的涌现,世界模型技术正在从单机时代迈向联机时代。未来的竞争将围绕模型扩展性、数据生成质量和应用场景广度展开,而验证虚拟与现实的物理一致性将是关键挑战。
世界模型技术正迎来从单机到联机的历史性转变,这场变革将重塑AI理解物理世界的方式,开启智能系统协同进化的新纪元。