45看点带你看尽天下事网站导航/网站地图手机版

首页热点时事小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

2026-05-26 0

过去几年，

世界模型

的出现，正在推动

人工智能

加速从虚拟空间走向物理世界。和传统大语言模型相比，世界模型可以更好理解现实世界的物理规律，实现对真实世界更好的预演和推理。智能汽车是

从虚拟走向物理世界的天然载体，也是世界模型落地的最佳场景之一。

今天，小米汽车正式发布

Xiaomi
Auto
World Model

全新框架，为业界辅助驾驶世界模型提供了新的框架路径，推动行业从

“

场景感知

”

向

“

认知推演、场景进化

”

的高阶形态跃迁。

这是小米首次将三维重建与视频生成深度耦合的一体化架构，以「重建锚定几何、生成填补想象」的新范式，打破行业长期采用的重建、生成独立拆分路线。在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。

世界模型：辅助驾驶的「大脑预演系统」

想象一下：高速上前方突然滚落一个轮胎，要让辅助驾驶应对这类突发场景，它必须“见过”足够多类似的情况。但现实中不可能穷举所有可能——暴雨中冲出的行人、高速上的落石、逆行车辆，这些长尾场景发生概率极低，却可能致命。

因此，世界模型应运而生——它根据历史和当下的观测，预测周围环境接下来会如何演化。对辅助驾驶而言，这意味着车辆不仅能“看见”当下，还能“想象”未来。

目前，世界模型有两条主要技术路线——

重建（WorldRec）

与

生成（WorldGen）

，各有明确的优势与短板：

重建从多视角观测恢复几何精确的 3D 场景，优势是高保真、强一致性，但只能还原已见内容，缺乏想象能力
；

生成通过扩散模型直接预测未来画面，能
”
想象
”
未观测视角和未发生场景，但缺乏显式 3D 结构，且长时序下容易漂移失真。

那二者天然互补，能不能串联使用呢？

现有方法往往把它们简单串联——先重建一个场景，再喂给生成模型当条件。这种简单的拼接有一个根本矛盾：

重建追求的是确定性的几何保真，生成追求的是分布层面的多样性，目标函数在设计上方向并不一致
。

最终只会让二者各自的优势都打折扣。

小米的答案：重建+生成，一个框架全搞定

而 Xiaomi

Auto
World Model
则是提
出一
个全新的整合框架，将重建模块（WorldRec）与生成模块（WorldGen）深度耦合，让两者在结构上互相约束：

重建侧给生成“打地基”
：
WorldRec 维护一个随观测增量扩展的 4D Gaussian 全局表示，把这个 3D 几何投影到自车视角后作为渲染先验喂给生成模型。这意味着生成模型在已观测区域不再“自由发挥”，而是被几何约束锁住——车道结构、建筑位置、相机间的一致性都由重建来兜底，生成只负责补全光照、纹理和未观测区域。
生成侧给重建“扩边界”
：
在重建覆盖不到的时空区域（未来帧、未观测视角、遮挡区），WorldGen 用生成能力把内容补出来，让整个世界模型不再受限于“开过的路”。
两者共同压制长时序漂移
：
重建提供的确定性几何先验持续校正生成过程，从根源上抑制曝光偏差带来的累积误差，让一分钟级别的长视频生成依然保持稳定。

Xiaomi

Auto
World Model 效果展示

重建提供 3D 几何作为结构化锚点，约束生成过程的稳定性；生成则把预测能力延伸到观测之外，弥补重建的边界。两者形成闭环、互相增益，从三个关键维度实现了“1+1>2”的协同增益：

高稳定性
：
WorldRec 的确定性几何约束，有效抑制长时序自回归中的误差累积与内容漂移。
高一致性
：
4D 场景表征作为跨帧共享记忆，确保不同时刻、不同视角下场景内容全局一致。
高真实性
：
WorldGen 以 WorldRec 渲染的 RGB 图像为几何骨架，使合成内容既符合物理布局，又贴近真实传感器观测，显著缩小了“仿真-现实”的领域鸿沟。

▍

WorldRec：从「逐像素」到「稀疏锚点」

要进一步理解重建与生成如何协同，首先要看重建侧做了什么。

当前主流的前馈式三维重建方法普遍采用“逐像素预测高斯”的范式——每张图独立产出一套高斯点，再硬拼到三维空间里，导致

“

鬼影

”

、分层和上亿高斯的渲染开销。

我们认为，问题的根源不在融合策略不够好，而在表征本身没有“约束同一个三维点必须收敛为同一个高斯”的机制。

小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

基于这一思考，我们 WorldRec 模块的核心思路是把场景表示从“稠密像素”换成

稀疏的三维查询点，实现了重建10秒视频仅需10秒的高效率

：

稀疏三维锚点表征
：
用稀疏查询点替代上亿稠密高斯，每个锚点对应一个唯一的三维位置，从源头消除多视角冲突。
多视角多时刻特征聚合
：
每个锚点主动到多个相机、多个时刻的图像里采集特征证据，形成跨视角一致的场景表示。
可见性加权融合
：
遮挡、反光的视角自动降权，干净视角自动加权，让模型聚焦在最可靠的观测上。

orldRec 的10s快速重建效果展示

▍

WorldGen：从「逐帧修图」到「自由绘画」

有了精确的 3D 场景作为锚点，生成侧的工作就变得清晰：在重建覆盖不到的时空区域——未来帧、未观测视角、遮挡区——把内容补出来。

WorldGen 不再依赖“逐帧修图”，而是能够“自由绘画”的生成引擎。仅需4步去噪，0.19秒就可以生成一帧，支持最长1分钟视频。

它的解法是通过两阶段训练：

第一阶段用全双向时序注意力进行预训练，让模型同时看到全部帧，建立对驾驶场景时空分布的全局理解；
第二阶段进入因果微调，用教师强制
（Teacher Forcing）
切换因果注意力，再用 ODE 蒸馏把去噪步数从50步压到4步提速12倍，最后用分布匹配蒸馏解决暴露偏差，从根源上抑制长序列漂移。

除了训练逻辑的优化，WorldGen 的真正价值在于它应对真实世界长尾场景的能力。无论是罕见的动物闯入——马匹、老虎突然出现在路面，还是极端天气——暴雨、大雪、浓雾，WorldGen 都能高质量地生成这些高危险性、低发生率的场景，为辅助驾驶感知模型的训练提供了宝贵的虚拟数据。

WorldGen 的极端场景效果

全面领先，已落地三大场景

技术上的1+1>2，最终要落到实际效果里才算数。

在重建领域，Xiaomi

Auto
World Model WorldRec 在公开的 Waymo 数据集上，全面领先此前 SOTA 方法 DGGT，PSNR（衡量重建精度的核心指标，越高越好）达到28.48，超出 DGGT 约1个点。更重要的是，在 nuScenes 零样本泛化测试中，对比 SOTA 方法，依然保持领先，说明它不只在特定的数据集上表现好，对新场景也有很强的适应能力。

小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

在生成领域，Xiaomi

Auto
World Model 在 H20 GPU 上，单视角生成速度达到0.19秒/帧，三视角为0.46秒/帧，对比同为自回归方法的 Epona（1.06秒/帧）快了5.6倍。并且，WorldGen 还支持高达81帧的连续生成（10Hz/30Hz，最长可达1分钟），而大多数公开基线模型仅能生成8-16帧。

同时，在权威的 nuScenes 数据集上，WorldGen 取得了 FVD 64.97 和 FID 7.04 的成绩，FVD 指标超越了所有对比的同类双向与自回归方法模型，保持了极具竞争力的 FID。

小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

而 Xiaomi

Auto
World Model 也已经在小米汽车三大实际场景中落地：

合成数据
生成
：
已交付超过10万 clips 高质量合成数据，直接用于感知模型训练，提升车辆在危险场景下的识别能力。
仿真测试
：
构建闭环仿真环境，优化测试效率，完备测试规范，可在仿真中复现真实事故进行定向优化。
辅助驾驶学堂
：
利用世界模型动态生成第一人称驾驶教学视频，用户面对复杂路况时，系统以生成式视频展示正确操作。目前已经上线小米全车型的辅助驾驶学堂 - 实景模拟场景，欢迎大家体验。

从“看见”到“想象”，Xiaomi

Auto
World Model 正在为辅助驾驶构建一个可以信赖的“数字平行世界”。这不只是实验室里的 SOTA，更是已经在小米汽车业务中运转的生产力。

下一步，小米汽车将继续探索预训练与闭环训练范式，推动端到端模型的认知能力跃升。

更多技术细节，请访问技术主页与论文：

技术主页：https://JointWM.github.io/

论文链接：https://arxiv.org/pdf/2605.18137

END

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

iPhone黑屏转圈死机重启解决方法：苹果手机系统故障应对攻略

电影《笨蛋2025》故事梗概及情节解析