当前位置：网通社快报 > 小米汽车发布一体化世界模型框架，实现三维重建与视频生成深度融合

小米汽车发布一体化世界模型框架，实现三维重建与视频生成深度融合

网通社小助理 2026-05-26 11:42

小米汽车近日发布XiaomiAutoWorldModel全新框架，该框架将三维重建（WorldRec）与视频生成（WorldGen）深度耦合，形成“重建锚定几何、生成填补想象”的一体化架构。该方案在Waymo、nuScenes等主流基准测试中取得当前最优（SOTA）结果，并已在小米汽车的合成数据生成、仿真测试和智能座舱三大核心场景实现落地应用。传统世界模型技术分为重建与生成两条路径：重建基于多视角观测恢复高保真、强一致性的3D场景，但仅能还原已观测内容；生成通过扩散模型预测未来画面，具备对未见视角和未发生场景的“想象”能力，但缺乏显式3D结构，在长时序下易出现漂移失真。XiaomiAutoWorldModel将两者结构化融合，使重建提供3D几何作为稳定锚点，约束生成过程；生成则扩展预测边界，弥补重建局限，二者形成闭环协同。该框架在三个维度实现协同增益：一是高稳定性，利用重建的确定性几何约束抑制长时序自回归中的误差累积；二是高一致性，通过共享的4D场景表征确保跨帧、跨视角内容全局一致；三是高真实性，以重建渲染的RGB图像为几何骨架，使生成内容既符合物理布局又贴近真实传感器观测，缩小仿真与现实之间的域差异。目前，该模型已应用于三大业务场景：合成数据生成方面，已交付超10万clips高质量数据用于感知模型训练，提升车辆对危险场景的识别能力；仿真测试方面，构建闭环仿真环境，支持复现真实事故并进行定向优化；智能座舱方面，通过动态生成第一人称驾驶教学视频，在用户面对复杂路况时提供操作指引，相关功能已上线小米全系车型的辅助驾驶学堂实景模拟场景。

以上内容由AI创作，不代表网通社立场。如有问题请联系feedback@news18a.com

分享到