当前位置: 网通社快报 > 小米汽车发布一体化世界模型框架,实现三维重建与视频生成深度融合
小米汽车发布一体化世界模型框架,实现三维重建与视频生成深度融合
小米汽车近日发布XiaomiAutoWorldModel全新框架,该框架将三维重建(WorldRec)与视频生成(WorldGen)深度耦合,形成“重建锚定几何、生成填补想象”的一体化架构。该方案在Waymo、nuScenes等主流基准测试中取得当前最优(SOTA)结果,并已在小米汽车的合成数据生成、仿真测试和智能座舱三大核心场景实现落地应用。 传统世界模型技术分为重建与生成两条路径:重建基于多视角观测恢复高保真、强一致性的3D场景,但仅能还原已观测内容;生成通过扩散模型预测未来画面,具备对未见视角和未发生场景的“想象”能力,但缺乏显式3D结构,在长时序下易出现漂移失真。XiaomiAutoWorldModel将两者结构化融合,使重建提供3D几何作为稳定锚点,约束生成过程;生成则扩展预测边界,弥补重建局限,二者形成闭环协同。 该框架在三个维度实现协同增益:一是高稳定性,利用重建的确定性几何约束抑制长时序自回归中的误差累积;二是高一致性,通过共享的4D场景表征确保跨帧、跨视角内容全局一致;三是高真实性,以重建渲染的RGB图像为几何骨架,使生成内容既符合物理布局又贴近真实传感器观测,缩小仿真与现实之间的域差异。 目前,该模型已应用于三大业务场景:合成数据生成方面,已交付超10万clips高质量数据用于感知模型训练,提升车辆对危险场景的识别能力;仿真测试方面,构建闭环仿真环境,支持复现真实事故并进行定向优化;智能座舱方面,通过动态生成第一人称驾驶教学视频,在用户面对复杂路况时提供操作指引,相关功能已上线小米全系车型的辅助驾驶学堂实景模拟场景。
最新资讯
相关资讯
请扫码下载网通社客户端
iPhone/iPad客户端
Andriod客户端
手机版 网通社汽车
- 经营许可证:京B-220170585号
- 京ICP备13031706号-2
- 广播电视节目制作许可证06725号
- 京公网安备 11010502058773号
- Copyright© 2012-2026聚众网通(北京)科技有限公司版权所有 未经许可不得转载


卓陆
奇莉
刘帅

