小米开源XiaomiOneVL框架,统一VLA与世界模型实现自动驾驶推理速度与精度突破
5月13日,小米正式发布并开源XiaomiOneVL一步式潜空间语言视觉推理框架。该框架首次将视觉语言动作(VLA)、世界模型和潜空间推理等技术路线统一于同一架构中,在自动驾驶领域的感知、推理与规划任务中实现性能提升。XiaomiOneVL在ROADWork、Impromptu和Alpamayo-R1三项主流基准上达到当前最优(SOTA)水平,并在NAVSIM基准上表现优异。其推理精度超越显式思维链(CoT)方法,推理速度与“仅答案”预测的潜空间CoT方案相当。该框架支持语言与视觉双维度可解释性,可同时以文字说明决策原因并以预测画面展示未来场景。小米已开源XiaomiOneVL的模型权重、训练与推理代码,并公开技术报告及项目主页供业界使用。
评论0
热门资讯
最新资讯
相关资讯
请扫码下载网通社客户端
iPhone/iPad客户端
Andriod客户端
手机版 网通社汽车
- 经营许可证:京B-220170585号
- 京ICP备13031706号-2
- 广播电视节目制作许可证06725号
- 京公网安备 11010502058773号
- Copyright© 2012-2026聚众网通(北京)科技有限公司版权所有 未经许可不得转载


刘帅



卓陆