小米发布重建生成一体化世界模型框架,刷新主流基准性能纪录
据动察 Beating 监测,小米汽车正式发布 Xiaomi EV World Model 辅助驾驶世界模型全新框架,首次在内部实现三维重建与视频生成模块的深度耦合。在自动驾驶仿真中,传统技术往往将重建与生成割裂。重建模块能还原场景但无法预测变化,生成模块虽能预测未来但长时序下容易失真漂移。团队提出 JointWM 架构,以三维几何结构作为物理骨架锚定场景,再通过生成模块补全视觉细节并预测未观测区域,在 Waymo 和 nuScenes 等主流基准中刷新多项最佳性能纪录。 具体机制上,重建模块 WorldRec 舍弃传统逐像素范式,改用稀疏三维查询点进行场景表征,增量融合为跨视角 4D Gaussian 空间骨架,实现 10 秒快速重建 10 秒视频。基于重建模块提供的几何先验,生成模块 WorldGen 受限于骨架物理边界,只负责生成合理的光影与纹理。对于未来帧与视野盲区等边界之外的内容,生成模块通过两阶段时序训练与分布匹配蒸馏机制进行物理预测。整个架构在 H20 GPU 上实现单视角 0.19 秒、三视角 0.46 秒的生成速度,并支持最长 1 分钟的视频生成。 这套方案在 Waymo 重建精度测试中取得 28.48 PSNR 成绩,并在 nuScenes 零样本泛化中保持领先。在生成效率上,方案比自回归基线 Epona 快 5.6 倍,时空连贯度在同类算法中位居前列。目前,研究成果已在小米汽车三大场景落地,包括交付超 10 万段高质量合成数据用于感知模型训练、构建高逼真闭环仿真环境复现长尾路况,以及上线辅助驾驶学堂以生成式视频指导用户操作。

