今天小编分享的汽车经验:车企首秀CVPR 2025:郎咸朋署名,理想汽车联合北大浙大攻克4D仿真难题,欢迎阅读。
全民智驾的元年到来,AI 正成为车企竞争的新赛场。
文丨智驾网 王欣
编辑 | 雨来
全民智驾的元年到来,AI 已成为车企竞争的新赛场。
3 月 5 日,CVPR 2025 成绩单出来了,其中,理想汽车上榜了 4 篇。
CVPR 国际计算机视觉与模式识别会议是 IEEE(电气和电子工程师协会)主办的一年一度的国际会议,被公认为计算机视觉领網域的顶级会议之一,和 ICCV、ECCV 并称计算机视觉三大顶级会议,近年来也不断有自动驾驶领網域的前沿研究获奖。
对于理想汽车的意义在于,这不仅是其首次以车企身份跻身全球顶级 AI 会议,更标志着其从 " 造车新势力 " 向真正发展为 AI 公司的战略转型有了一个阶段性的成果。
当天,理想汽车创始人、董事长、CEO 李想在社交媒体上发文称:自从特斯拉的全自动驾驶(FSD)功能入华后,经过对比,理想 AD Max V13 的接管次数明显少于特斯拉 FSD,表现更好。李想还提到,理想 AD Max V13 基于 1000 万条数据进行训练,并于 2 月 27 日全面推送,得到了用户的好评。
这次入选的四篇论文背后的署名作者是理想汽车副总裁、智驾负责人朗咸朋及其团队的多名工程师。在不久前的理想汽车 AI Talk 中,朗咸朋曾在直播中表示,预计 2025 年理想汽车能够实现 L3 级的智能驾驶。
此次入选的 StreetCrafter、DrivingSphere、DriveDreamer4D 与 ReconDreamer 四篇论文,主要是理想汽车在自动驾驶模拟仿真方向做的创新,同时直面回答自动驾驶研发的核心痛点难题:数据成本高企与极端场景覆盖不足。
下面我们分别解析这四篇论文:
01.
StreetCrafter:基于 LiDAR 与视频扩散模型的街景合成技术
StreetCrafter 是作为理想汽车联合浙江大学、康奈尔大学提出的自动驾驶仿真技术,其核心目标是通过 LiDAR 点云与视频扩散模型的融合,解决传统方法(如 NeRF、3D 高斯散射)在视角偏离训练轨迹时渲染模糊或伪影的难题。
其核心技术包含两部分:
可控视频扩散模型:通过多帧 LiDAR 点云聚合生成全局点云,并渲染为像素级条件影像,作为扩散模型的输入。在推理阶段,根据新视角的相机轨迹生成高保真视频帧,支持实时渲染和场景编辑(如对象平移、替换和删除)。
动态 3D 高斯表示蒸馏:利用生成的新视角影像作为监督信号,优化 3D 高斯的几何与纹理,结合混合损失函数(L1、SSIM、LPIPS)和渐进优化策略,提升视角外推能力,同时保持 80-113 FPS 的实时渲染速度。
实验结果显示,在 Waymo 数据集上,StreetCrafter 在 3 米视角偏移下的 FID 为 71.40,显著优于 Street Gaussians 的 93.38,且在复杂区網域(如车道线和移动车辆)的细节清晰度更高。
StreetCrafter 其应用价值在于降低自动驾驶训练对真实数据的依赖。例如,在训练车辆变道算法时,可通过调整相机轨迹生成多角度变道场景视频,模拟不同光照、天气条件下的数据,以及应对极端场景下的仿真测试。
在应对突发障碍物(如行人横穿、车辆逆行)时,利用场景编辑功能,在 LiDAR 点云中插入虚拟障碍物(如删除道路上的车辆并替换为行人),生成测试视频。例如,模拟行人突然闯入车道,验证系统紧急制动能力。
但局限性包括对 LiDAR 标注的高成本依赖(数据采集成本提升)、生成速度仅 0.2FPS,以及对形变物体(如行人)的建模精度不足。
也许正是意识到这些不足,日前理想汽车宣布:今年推出的所有车型都将标配激光雷达传感器。
02.
DrivingSphere:生成式闭环仿真框架与 4D 高保真环境建模
DrivingSphere 旨在构建一个支持动态闭环互動的 4D(3D 空间 + 时间)仿真环境,以克服传统开环仿真数据多样性不足、闭环仿真视觉保真度低的问题。
框架主要通过两大模块和一个机制,为智能体构建了高保真 4D 世界,评估自动驾驶算法。
动态环境组合(DEC 模块):基于 OccDreamer(3D 占用扩散模型)生成静态场景,并结合 "Actor Bank" 动态管理交通参与者(如车辆、行人),通过语义相似性或随机采样选择参与者,实现城市场景的无限扩展。
该模块采用 OccDreamer,一个基于鸟瞰图(BEV)和文本条件控制的 3D 占用扩散模型,用于生成静态场景。它通过 VQ-VAE 将 3D 占用数据压缩为潜在表示,并结合 ControlNet 分支注入 BEV 地图和文本提示,逐步生成城市级连续静态场景。
视觉场景合成(VSS 模块):利用双路径条件编码(全局几何特征与局部语义图)和视频扩散模型(VideoDreamer),生成多视角时空一致的高保真视频,并通过 ID 感知编码绑定参与者外观与位置,解决外观漂移问题。
闭环反馈机制:通过 Ego Agent(被测算法)与环境 Agent(交通流引擎)的互動,实现 " 感知 - 决策 - 环境响应 " 的动态闭环测试,验证算法在复杂场景中的鲁棒性。
在实验与结果方面,DrivingSphere 在视觉保真度评估中表现出色。
在 nuScenes 数据集上,DrivingSphere 的 OccDreamer 模块生成的场景 FID 显著优于 SemCity,视频生成结果在 3D 目标检测和 BEV 分割指标上超越 MagicDrive 与 DriveArena。
总的来看,DrivingSphere 其核心贡献在于将几何建模与生成式技术结合,但论文也指出,需进一步优化动态行为的复杂性(如极端场景覆盖不足)和计算成本。
03.
DriveDreamer4D:基于世界模型的 4D 驾驶场景重建与轨迹生成
DriveDreamer4D 的目标是通过世界模型(World Model)增强 4D 驾驶场景重建的时空一致性与生成质量,解决传统传感器仿真方法(如 NeRF、3DGS)在复杂动作(如变道、加速)下的局限性。
比如,现有传感器仿真技术(如 NeRF、3D 高斯散射)依赖与训练数据分布紧密匹配的条件,仅能渲染前向驾驶场景,难以处理复杂动作(如变道、急刹)导致的视角偏移或动态互動问题,常出现 " 鬼影 "" 拖影 " 等伪影。
亦或是开环仿真数据多样性不足,闭环仿真则面临视觉保真度低、动态互動不真实等挑战。
那么世界模型通过预测未来状态生成多样化驾驶视频,但其此前局限于二维输出,缺乏时空连贯性,无法满足 4D 场景重建需求。
DriveDreamer4D 的核心架构分为两大部分:
新轨迹生成模块(NTGM):支持文本描述或自定义设计生成轨迹(如变道、加减速),并通过仿真环境(如 CARLA)进行碰撞检测与安全性评估,生成控制信号以驱动视频合成。
正则化训练策略(CDTS):引入感知一致性损失,优化合成数据与真实数据的分布对齐,并通过误差反馈迭代提升轨迹生成质量。
实验表明,DriveDreamer4D 在时空一致性和视觉真实性上优于 PVG、S ³ Gaussian 等基线模型。用户调研中,其在常规场景(如单车道变道)的生成效果获好评,但在跨车道等极端动作下仍存在重建失效问题。
该研究的应用价值在于降低数据采集成本并增强算法鲁棒性,但需进一步结合时序建模与多模态输入(如高精地图)以提升复杂场景的适应性。
04.
ReconDreamer:动态驾驶场景在线修复与渐进式数据更新
ReconDreamer 聚焦于解决动态场景重建中大幅动作导致的伪影问题(如远景扭曲、车辆遮挡)。
针对这一类问题,ReconDreamer 依然是利用世界模型的知识,通过在线修复 ( DriveRestore ) 和渐进数据更新策略 ( Progressive Data Update Strategy 以下简称 PDUS ) 两大手段,解决复杂动作的渲染质量问题。
在线修复技术(DriveRestorer):构建退化帧与正常帧的修复数据集,通过扩散模型去噪策略修复伪影,并采用脱敏策略优先处理问题严重区網域(如天空与远景)。
渐进式数据更新策略(PDUS):分阶段生成更大跨度的轨迹数据(如 1.5 米→ 3 米→ 6 米),逐步扩展模型对复杂动作的适应能力,直至收敛。
ReconDreamer 的创新点在于首次将世界模型与动态重建结合,实现了实时修复渲染缺陷,并通过渐进式训练策略解决了大动作渲染中的数据分布偏移问题。
这为自动驾驶闭环仿真提供了高保真传感器数据生成方案,支持复杂场景(如紧急变道和多车互動)的可靠测试。
当然局限性也包括,比如在线修复机制增加了训练时间,且目前仅在 Waymo 数据集上进行了验证,未来需要扩展至更多复杂环境(如雨天和夜间)。
定量分析结果显示,ReconDreamer 在 NTA-IoU(车辆检测框重合度)上相较于基线方法(如 Street Gaussians 和 DriveDreamer4D)提升了 24.87%,在 NTL-IoU(车道线重合度)上提升了 6.72%,同时 FID(影像质量评估)降低了 29.97%。用户研究表明,96.88% 的用户认为 ReconDreamer 在大动作渲染中优于 DriveDreamer4D。
定性分析结果显示,ReconDreamer 有效消除了远景模糊和天空噪点,保持了车辆位置和形状的一致性,并确保车道线在大偏移下的平滑无断裂。
此外,消融实验结果表明,DriveRestorer 的主干网络基于 DriveDreamer-2 的掩码版本效果最佳,而 PDUS 的步长设定为 1.5 米时性能最优,过大的步长会导致噪声累积。
【关注智能驾驶,关注智驾视频号】