3月17日,于NVIDIA GTC 2026大会之上,理想汽车正式推出了下一代自动驾驶基础模型MindVLA - o1,依据理想汽车所言,这一套新模型并非仅仅是使车“看见”路况这般而已,而是期望将空间理解、逻辑推理以及驾驶动作切实整合到一块儿,促使辅助驾驶朝着更趋近于“智能体”的方向又迈进一步。
假设以更易于领会的话语来讲,往昔的辅助驾驶更近似于“目睹后再实施处理”,然而MindVLA - o1所要达成的,是使系统不但能够明晰当下的环境状况,还能够融合语言理解、常识判断以及针对未来几秒场景变化的预先判断,预先周全地思索接下来该以怎样的方式去驾驶。理想将这种能力归纳为五个方向:看得更为辽远、想得更为深邃、行驶得更为稳健、进化得更为快速、部署得更为高效。
站在技术路线的角度去看,理想此次着重提及了好些关键词,首先是3D空间理解,相较于传统那种主要依靠2D图像或者俯视图去认识道路环境的模式,MindVLA - o型一号开始着重突出对真实三维空间展开建模,官方表明,新模型运用3D ViT视觉编码器,并且结合激光雷达点云把它当作几何信息提示,从而使得系统在一个统一的表示当中同时获取语义理解以及三维感知能力,简单来讲,即不止是晓得前方“存在物体”,而且还要更加明晰它处于什么地方、怎样进行运动、是否会对接下来的驾驶决策产生影响。
第二个重点是具备多模态思考的能力,依据理想的阐释而言,自动驾驶真正困难的之处,并非仅仅是识别当下所发生的状况,更关键的在于判断后续将会发生的情形,就好比旁边有一辆车呈现出并线的迹象,系统需要预先判断它是否会插进来,以及自身是应该减速、让行还是变道,为了处理这类问题,MindVLA - o1引入了预测式隐世界模型,也就是先将当前场景转化为隐空间里的表达,接着在这个空间里对未来变化进行预测。如此行之具备的益处在于,并非径直去开展复杂化画面的生成,却能够以更高的效率达成关于未来情景的推导。
第三部分为行为生成,此次理想所提出的是统一行为生成机制,其核心思路在于,要使模型从理解环境直至输出驾驶轨迹,尽可能在同一个框架之内予以完成 ,官方材料有所提及,MindVLA - o1,一方面添入了专门用以负责驾驶轨迹生成的“动作专家”,另一方面借助并行解码来提升实时性,再运用离散扩散方式对轨迹展开多轮优化 ,最终目标在于,要让车开启行驶时,既具备速度又拥有稳定性,轨迹也更为连续,还更契合车辆自身的动态特性。
除了模型自身,理想还将强化学习闭环置于相当重要的位置,过去诸多辅助驾驶系统主要借助人类驾驶数据展开训练,具备稳定的优点,然而局限也极为显著,即模型大体只能学习已有样本中的内容,MindVLA - o1 则进一步引入世界模拟器与闭环强化学习,期望使系统于仿真环境里持续试错、持续优化。官方宣称,借助统一的3D Gaussian Splatting渲染引擎以及分布式训练框架,相关的训练之中,渲染速度得以提升,提升幅度接近两倍,并且整体训练成本降低了大约75%。这所代表的意义是,许多 originally 通过真实道路慢慢积攒的数据与经验,能够更快速地在模拟环境里达成迭代。
在车端部署方面,理想提及了软硬件协同设计,对于大模型上车这事,行业普遍遭遇一个实际问题:模型做大,效果或许更佳,然而车端可能无法带动;模型做小,虽能运行,可能力又不足。理想此次给出的方案,是借助软硬件协同设计定律来缩减模型架构筛选时间,依官方说法,团队评估了将近2000种模型架构配置,并在NVIDIA Orin和Thor平台上达成验证,将原本需数月的架构探索压缩至几天。
这次理想更想传递的,并非单纯讲自动驾驶,实则是“物理世界智能”这个更大的方向,比起单纯讲自动驾驶。按照官方定义, MindVLA - o1不是一套仅服务汽车的模型,它与MindData、MindSim以及RL Infra一同构成了一整套AI框架。这套框架未来不但能服务车辆,还可扩展至机器人和其他物理系统。也就是说,在理想看来,自动驾驶不是终点,而貌似是通往具身智能的一块关键试验场。
依据这次发布会所释放出的信号而言,理想明显已然不再满足于仅仅去做一套更为强大的辅助驾驶系统,而是期望凭借VLA模型、世界模型以及强化学习,将车朝着“更像机器人”的方向进一步推进。当然了,MindVLA - o1现阶段更多的是基础模型层面的发布理想汽车下一代自动驾驶模型啥样?,距离最终用户察觉到全面的变化,这还得依赖后续量产上车、持续训练以及实际路况之中的表现验证。然而,起码就技术表达来讲,理想已将下一阶段辅助驾驶的关键要点,从“能够开车”推进至“会进行理解、会展开思考、会持久学习”。



