GTC大会上,理想发布下一代自动驾驶架构MindVLA

2025-03-18 12:08:00
刘大牛
转自文章
240

MindVLA 一种是视觉-语言-行为大模型,是机器人大模型的新范式。它将空间智能、语言智能和行为智能统一在单个模型里,为 AI 赋予了强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。

3 月 18 日,理想汽车自动驾驶技术研发负责人贾鹏在英伟达 GTC 2025 大会上发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想对于下一代自动驾驶技术 MindVLA 的最新思考和进展。

贾鹏表示:「MindVLA 是机器人大模型,它成功整合了空间智能、语言智能和行为智能,一旦跑通物理世界和数字世界结合的范式后,将有望赋能更多行业。MindVLA 将把汽车从单纯的运输工具转变为贴心的专职司机,它能听得懂、看得见、找得到。我们希望 MindVLA 能为汽车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。」

全栈自研:深度融合空间、语言及行为智能

基于端到端 + VLM 双系统架构的最佳实践,及对前沿技术的敏锐洞察,理想提出了新的 VLA 模型——MindVLA。理想认为,VLA 是机器人大模型的新范式,其将赋予自动驾驶强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。

MindVLA 不是简单地将端到端模型和 VLM 模型结合在一起,所有模块都经过了全新设计。其中,3D 空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组 Action Token(动作词元),Action Token 指的是对周围环境和自车驾驶行为的编码,并通过 Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

MindVLA 的六大关键技术

MindVLA 打破了自动驾驶技术框架设计的传统模式,使用能够承载丰富语义,且具备出色多粒度、多尺度 3D 几何表达能力的 3D 高斯(3D Gaussian)这一优良的中间表征,充分利用海量数据进行自监督训练,极大提升了下游任务性能。

理想从零开始设计和训练了适合 MindVLA 的 LLM 基座模型,采用 MoE 混合专家架构,引入 Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。在基座模型训练过程中,理想加入大量 3D 数据,使模型具备 3D 空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM 基座模型获得 3D 空间智能的同时,还需要进一步提升逻辑推理能力。理想训练 LLM 基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。为了把 NVIDIA Drive AGX 的性能发挥到极致,MindVLA 采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA 实现了模型参数规模与实时推理性能之间的平衡。

MindVLA 利用 Diffusion 将 Action Token 解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时 Diffusion 可以根据外部条件,例如风格指令,动态调整生成结果。为了解决 Diffusion 模型效率低的问题,MindVLA 采用 Ordinary Differential Equation(常微分方程)采样器,实现了 2-3 步就能完成高质量轨迹的生成。

面对部分长尾场景,理想建立起人类偏好数据集,并且创新性地应用 RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使 MindVLA 能够学习和对齐人类驾驶行为,显著提升安全下限。

MindVLA 基于自研的重建 + 生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。源于世界模型的技术积累与充足计算资源的支撑,MindVLA 实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从「错误中学习」。

过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作是将 3D GS 的训练速度提升至 7 倍以上。

理想通过创新性的预训练和后训练方法,让 MindVLA 实现了卓越的泛化能力和涌现特性,其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。

赋能汽车变为专职司机,重塑用户体验

MindVLA 将为用户带来全新的产品形态和产品体验,有 MindVLA 赋能的汽车是听得懂、看得见、找得到的专职司机。「听得懂」是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:「带我去找超市」,车辆就能在没有导航信息的情况下自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:「开太快了」、「应该走左边这条路」等,MindVLA 能够理解并执行这些指令。

「看得见」是指 MindVLA 具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有 MindVLA 赋能的车辆能够搜寻照片中的位置,并自动找到用户。

「找得到」意味着车辆可以自主地在地库、园区和公共道路上漫游,其中典型应用场景是用户在商场地库找不到车位时,可以跟车辆说:「去找个车位停好」,车辆就会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖 MindVLA 的空间理解和逻辑推理能力。

总结来说,对于用户而言,有 MindVLA 赋能的车不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体。理想表示,对于汽车行业而言,MindVLA 就像 iPhone 4 重新定义手机一样将重新定义自动驾驶。对于人工智能领域而言,汽车作为物理人工智能的最佳载体,未来探索出物理世界和数字世界结合的范式,将有望赋能多个行业协同发展。

产业 预训练大模型 自动驾驶 理想汽车
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com