

项目主页:https://github.com/hustvl/AlphaDrive 论文链接:https://arxiv.org/abs/2503.07608


我们提出了 AlphaDrive,一个用于自动驾驶高维规划的视觉语言大模型,据我们所知,AlphaDrive 首次将基于 GRPO 的强化学习和规划推理引入基于大模型的自动驾驶任务,大幅提升了模型的规划表现和训练效率。 AlphaDrive 提出了四种强化学习 GRPO rewards,分别是规划准确率 reward,action 权重 reward,输出多样性 reward 和规划格式 reward。这些优化的 reward 设计让 GRPO 更适合于自动驾驶规划任务。 我们提出了基于知识蒸馏的 SFT 和 RL 的两阶段推理训练策略,通过使用云端大模型生成的少量高质量规划推理数据,相比于仅使用 RL 进行训练或者没有推理过程,AlphaDrive 达到了更好的规划效果。


