全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷 - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表：李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛，新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。

近年来， 视觉语言基础模型（Vision Language Models, VLMs）大放异彩，在多模态理解和推理上展现出了超强能力。现在，更加酷炫的 视觉语言动作模型（Vision-Language-Action Models, VLAs）来了！通过为 VLMs 加上动作预测模块，VLAs 不仅能 “看” 懂和 “说” 清，还能 “动” 起来，为机器人领域开启了新玩法！

虽然 VLAs 在各种任务和场景中表现抢眼，但大家在模型设计上却走了很多不同的路，比如用什么架构、怎么选数据、怎么调训练策略等等，这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题，我们通过一系列的实验，提出了一个全新模型 —— RoboVLMs。

论文标题：Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
论文地址：https://arxiv.org/pdf/2412.14058

这个模型超级简单，但性能却相当硬核！它不仅在三个模拟任务中取得了高分，还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看，我们是如何用 RoboVLMs 解锁 VLA 的无限可能！

四大灵魂拷问：RoboVLMs 是怎么炼成的？

我们围绕四个关键问题，对 VLA 的设计展开了深度探索，下面就带你看看答案！

1. 为什么要用 VLA 模型？

简单说，通过实验，我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务，还能在陌生场景中稳稳发挥。

仿真任务中拿下顶尖成绩

在 CALVIN 和 SimplerEnv 环境里，RoboVLMs 取得了压倒性的胜利：

任务成功率：表现稳定且超越主流模型。
泛化能力：即使在陌生场景中，表现依然抗打！

^{图 1 SimplerEnv 仿真环境中的评测结果}

^{图 2 针对视觉语言预训练的消融实验结果}

真实机器人实验也不输

在真实环境中，RoboVLMs 面对更复杂的挑战，仍然比其他模型表现更好。比如，在果蔬分类任务中，它不仅能精准识别，还能应对干扰环境，稳稳完成分类操作。无论是已知场景还是新任务，它都能轻松拿下。

^{图 3 真实环境下的评测结果}

对于未见过的技能描述、背景、干扰物体和目标物体，RoboVLMs 均能很好的完成任务。

2. 怎么设计一个靠谱的 VLA 架构？

这里面讲究可不少！比如：

动作空间：用连续动作空间比离散的好很多。
历史信息：加多步历史信息后，模型的操作更稳准狠。
历史信息组织模块：一个专门的模块可以让模型更懂 “上下文”。

经过一系列实验，我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明， 最优的设计来自于基于 KosMos 基座模型的架构，并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力，在 zero-shot 设置下仅有轻微的性能下降，而其他设计形式的模型则出现了显著掉分。这一结论直接说明， 架构设计的好坏对模型的泛化能力和效率至关重要。

3. 选什么基座模型最合适？

我们对比了当前主流的 8 种视觉语言模型（VLM），结果发现 KosMos 和 Paligemma 的表现遥遥领先，轻松碾压其他模型。无论是任务完成的精确度还是泛化能力，它们都展现出了压倒性的优势。究其原因，主要得益于它们经过了扎实且全面的视觉语言预训练，从而为模型提供了强大的先验知识和理解能力。

这一发现让我们更加确信： 选对基座模型，就是让 VLA 模型起飞的关键一步！想要让模型在多模态任务中表现惊艳，一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础，后续的设计和训练才能真正发挥最大潜力。

4. 跨本体数据什么时候加入最合适？

实验告诉我们一个黄金法则： 在预训练阶段引入跨本体数据（如 Open-X Embodiment 数据集）可以显著提升模型的鲁棒性和少样本场景下的表现。反之，直接将跨本体数据和微调数据混合训练，效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。

具体实验中，我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试：

WidowX+Bridge 环境：

Bridge Finetune：直接在完整的 Bridge 数据集上微调（测试任务不包括在内）。
OXE Pre-Train：先用 OXE 数据集预训练模型。
Post-Train：用经过 OXE 预训练的模型再在 Bridge 数据集上微调。

Google Robot 环境：

RT-Partial Finetune：仅在特定的 RT 任务上微调。
RT Finetune：在完整的 RT 数据集上微调（包括测试任务）。
OXE Pre-Train：先用 OXE 数据集预训练模型。
Post-Train：在 OXE 预训练基础上用 RT 数据集进一步训练。

实验结果进一步验证了： 在预训练阶段引入跨本体数据不仅能提升泛化能力，还能让模型在少样本和高复杂任务下表现更佳。

展望未来：VLA 的进阶之路

虽然 RoboVLMs 已经很能打了，但接下来的发展空间更让人期待！未来可以探索：

更细化的设计优化：比如再打磨 VLM 内部结构、信息融合模块和训练目标，让它更高效。
挑战复杂任务：像 “做早餐” 这种长链条任务，也许是下一个突破点！
多模态协作能力：进一步让机器人 “看懂”、“听清”、“动得更聪明”。

RoboVLMs 的出现，验证了视觉语言动作模型的可能性，也让机器人更接近成为我们的全能助手。未来，它们或许不仅能理解语言和视觉，还能真正帮我们完成那些繁琐又复杂的任务。接下来会有更多惊喜等着我们！

产业视觉语言动作模型视觉语言基础模型 RoboVLMs

联系人：	透明七彩巨人
Email：	weok168@gmail.com