灵初智能发布端到端VLA模型Psi R0.5，仅需两小时数据实现物品、场景全面泛化 - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近日，Figure 发布的端到端 VLA 具身大模型 Helix，采用分层架构同时实现高频控制和高泛化能力，引起了业内广泛关注。几乎同期，中国具身智能团队灵初智能发布了基于强化学习的增强版分层架构端到端 VLA 模型 Psi R0.5，这 距离灵初智能团队去年底发布的 Psi R0 仅 2 个月。

本次发布的新模型重大升级，对于 复杂场景的泛化性、 灵巧性、 CoT、 长程任务能力上均有显著提升， 同时完成泛化抓取训练所需的数据量仅需 Helix 数据量的 0.4%！在全球范围内实现了泛化灵巧操作与训练效率的双重领先。

此外，灵初智能团队连发四篇高质量论文，将团队在 高效实现泛化抓取、 堆叠场景的物品检索、 利用外部环境配合抓取、 VLA 安全对齐方面的最新成果悉数公开，展现了中国团队在具身智能领域的强悍战斗力。

^{Psi R0.5 路径演进图}

DexGraspVLA

仅需两小时灵巧手抓取数据

轻松实现物品、灯光、场景泛化

并实现真正 CoT

DexGraspVLA 是 首个用于灵巧手通用抓取的 VLA（Vision-Language-Action）框架，通过少量的训练，即刻在多变环境下智能涌现灵巧操作能力，能够像人类一样快速、准确地拾取各种物品。

DexGraspVLA 是一个融合视觉，语言和动作的层次化框架：

High-level Planner：高层规划由预训练的大型视觉语言模型（VLM）实现， 可理解多样化指令、自主决定抓取策略。
Low-level Controller：低层扩散策略通过 实时视觉反馈， 闭环掌握目标物体， 智能涌现出灵巧操作能力。

整个框架的核心在于将多样化的图像输入数据通过现有的 Foundation Model 转换成 Domain-invariance 的表征，并端到端地训练下层控制模型。

^{DexGraspVLA 框架图}

从实验结果看， 灵初智能仅使用了约 2 小时的灵巧手抓取数据（2094 条轨迹 × 3.5 秒 / 条 ÷ 60 秒 / 分钟 ÷ 60 分钟 / 小时 ≈ 2 小时），泛化到上千种不同物体，位置，堆叠，灯光，背景下成功抓取， 而这个数据量仅仅是 Figure 的 0.4%， 数据利用效率提高 250 倍！

同时，DexGraspVLA 相比现有方案还具有几项优势：

根据语言指令分辨出目标物体，处理堆叠场景下的 目标物体的检索并抓取
抓取速度快（所有视频无加速，同类工作中节拍较快）， 闭环姿态矫正与重抓取能力（ReGrasp）
大脑具有 CoT 长程推理能力： 自主推理抓取顺序并将所有物体依次抓取

^{DexGraspVLA 可以快速抓取不同形状、大小、材质、软硬度物品}

DexGraspVLA 展现出 对光照变化、 背景干扰和物体姿态的强大鲁棒性和泛化性，让机器人的灵巧抓取达到人类级别。

^{DexGraspVLA 在极端变化的灯光、桌面下仍然保持鲁棒性}

基于预训练的大模型：使用自然语言与人类交互，具有高智能的长程推理能力，能够自主理解人类话语并推理任务。因此可以一次设定多个抓取目标，通过 CoT 实现复杂流程下的自动分拣或清理。

^{DexGraspVLA 可以通过 Planner 自行推理决策完成长程任务，实现 CoT}

DexGraspVLA 仍然会自动分析当前姿态偏差， 通过细微调整腕关节和手部角度重新尝试抓取， 实现非常鲁棒且高效的抓取能力， 达到极强的泛化能力。

^{DexGraspVLA 实现完全闭环控制、实时高频纠错}

网站：https://dexgraspvla.github.io/
论文：https://arxiv.org/abs/2502.20900
代码：https://github.com/Psi-Robot/DexGraspVLA

Retrieval Dexterity

堆叠场景中的高效物体检索策略

强化学习底层驱动，简单 reward 涌现复杂动作

在大多数实际场景中，物品往往以无规则、堆叠的方式摆放。传统方法要求机器人逐件搬开遮挡物，不仅耗时，还对机器人自身抓取能力提出了很高的要求。

为了解决这一难题，灵初智能开发了一套基于强化学习的物体检索策略 —— Retrieval Dexterity，解决了堆叠场景中物体检索识别效率低的问题。

Retrieval Dexterity 系统中未用真机数据，灵初团队 没有采用真机数据进行训练， 而是直接在仿真环境中通过强化学习进行训练。通过在仿真环境中大规模生成复杂的堆叠场景，训练模型直至涌现出合适的检索操作，随后再将这些操作零样本迁移至现实机器人和复杂环境中。

^{Retrieval Dexterity 框架图}

从杂乱堆叠物体中快速取出目标物体

在超过 10 种不同形状、大小的生活物品测试中，Retrieval Dexterity 展现出了优秀的性能，不仅 能够高效完成训练过的物体的检索任务， 还能将检索能力泛化到未见过的新物体上。

^{Retrieval Dexterity 可以快速在堆叠物品中找到并抓取目标物品}

效率对比传统方法提升明显

与人为设定的动作相比，Retrieval Dexterity 在所有场景中平均减少了 38% 的操作步骤。 与模拟的 “将所有物体抓起来并放开” 相比，该方法更是平均减少了 90% 的步骤数量。这种效率提升主要得益于多指灵巧手能够直接与遮挡物进行交互，并随时移动它们，而不需要逐个移除。

^{相较于传统方法，灵初的 Retrieval Dexterity 的步骤更少，效率更高}

论文：https://arxiv.org/abs/2502.18423
网站：https://changwinde.github.io/RetrDex/

ExDex：借力外部环境

抓取 “不可能” 物体

外部灵巧性解决物品超过机器人末端执行器的最大开度问题

当物体的底面尺寸超过机器人末端执行器的最大开度时，传统方法往往无法直接对物体进行抓取，这种情况在商场等商业场景尤为常见。为了解决这一难题，灵初智能推出了 ExDex—— 一种基于外部灵巧性（extrinsic dexterity）抓取的创新解决方案。

ExDex 能够利用环境特征进行非夹持式操作，凭借多指灵巧手的灵活性和操作能力，实现更丰富的环境交互。

强化学习带来超越人类遥操作水平的灵巧操作

^{机器人通过将物品推到墙角借助外力拿起单手无法直接抓取的物品}

通过强化学习， ExDex 涌现出自主制定策略的能力，借助周围环境抓取那些无法直接抓取的物体。例如，机器人可以将物体先推到桌面边缘或墙体边缘，再利用这些环境特征完成抓取任务。这种操作通过传统的遥操作方式几乎无法实现，充分体现了强化学习的强大优势。

在对数十种不同家居物品的大量实验中， ExDex 验证了其优越的性能和对新物体的泛化能力， 并成功将仿真训练的策略无缝迁移到真实机器人中，实现了从仿真到现实的高效过渡。

网站：https://tangty11.github.io/ExDex/

SafeVLA：人机安全交互的 “守护神”

当下，具身智能机器人频繁出圈，从春晚跳舞的 Unitree 人形机器人，到波兰街头遛机器狗的新奇场景，让人看到人机交互的无限可能，但安全问题也不容忽视。视觉 - 语言 - 行动模型（VLAs）在革新机器人技术时，也藏着安全隐患。

^{左图呈现了传统 VLA 模型在抓取任务中的三种典型不安全行为：1）对无关物体的严重损坏，2）目标识别错误导致危险物体的误用，以及 3）执行指令时与危险物体发生交互。右图通过导航路径示例，进一步展示了传统 VLA 在导航过程中的三种不安全行为}

本周，北京大学 PAIR - Lab 团队携手灵初智能重磅推出了具身安全模型 SafeVLA，通过安全对齐，让机器人在复杂场景安全高效执行任务， 在对抗干扰场景中鲁棒性极高。

SafeVLA 把 “以人为本” 刻进 DNA， 不像传统机器人只盯着任务完成， 它把人类安全放在首位。技术上，引入约束马尔可夫决策过程（CMDP）范式，把现实安全约束融入仿真环境大规模采样。 SafeVLA 在安全性和任务执行方面均取得突破性进展， 分别提升 83.58% 和 3.85%， 充分证明了其在平衡安全与效率方面的卓越能力。

^{传统 VLA 模型完成任务过程中的高危行为}

团队开发 全新仿真环境 Safety - CHORES， 集成安全约束功能， 支持用户自定义规则， 代码还完全开源， 直接给全球研究者和开发者送福利。而且，SafeVLA 在 12 个分布外（OOD）实验里，面对光照、材质变化和复杂环境扰动，始终稳定发挥，实力碾压其他模型。

^{SafeVLA 在正常测试集和 OOD 测试集上的比较，其在 OOD 环境下依然保持良好安全性和表现}

网站：https://sites.google.com/view/pku-safevla

产业 Helix 具身大模型 Figure