重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖 - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为上海交通大学实习生卫振宇和新加坡国立大学博士生徐志轩，主要研究方向为机器人学习和灵巧操纵，其余作者分别为实习生郭京翔，博士生侯懿文、高崇凯，以及硕士生蔡哲豪、罗嘉宇。本文的通讯作者为新加坡国立大学助理教授邵林。

想象一下，市面上有数十种形态各异的灵巧手，每一款都被设计得精巧而独特。然而，是否有可能存在一种通用的抓取策略，无需为每款灵巧手单独优化，却能够适应各种机器人手型和多样物体形状？这一看似遥不可及的梦想，正在逐步成为现实。

灵巧抓取是机器人操作领域的一项核心挑战，它要求机器人手能够与物体实现精确且稳定的交互接触。然而，如何有效建模这种高自由度且复杂的交互关系，并生成精准、多样且高效的抓取策略，一直是该领域亟待解决的难题。

近期，新加坡国立大学计算机学院的邵林团队提出了 D(R,O) Grasp：一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系，成功实现了对多种机器人手型与物体几何形状的高度泛化能力，为灵巧抓取技术的未来开辟了全新的方向。该论文 在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award。

论文标题：

D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
项目主页：

https://nus-lins-lab.github.io/drograspweb/
论文链接：

https://arxiv.org/abs/2410.01702
代码链接：

https://github.com/zhenyuwei2003/DRO-Grasp

一、引言

灵巧抓取是机器人完成复杂操作任务的关键，但由于灵巧手的高自由度及稳定抓取所需的复杂交互，任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。

机器人中心方法（如手腕姿态或关节角度表示）直接将观测映射为控制命令，推理速度快，但样本效率低，且因映射依赖特定机器人结构，难以泛化到不同手型。

物体中心方法（如接触点和接触热力图表示）通过描述物体几何与接触信息，泛化能力强，适应不同物体和手型。然而，需额外优化步骤（如指尖逆运动学求解）将预测结果转化为运动学可行的抓取姿态，计算复杂且耗时。

为克服这些局限，我们提出交互中心 (interaction-centric) 的统一表示 D(R,O)。该方法捕捉机器手运动学与物体几何的交互关系，弥补机器人中心方法的泛化不足，同时提升物体中心方法的推理效率，实现跨机器人手型与物体形状的泛化，为灵巧抓取提供高效且鲁棒的解决方案。

^{图 1 灵巧手抓取方法比较}

二、方法

^{图 2 D(R,O) Grasp 整体框架}

给定物体点云和机器人手的 URDF 文件，模型的目标是生成灵巧且多样化的抓取姿态，能够在不同的物体和机器人手型之间实现广泛的泛化。D(R,O) Grasp 整体框架如图 2 所示，主要有以下三个部分组成：

1. 基于对比学习的配置不变预训练

2. D(R,O)表征预测

3. 基于 D(R,O) 表征的抓取姿态生成

2.1 基于对比学习的配置不变预训练

学习灵巧抓取需要理解机器手与物体的空间关系，目标是将机器手的特定配置与物体匹配。然而，由于不同配置下机器手整体姿态变化显著，模型难以捕捉局部几何特征的一致性。为此，我们提出一种配置不变的预训练方法，通过训练神经网络对齐不同配置下的几何特征，促进匹配并提升多姿态适应能力。

我们首先采样并存储机器手各 link 的点云数据。基于前向运动学模型，可为任意配置计算对应点云，确保不同配置下点云的一致性。在预训练中，规范配置（如张开手姿态）和抓取配置的点云分别输入机器人编码器网络提取逐点特征。我们通过点间欧氏距离加权正负点对关系，进行逐点对比学习，并计算如下损失函数：

该方法通过对齐不同配置下编码器的几何特征，简化机器手与物体匹配难度，提高模型的泛化能力。

2.2 D(R,O) 表征预测

我们预测的 D(R,O) 表征是一个机器手点云和物体点云之间相对距离矩阵（Distances of Robot and Object）。首先，我们使用两个相同结构的编码器分别提取机器手点云和物体点云的几何特征：

在此过程中，机器手的编码器使用预训练网络并在训练中保持冻结。为建立两组特征的对应关系，我们引入两个 Transformer 模型嵌入点间对应信息，并使用残差连接：

为实现跨智能体抓取的多样性，我们采用条件变分自编码器（CVAE）网络捕捉机器手、物体与抓取姿态的多种组合变化。具体而言，将机器手与物体在抓取姿态下的点云拼接后输入 CVAE 编码器，利用点云特征作为条件生成隐变量。随后，将隐变量与每个点特征拼接，得到机器手和物体的综合特征。

对于机器手某点与物体某点的综合特征，我们采用结合 MLP 网络和 softplus 函数的核函数计算相对距离，确保结果具有对称性和非负性：

通过对所有点对进行上述计算，我们最终得到完整的 D(R,O) 表征如下：

2.3 基于 D(R,O) 表征的抓取姿态生成

给定预测的 D(R,O) 表征，我们获得了机器人手点云与物体点云之间的相对距离关系。由于物体点云已知，我们可利用这些距离关系通过多点定位（Multilateration）技术计算出隐式描述的机器人手点云。本质上，这是一个最小二乘优化问题：

该问题已证明具有闭式解，可快速计算机器人手点云。在三维空间中，确定一个点的位置仅需四个相对距离，而 D(R,O) 表征提供了上百个距离。相比直接预测点云，这种表征对神经网络预测误差更加鲁棒。

得到机器人手点云后，为求解相应关节值，我们将逆运动学分为两步：首先，使用 SVD 分解从点云计算出每个 link 的 6D 姿态；然后，以这些 6D 姿态为优化目标，利用雅克比矩阵迭代更新初始关节值，最终得到期望抓取姿态的关节值。

这一优化过程约束简单，即便是 ShadowHand 等高自由度灵巧手，也可在不到 1 秒内完成优化，大幅提升抓取生成速度。

三、实验结果

^{图 3 与 baseline 的实验结果对比}

在实验中，我们评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试，使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。图 3 表显示，我们的方法在所有灵巧手上都显著超越了现有方法的成功率，验证了方法的有效性。此外，生成速度亦大幅优于其他方法，这对灵巧操控任务至关重要。

^{图 4 生成抓取与 baseline 失败抓取可视化}

与基准方法相比，我们的方法生成的抓取姿态更自然且鲁棒，而基准方法易产生不自然、穿透严重且稳定性差的抓取。

^{图 5 不同条件下实验结果对比}

从图 5 表前两行可见，跨智能体训练较单一机器人训练在成功率上略有提升，证明了跨智能体的良好泛化能力。即便输入部分点云，我们的方法也能取得优异表现，展示了其广泛适用性。

^{图 6 多样化的抓取姿态生成}

由于训练数据中输入和抓取旋转已对齐，模型能隐式映射这些旋转，从而根据输入方向生成适宜抓取姿态。如图 6 所示，六个不同方向下模型均生成可行抓取，体现方法的可控性。同时，通过从正态分布中采样隐变量，模型在相同方向上生成多个抓取姿态，展现多样性。

^{图 7 预训练点云匹配可视化}

图 7 展示了预训练模型捕捉到的不同配置下几何特征的对齐关系，不同机器人手间的强匹配性突显了特征的迁移能力。正如图 3 表所示，去除预训练参数直接训练编码器会导致性能显著下降，进一步证明预训练的重要性。

^{图 8 真机实验效果}

在真实机器人实验中，算法部署到 XArm 和 LeapHand 上，并在 10 个全新物体实验中达成 89% 成功率，展现了方法在灵巧抓取中的有效性和良好泛化能力。更多实验视频请见项目主页。

四、总结

在本论文中，我们提出了一种基于相对距离矩阵 D(R,O) 的新颖表征方法，用于捕捉机器人手与物体之间的交互信息，从而提升灵巧手的抓取性能。与现有方法过于依赖特定物体或机器手表示的局限性不同，我们的方法通过引入统一框架弥合了这种差距，并在不同机器人和物体几何形状之间实现了良好的泛化能力。此外，我们设计的预训练方法有效增强了模型适应不同手部配置的能力，从而支持广泛的机器人系统应用。实验结果表明，我们的方法在抓取成功率、姿态多样性以及计算效率方面均取得了显著提升，为灵巧抓取任务提供了新的解决方案。

工程 CoRL 2024 MAPoDeL Workshop O) Grasp D(R

联系人：	透明七彩巨人
Email：	weok168@gmail.com