
AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

High-level Planner:高层规划由预训练的大型视觉语言模型(VLM)实现, 可理解多样化指令、自主决定抓取策略。
Low-level Controller:低层扩散策略通过 实时视觉反馈, 闭环掌握目标物体, 智能涌现出灵巧操作能力。

根据语言指令分辨出目标物体,处理堆叠场景下的 目标物体的检索并抓取
抓取速度快(所有视频无加速,同类工作中节拍较快), 闭环姿态矫正与重抓取能力(ReGrasp)
大脑具有 CoT 长程推理能力: 自主推理抓取顺序并将所有物体依次抓取




网站:https://dexgraspvla.github.io/
论文:https://arxiv.org/abs/2502.20900
代码:https://github.com/Psi-Robot/DexGraspVLA




论文:https://arxiv.org/abs/2502.18423
网站:https://changwinde.github.io/RetrDex/

网站:https://tangty11.github.io/ExDex/



网站:https://sites.google.com/view/pku-safevla