李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
- 2024-12-23 12:59:00
- 刘大牛 转自文章
- 243
希望 2025 年 AI 领域能带来推理之外的突破。
论文地址:https://arxiv.org/pdf/2412.14171v1 论文主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/ 论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
发现 1:空间推理是影响 MLLM 在 VSI-Bench 上的主要瓶颈。 发现 2:语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。 发现 3:在记忆空间时,MLLM 会根据给定的视频在模型中形成一系列局部世界模型,而不是统一的全局模型。
发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |