


论文标题:Intuitive physics understanding emerges from self-supervised pretraining on natural videos 论文地址:https://arxiv.org/pdf/2502.11831v1 项目地址:https://github.com/facebookresearch/jepa-intuitive-physics


结构化模型利用手工编码的物体及其在欧几里得三维空间中关系的抽象表示,产生一个能够捕捉人类物理直觉的强大的心理「游戏引擎」。这类模型可以被视为核心知识假说的一种可能的计算实现。 基于像素的生成模型采取了完全相反的观点,否认需要任何硬编码的抽象。相反,它们提出了一种通用学习机制,即基于过去的感知输入(如图像)重建未来的感知输入。





