新任务：Relation Inversion

新任务： Relation Inversion

今年， diffusion model 和相关的定制化（ personalization ）的工作越来越受人们欢迎，例如 DreamBooth ， Textual Inversion ， Custom Diffusion 等，该类方法可以将一个具体物体的概念从图片中提取出来，并加入到预训练的 text-to-image diffusion model 中，这样一来，人们就可以定制化地生成自己感兴趣的物体，比如说具体的动漫人物，或者是家里的雕塑，水杯等等。

现有的定制化方法主要集中在捕捉物体外观 (appearance) 方面。然而，除了物体的外观，视觉世界还有另一个重要的支柱，就是物体与物体之间千丝万缕的 关系（ relation ）。目前还没有工作探索过如何从图片中提取一个具体关系（ relation ），并将该 relation 作用在生成任务上。为此，我们提出了一个新任务： Relation Inversion 。

如上图，给定几张参考图片，这些参考图片中有一个共存的 relation ，例如 “ 物体 A 被装在 物体 B 中 ” ， Relation Inversion 的目标是找到一个 relation prompt <R> 来描述这种交互关系，并将其应用于生成新的场景，让其中的物体也按照这个 relation 互动，例如将蜘蛛侠装进篮子里。

论文： https://arxiv.org/abs/2303.13495
代码： https://github.com/ziqihuangg/ReVersion
主页： https://ziqihuangg.github.io/projects/reversion.html
视频： https://www.youtube.com/watch?v=pkal3yjyyKQ
Demo ： https://huggingface.co/spaces/Ziqi/ReVersion

ReVersion 框架

作为针对 Relation Inversion 问题的首次尝试，我们提出了 ReVersion 框架：

相较于已有的 Appearance Invesion 任务， Relation Inversion 任务的难点在于怎样告诉模型我们需要提取的是 relation 这个相对抽象的概念，而不是物体的外观这类有显著视觉特征的方面。

我们提出了 relation-focal importance sampling 策略来鼓励 <R> 更多地关注 high-level 的 relation ；同时设计了 relation-steering contrastive learning 来引导 <R> 更多地关注 relation ，而非物体的外观。更多细节详见论文。

ReVersion Benchmark

我们收集并提供了 ReVersion Benchmark ： https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark

它包含丰富多样的 relation ，每个 relation 有多张 exemplar images 以及人工标注的文字描述。我们同时对常见的 relation 提供了大量的 inference templates ，大家可以用这些 inference templates 来测试学到的 relation prompt<R> 是否精准，也可以用来组合生成一些有意思的交互场景。