ReVersion|图像生成中的Relation定制化
- 2023-10-22 21:26:00
- 刘大牛 转自文章
- 228
新任务:Relation Inversion
新任务: Relation Inversion
今年, diffusion model 和相关的定制化( personalization )的工作越来越受人们欢迎,例如 DreamBooth , Textual Inversion , Custom Diffusion 等,该类方法可以将一个具体物体的概念从图片中提取出来,并加入到预训练的 text-to-image diffusion model 中,这样一来,人们就可以定制化地生成自己感兴趣的物体,比如说具体的动漫人物,或者是家里的雕塑,水杯等等。
现有的定制化方法主要集中在捕捉物体 外观 (appearance) 方面。然而,除了物体的 外观,视觉世界还有另一个重要的支柱,就是物体与物体之间千丝万缕的 关系( relation ) 。目前还没有工作探索过如何从图片中提取一个具体关系( relation ),并将该 relation 作用在生成任务上。为此,我们提出了一个新任务: Relation Inversion 。
如上图,给定几张参考图片,这些参考图片中有一个共存的 relation ,例如 “ 物体 A 被装在 物体 B 中 ” , Relation Inversion 的目标是找到一个 relation prompt <R> 来描述这种交互关系,并将其应用于生成新的场景,让其中的物体也按照这个 relation 互动,例如将蜘蛛侠 装进篮子里。
- 论文: https://arxiv.org/abs/2303.13495
- 代码: https://github.com/ziqihuangg/ReVersion
- 主页: https://ziqihuangg.github.io/projects/reversion.html
- 视频: https://www.youtube.com/watch?v=pkal3yjyyKQ
- Demo : https://huggingface.co/spaces/Ziqi/ReVersion
ReVersion 框架
作为针对 Relation Inversion 问题的首次尝试,我们提出了 ReVersion 框架:
相较于已有的 Appearance Invesion 任务, Relation Inversion 任务的难点在于怎样告诉模型我们需要提取的是 relation 这个相对抽象的概念,而不是物体的外观这类有显著视觉特征的方面。
我们提出了 relation-focal importance sampling 策略来鼓励 <R> 更多地关注 high-level 的 relation ;同时设计了 relation-steering contrastive learning 来引导 <R> 更多地关注 relation ,而非物体的外观。更多细节详见论文。
ReVersion Benchmark
我们收集并提供了 ReVersion Benchmark : https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark
它包含丰富多样的 relation ,每个 relation 有多张 exemplar images 以及人工标注的文字描述。我们同时对常见的 relation 提供了大量的 inference templates ,大家可以用这些 inference templates 来测试学到的 relation prompt<R> 是否精准,也可以用来组合生成一些有意思的交互场景。
结果展示
丰富多样的 relation
我们可以 invert 丰富多样的 relation ,并将它们作用在新的物体上
丰富多样的背景以及风格
我们得到的 relation <R> ,还可以将不同 风格和 背景场景中的物体,按照特定的方式联系在一起。
同一个 Relation ,丰富多样的物体组合
MMLab是深度学习领域的先驱之一,致力于计算机视觉和深度学习研究,在香港中文大学、南洋理工大学、香港大学和悉尼大学等地均设有实验室。 官网地址: https://www.mmlab-ntu.com/ https://mmlab.ie.cuhk.edu.hk/
https://www.mmlab-ntu.com联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |