AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
RID 的作者来自于中国人民大学和 Sea AI Lab。第一作者为香港大学在读博士生郭瀚中,该工作为其硕士期间完成,其研究方向为扩散模型。本文由中国人民大学孙浩教授和李崇轩教授共同指导,其他作者包括中国人民大学博士生聂燊和 Sea AI Lab 研究员庞天宇和杜超。
近年来许多论文研究了基于扩散模型的定制化生成,即通过给定一张或几张某个概念的图片,通过定制化学习让模型记住这个概念,并能够生成这个概念的新视角、新场景图片。
但是当有用户恶意使用定制化生成技术,例如利用发布在社交平台的照片生成假照片,会对用户的隐私权造成威胁。一些研究通过对原始图片加扰动的方式来保护图片不被定制化学习,而由于这些研究都是通过梯度上升的方式去优化对应的扰动,因此瓶颈在于计算时间和计算开销上,为了给一个图片添加保护的扰动,需要花费几分钟甚至几十分钟,并且需要较大的显存消耗。
本文中,中国人民大学和 Sea AI Lab 联名提出名为 RID 的全新人物图片保护模型,通过一个提前训练的小网络实现输入图片输出扰动的方式,在 RID 范式下,图片的防定制化保护只需要几十毫秒并且可以在用户手机终端部署。
论文标题:Real-time Identity Defenses against Malicious Personalization of Diffusion Models
论文地址:https://arxiv.org/pdf/2412.09844
项目地址:https://github.com/Guohanzhong/RID
为了更助于理解,RID 提供了涉及到的不同任务和解决方案的流程框图。定制化学习的概念是指用户提供几张同个概念的几张图片(RID 聚焦在人物的保护上),微调预训练扩散模型,如下图 a 所示。在定制化学习完后,用户可以利用定制化微调模型实现原始概念的新图片生成,如下图 b 所示。而目前为了保护图片不被定制化,存在的方案是基于预训练模型梯度上升优化一个微小扰动,但是这个过程对计算时间和计算量要求较大,如下图 c 所示。而 RID 是利用 Adv-SDS 的方式在使用前优化一个小网络,如下图 d 所示。RID 使用的时候即输入图片输出扰动,实现低成本、实时的图片保护,如下图 e 所示。当对 RID 保护后的图片再进行定制化学习,微调得到的定制化模型则已经无法生成真实、正常的图片,即图片被定制化保护成功,如图 f 所示。
对抗得分蒸馏采样 Adv-SDS
RID 的目标是通过一个小网络的单步推理,实现对图片增加微小的扰动实现图片不被成功定制化学习。受到 Dreamfusion 的 score distillation sampling (SDS) 启发,RID 与 Dreamfusion 本质上都是优化一个图片生成器,在 Dreamfusion 里是不同角度渲染图片,而 RID 的场景是通过添加一个扰动得到一个 “新” 的图片。而 RID 与 Dreamfusion 的任务定义不同,Dreamfusion 目的是生成一个不同角度渲染的图片符合扩散模型空间的,因此需要 SDS 损失最小,而我们是希望 RID 保护后的图片不被定制化学习,因此通过引入一个最大化 SDS 损失的 Adv-SDS。
但实验中 RID 发现,如果只通过 Adv-SDS 优化,RID 会陷入局部最优,RID 产生的扰动是网格状的,为了更好的保护效果以及让扰动更不易察觉,RID 还引入了一个回归损失。RID 会提前离线产生干净图片、扰动数据对,这个扰动是通过基于梯度优化的方式制造的,例如 AdvDM 或 Anti-DB 等。完整的 RID 优化见下图所示,相比仅采用其中一种损失优化,在两个损失共同优化下,RID 可以达到较好的保护效果。
模型架构:由于 RID 的目的是输入图片,输入扰动,这个任务和扩散模型网络的任务类似,扩散模型是输入带噪图片,输出预测噪声,因此本文采用 DiT 作为主要网络架构,由于我们不需要额外的条件引导,因此 RID 的网络架构是将 DiT 的条件注入变成常数。此外为了限制 RID 的输出扰动大小,RID 会在网络最后增加一个 tanh 非线性映射并进行缩放达到每个 RID 网络可以产生不同大小约束的扰动。
实验结果
训练评估测试集构建:RID 的训练数据集是经过筛选后的 70k VGG-Face 2 数据集,评估集是从 Celeba-HQ 中随机筛选的 15 个 ID,每个 ID 的 12 张图片组成的。
评估方式:对于每个 ID,会对 12 张干净图片或者不同方法的保护图片进行定制化学习,定制化学习均采用 Dreambooth 损失,微调参数为 Textual Inversion (TI),TI + LoRA, 全参数微调 (DB),RID 默认的评估定制化方法为 TI + LoRA,训练的 prompt 均为 “photo of a <news>/sks person”。用每组定制化模型再推理 12 张图片,定量评测的时候推理均用 “photo of a <news>/sks person”,定性分析的时候会做任意文本的组合泛化生成。
从下图 a 中可以看出,经过 RID 保护的图片可以有效的实现图片的反定制化,即保护后的图片的定制化模型无法生成正常的图片。并且图 b 展示了不同方法之间的保护对数时间,RID 可以在一张 GPU 上实现 8.33 Images/Second 的保护速度,虽然图 c 展示 RID 的定量指标上有所下降,但从图 d 的定性中说明不同方法间均能使用有效的保护,因此说明 RID 的有效性。
并且 RID 能够在不同定制化方法、 不同定制化使用的预训练模型、不同噪声幅度下均达到有效的保护效果。
并且对于黑盒攻击场景和图片后处理场景下,无论从定性上还是定量上,RID 均可以展现出有效的保护效果。下图展示了 RID 保护成功的原理,相比干净图片,RID 保护的图片在扩散模型不同时间步上的损失均有较大程度的上升,而定制化模型本质上只是引入了一个新的概念,对于同一组图片,定制化前后的模型损失变化并不大,因此没办法覆盖 RID 增加扰动所带来的损失上升,因此 RID 保护的图片对于模型而言是一个 OOD 的图片概念,模型无法正确学习到并且生成。
思考和展望
目前基于 SD 系列集成训练的 RID 展现出来了鲁棒的保护能力,但目前主流开源的还有许多 DiT 架构的扩散模型,因此未来如何将 DiT 架构的扩散模型融合进 Adv-SDS 一起优化实现更鲁棒的保护效果值得探索。此外,目前 RID 的扰动仍然是随机优化的扰动,未来能否设计一种具有良性作用的扰动,例如将扰动设计为妆照,也是值得更深入的研究。