可在手机终端部署，人大等提出全新人物图片保护模型RID - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

RID 的作者来自于中国人民大学和 Sea AI Lab。第一作者为香港大学在读博士生郭瀚中，该工作为其硕士期间完成，其研究方向为扩散模型。本文由中国人民大学孙浩教授和李崇轩教授共同指导，其他作者包括中国人民大学博士生聂燊和 Sea AI Lab 研究员庞天宇和杜超。

近年来许多论文研究了基于扩散模型的定制化生成，即通过给定一张或几张某个概念的图片，通过定制化学习让模型记住这个概念，并能够生成这个概念的新视角、新场景图片。

但是当有用户恶意使用定制化生成技术，例如利用发布在社交平台的照片生成假照片，会对用户的隐私权造成威胁。一些研究通过对原始图片加扰动的方式来保护图片不被定制化学习，而由于这些研究都是通过梯度上升的方式去优化对应的扰动，因此瓶颈在于计算时间和计算开销上，为了给一个图片添加保护的扰动，需要花费几分钟甚至几十分钟，并且需要较大的显存消耗。

本文中，中国人民大学和 Sea AI Lab 联名提出名为 RID 的全新人物图片保护模型，通过一个提前训练的小网络实现输入图片输出扰动的方式，在 RID 范式下，图片的防定制化保护只需要几十毫秒并且可以在用户手机终端部署。

论文标题：Real-time Identity Defenses against Malicious Personalization of Diffusion Models
论文地址：https://arxiv.org/pdf/2412.09844
项目地址：https://github.com/Guohanzhong/RID

为了更助于理解，RID 提供了涉及到的不同任务和解决方案的流程框图。定制化学习的概念是指用户提供几张同个概念的几张图片（RID 聚焦在人物的保护上），微调预训练扩散模型，如下图 a 所示。在定制化学习完后，用户可以利用定制化微调模型实现原始概念的新图片生成，如下图 b 所示。而目前为了保护图片不被定制化，存在的方案是基于预训练模型梯度上升优化一个微小扰动，但是这个过程对计算时间和计算量要求较大，如下图 c 所示。而 RID 是利用 Adv-SDS 的方式在使用前优化一个小网络，如下图 d 所示。RID 使用的时候即输入图片输出扰动，实现低成本、实时的图片保护，如下图 e 所示。当对 RID 保护后的图片再进行定制化学习，微调得到的定制化模型则已经无法生成真实、正常的图片，即图片被定制化保护成功，如图 f 所示。

对抗得分蒸馏采样 Adv-SDS

RID 的目标是通过一个小网络的单步推理，实现对图片增加微小的扰动实现图片不被成功定制化学习。受到 Dreamfusion 的 score distillation sampling (SDS) 启发，RID 与 Dreamfusion 本质上都是优化一个图片生成器，在 Dreamfusion 里是不同角度渲染图片，而 RID 的场景是通过添加一个扰动得到一个 “新” 的图片。而 RID 与 Dreamfusion 的任务定义不同，Dreamfusion 目的是生成一个不同角度渲染的图片符合扩散模型空间的，因此需要 SDS 损失最小，而我们是希望 RID 保护后的图片不被定制化学习，因此通过引入一个最大化 SDS 损失的 Adv-SDS。

但实验中 RID 发现，如果只通过 Adv-SDS 优化，RID 会陷入局部最优，RID 产生的扰动是网格状的，为了更好的保护效果以及让扰动更不易察觉，RID 还引入了一个回归损失。RID 会提前离线产生干净图片、扰动数据对，这个扰动是通过基于梯度优化的方式制造的，例如 AdvDM 或 Anti-DB 等。完整的 RID 优化见下图所示，相比仅采用其中一种损失优化，在两个损失共同优化下，RID 可以达到较好的保护效果。

模型架构：由于 RID 的目的是输入图片，输入扰动，这个任务和扩散模型网络的任务类似，扩散模型是输入带噪图片，输出预测噪声，因此本文采用 DiT 作为主要网络架构，由于我们不需要额外的条件引导，因此 RID 的网络架构是将 DiT 的条件注入变成常数。此外为了限制 RID 的输出扰动大小，RID 会在网络最后增加一个 tanh 非线性映射并进行缩放达到每个 RID 网络可以产生不同大小约束的扰动。

实验结果

训练评估测试集构建：RID 的训练数据集是经过筛选后的 70k VGG-Face 2 数据集，评估集是从 Celeba-HQ 中随机筛选的 15 个 ID，每个 ID 的 12 张图片组成的。

评估方式：对于每个 ID，会对 12 张干净图片或者不同方法的保护图片进行定制化学习，定制化学习均采用 Dreambooth 损失，微调参数为 Textual Inversion (TI)，TI + LoRA，全参数微调 (DB)，RID 默认的评估定制化方法为 TI + LoRA，训练的 prompt 均为 “photo of a <news>/sks person”。用每组定制化模型再推理 12 张图片，定量评测的时候推理均用 “photo of a <news>/sks person”，定性分析的时候会做任意文本的组合泛化生成。

从下图 a 中可以看出，经过 RID 保护的图片可以有效的实现图片的反定制化，即保护后的图片的定制化模型无法生成正常的图片。并且图 b 展示了不同方法之间的保护对数时间，RID 可以在一张 GPU 上实现 8.33 Images/Second 的保护速度，虽然图 c 展示 RID 的定量指标上有所下降，但从图 d 的定性中说明不同方法间均能使用有效的保护，因此说明 RID 的有效性。

并且 RID 能够在不同定制化方法、不同定制化使用的预训练模型、不同噪声幅度下均达到有效的保护效果。

并且对于黑盒攻击场景和图片后处理场景下，无论从定性上还是定量上，RID 均可以展现出有效的保护效果。下图展示了 RID 保护成功的原理，相比干净图片，RID 保护的图片在扩散模型不同时间步上的损失均有较大程度的上升，而定制化模型本质上只是引入了一个新的概念，对于同一组图片，定制化前后的模型损失变化并不大，因此没办法覆盖 RID 增加扰动所带来的损失上升，因此 RID 保护的图片对于模型而言是一个 OOD 的图片概念，模型无法正确学习到并且生成。

思考和展望

目前基于 SD 系列集成训练的 RID 展现出来了鲁棒的保护能力，但目前主流开源的还有许多 DiT 架构的扩散模型，因此未来如何将 DiT 架构的扩散模型融合进 Adv-SDS 一起优化实现更鲁棒的保护效果值得探索。此外，目前 RID 的扰动仍然是随机优化的扰动，未来能否设计一种具有良性作用的扰动，例如将扰动设计为妆照，也是值得更深入的研究。

理论图片生成隐私保护

联系人：	透明七彩巨人
Email：	weok168@gmail.com