视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法 - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

本文作者来自西安交通大学、南洋理工大学、新加坡科技管理局前沿研究中心。作者列表：郭淇，庞善民，加小俊，Liu Yang 和郭青。其中，第一作者郭淇是西安交通大学博士生。通讯作者西安交通大学庞善民副教授（主页：https://gr.xjtu.edu.cn/web/pangsm）和南洋理工大学的加小俊博士后研究员（主页：https://jiaxiaojunqaq.github.io）。论文已被计算机网络信息安全领域顶级期刊IEEE TIFS录用。

对抗攻击，特别是基于迁移的有目标攻击，可以用于评估大型视觉语言模型（VLMs）的对抗鲁棒性，从而在部署前更全面地检查潜在的安全漏洞。然而，现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构，导致成本较高。此外，由于对抗语义的不自然性，生成的对抗样本的迁移性较低。这些问题限制了现有方法在鲁棒性评估中的实用性。

为了解决这些问题，作者提出了 AdvDiffVLM，一种利用扩散模型通过得分匹配生成自然、无约束且具有针对性对抗样本的方法。具体而言，AdvDiffVLM 使用自适应集成梯度估计（Adaptive Ensemble Gradient Estimation, AEGE），在扩散模型的反向生成过程中调整得分，确保生成的对抗样本具备自然的针对性对抗语义，从而提升迁移性。

同时，为了提高对抗样本的质量，他们引入 GradCAM 引导的掩模生成（GradCAM-guided Mask Generation, GCMG），将对抗语义分散到整个图像中，而不是集中在单一区域。最后，AdvDiffVLM 通过多次迭代，将更多目标语义嵌入到对抗样本中。实验结果表明，与最新的基于迁移的对抗攻击方法相比，该方法生成对抗样本的速度提高了 5 到 10 倍，同时保持了更高质量的对抗样本。

此外，与之前的基于迁移的对抗攻击方法相比，该方法生成的对抗样本具有更好的迁移性。值得注意的是，AdvDiffVLM 能够在黑箱环境中成功攻击多种商用视觉语言模型，包括 GPT-4V。

论文题目：Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models
论文链接：https://arxiv.org/abs/2404.10335
代码链接：https://github.com/gq-max/AdvDiffVLM

研究背景

大型视觉语言模型（VLMs）在图像生成文本和文本生成图像等任务中表现出色，广泛应用于自动驾驶、视觉辅助和内容审核等领域。然而，VLMs 对对抗攻击高度敏感，可能引发安全隐患。因此，评估其对抗鲁棒性至关重要。

早期研究主要集中于白盒和非针对性攻击，但黑盒和针对性攻击对模型构成更大威胁，因而更具研究价值。现有方法如 AttackVLM 在黑盒和针对性场景中具有开创性，但由于其高查询次数和复杂结构，效率较低，难以满足全面评估的需求。此外，基于迁移的攻击方法尽管适用于黑盒场景，但其生成对抗样本速度缓慢，且对抗语义不自然，限制了迁移性。无限制对抗样本的出现为解决这些问题提供了新思路，通过融入自然的对抗语义，提升了对抗样本的质量和迁移性。然而，这些方法在针对 VLMs 时仍存在高成本和适用性问题。

本文提出了 AdvDiffVLM，一个高效框架，通过扩散模型和得分匹配生成自然、无约束且具有针对性的对抗样本。得分匹配最初由 Hyvarinen 等人提出，用于概率密度估计，并由 Song 等人引入图像生成领域，证明了其通过修改得分函数指导生成目标语义图像的能力。基于这些进展，Song 等人将得分匹配与扩散模型结合，大幅提升了图像质量。

受此启发，本文研究了得分匹配在 VLM 攻击中的应用，旨在嵌入比现有方法（如 AdvDiffuser）更丰富的对抗目标语义。

本文提出了专门针对 VLM 攻击的得分生成理论，并在此基础上开发了自适应集成梯度估计（AEGE）。为提高生成结果的自然性，作者设计了 GradCAM 引导的掩模生成模块（GMGC），有效分散对抗目标语义，避免对抗特征集中在图像特定区域，从而提升整体图像质量。此外，通过多次迭代进一步嵌入目标语义，优化对抗样本的视觉质量。与传统方法的对比如图 1 所示。

图 1：不同基于迁移的攻击方法与本文方法在 VLM 上的对比：(a) 攻击性能对比。(b) 图像质量对比。

动机与理论分析

随着视觉语言模型（VLMs）在自动驾驶和内容审核等关键应用中的广泛部署，确保其在对抗攻击下的鲁棒性已成为维护系统安全性和可靠性的必要条件。尽管现有方法在评估 VLM 鲁棒性方面取得了一定进展，但在效率和效果上仍面临基本局限性。高计算成本和有限的迁移性限制了对多样化 VLM 的全面鲁棒性评估能力。这一挑战激发了本文的研究，旨在开发一种高效、高质量且具有良好迁移性的方法来生成对抗样本，从而更有效地评估 VLM 的鲁棒性。作者通过借助扩散模型和得分匹配技术的洞见，实现了这一目标。

作者希望在反向生成过程中获得满足以下条件的分布，即对抗样本具有目标语义信息：

接下来，他们从 score matching 的角度出发，考虑该分布的 score。根据贝叶斯定理：

其中第一项和第二项分别表示添加目标文本语义的噪声过程和不含目标语义的噪声过程。从直观的角度看，无论是否存在目标文本，前向噪声添加过程都遵循高斯分布，并且添加的噪声保持一致，这表明梯度仅依赖于 x_t。由于在生成对抗样本时会施加约束以确保对抗样本与原始图像的变化最小，故无目标文本的 x_t 与包含目标文本的 x_t 之间的差异很小。因此最终的 score 为:

因为 score matching 和去噪是等价过程，因此最终的 score 为：

方法

图 2：自适应集成梯度估计（AEGC）的框架

作者使用替代模型（CLIP）去估计梯度，进而去估计 score。由于单个替代模型估计的 score 并不准确，因此他们使用了集成的方法去估计 score：

由于不同的图像对于不同的替代模型的敏感程度不同，他们使用了自适应的方式减少具有快速变化损失的替代模型的权重，以确保不同替代模型的梯度估计同时更新：

基于上述方式，作者提出了自适应集成梯度估计方法（AEGE），如图 2 所示，但观察到仅仅依赖它在特定区域产生明显的对抗特征，导致较差的视觉效果。为了平衡视觉质量和攻击能力，他们进一步提出了 GradCAM 引导的掩码生成（GCMG），它使用一个掩模将前向噪声图像和生成的图像结合起来。这种组合将对抗性语义分布到整个图像中，提高了对抗性示例的自然视觉质量。

图 3：AdvDiffVLM 的主要框架

最后他们使用 AEGE 和 GCMG 来生成对抗样本，如图 3 所示。

实验效果

开源 VLM 上的结果

表 1：在开源 VLM 上几种方法生成的对抗样本的有效性比较。

表 1 展示了不同方法在开源 VLM 上攻击的结果。显然，本文的方法在攻击能力，迁移能力以及生成速度方面都优于 baselines。作者也进一步展示了可视化结果，如图 4 所示，可以看出本文的方法能够成功诱导 VLM 输出目标响应。

图 4：开源 VLM 攻击的可视化结果

商业大模型上的结果

表 2：在商业大模型上几种方法生成的对抗样本的有效性比较。

作者也在商业大模型上进行了评估，如表 2 所示，他们的方法与 baseline 相比，诱导商业大模型输出目标响应的可能性更高。作者进一步可视化了商业大模型的输出结果，如图 5 所示，可以看出商业大模型输出了他们想要的目标语义。

图 5：商业大模型上攻击的可视化结果

防御能力比较

表 3：防御实验的比较结果。

防御方法可以大致分为对抗训练和数据预处理。由于对抗性训练的高时间、资源成本和不稳定性，尚未应用于 VLM 防御。相比之下，数据预处理是独立于模型和高度适应性的，使其成为跨各种模型的流行防御策略。

为了证明本文的方法在抵抗数据预处理攻击方面的有效性，作者对位缩减、STL、JPEG 压缩、DISCO、DISCO+JPEG 和 DiffPure 进行了广泛的实验。实验结果如表 3 所示，本文的方法在所有的防御实验中都优于 baseline。

图像质量比较

表 4：图像质量的比较结果

图 6：图像质量比较。

对抗样本的图像质量同样至关重要，质量较差的对抗样本容易被检测到。作者使用四个评估指标来进一步评估生成对抗样本的图像质量：SSIM、FID、LPIPS 和 BRISQUE。

正如表 4 所示，与 baseline 相比，本文方法生成的对抗样本具有更高的图像质量。具体来说，在 SSIM、LPIPS 和 FID 评估指标上，本文的方法显著优于基准方法。而在 BRISQUE 指标上，AdvDiffuser 的表现优于本文的方法。这是因为 BRISQUE 是一种无需参考的图像质量评估算法，对模糊、噪声、色彩变化等非常敏感。正如图 6 所示，AdvDiffuser 生成的对抗样本在这些元素上缺乏明显异常，因此其结果略优于本文的方法。然而，从图 6 可以看出，本文方法引入的扰动是语义性的，而 AdvDiffuser 显著改变了非显著区域，导致较差的视觉效果。这表明 AdvDiffuser 生成的对抗样本不适用于更复杂的场景，例如攻击 VLMs。此外，基于迁移的方法生成的对抗样本中存在显著噪声，这进一步表明本文的方法在图像质量方面具有明显优势。

结语

在本研究中，作者提出了 AdvDiffVLM，一种针对视觉语言模型（VLMs）的无约束且具有针对性的对抗样本生成方法。他们基于 score matching 的思想设计了自适应集成梯度估计模块（AEGE），将目标语义嵌入到对抗样本中，从而能够更高效地生成具有增强迁移性的针对性对抗样本。为平衡对抗样本的质量与攻击效果，作者提出了 GradCAM 引导的掩码生成模块（GCMG）。此外，通过多次迭代，他们进一步加强了目标语义在对抗样本中的嵌入效果。大量实验表明，与基准方法相比，他们的方法生成针对性对抗样本的速度提高了 5 至 10 倍，同时实现了更优的迁移性。

理论对抗样本扩散模型视觉语言模型

联系人：	透明七彩巨人
Email：	weok168@gmail.com