ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战
- 2025-03-17 17:43:00
- 刘大牛 转自文章
- 495
论文题目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
论文地址:https://openreview.net/forum?id=BmG88rONaU
项目地址:https://hbinli.github.io/TCR/
从模态内分布和模态间差异两个层面,揭示了查询偏移导致检索性能下降的根本原因。
将 TTA 范式扩展至跨模态检索领域,通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现查询偏移下的鲁棒跨模态检索。
为跨模态检索 TTA 建立了统一的基准,涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。
代表查询模态的第 i 个样本,
和
分别代表查询模态的样本中心。换句话说,通过放缩样本离中心的距离,调整模态内分布的均匀性;通过对查询模态的样本进行位移,控制两个模态之间的差异。实验结论如下:
)和降低模态间差异(
)时,检索性能有所提升,反之不然。正如 [4] 中讨论的,过度消除模态间差异不会改善甚至会降低模型性能。
本文进一步观察到当降低模态间差异至源域的 Modality Gap 附近时,能够借助预训练模型构建的良好跨模态关系,保障模型性能。
代表推理时的模态间差异,
代表预估的源域模态间差异。
代表最近邻筛选操作。该模块不仅能够排除不相关的候选项,而且排除的候选项能够避免对正确候选的大海捞针,从而避免模型欠拟合。如图 5 所示,使用查询预测优化(Ref.)能够显著提升 TTA 的稳定性。
代表查询预测的熵,
代表自适应阈值。噪声鲁棒学习不仅通过自适应阈值来过滤高熵的预测,还为低熵的预测分配更高的权重,进而实现对噪声预测的鲁棒性。
仅查询偏移:只有查询模态的分布与源域数据不同。依据 [5],在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏(按照不同严重程度共计 130 种损坏)。为了保证仅查询偏移,先让模型在对应数据集上进行微调,随后将微调后的模型应用于仅有查询偏移的推理数据集中。
查询 - 候选偏移:查询模态和候选模态的分布都与源域数据不同。为了保证查询 - 候选偏移,本文直接将预训练模型应用于各领域的推理数据中,包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |