ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法
- 2025-03-16 22:23:00
- 刘大牛 转自文章
- 487
,能够防止由于冲突导致优化陷入某个特定损失项的局部最小值。ConFIG 方法可以在数学上证明其收敛特性并具有以下特点:
最终更新梯度
与所有损失项的优化梯度均
不冲突。
在每个特定损失梯度上的投影长度是均匀的,可以确保所有损失项以
相同速率进行优化。
长度可以根据损失项之间的冲突程度
自适应调整。
论文地址:https://arxiv.org/abs/2408.11104
项目主页:https://tum-pbs.github.io/ConFIG/
GitHub: https://github.com/tum-pbs/ConFIG
个损失函数
,其对应梯度为
。我们希望找到一个优化方向
,使其满足:
。即所有损失项在该方向上都能减少,从而避免梯度冲突。
。由于
是一个无冲突梯度,
应为一个正向分量矢量。同样地,我们也可以预先定义一个正向分量矢量
,然后直接通过矩阵的逆运算求得无冲突更新梯度
,即
。通过给定不同的正向分量矢量
,我们得到由一系列不同
组成的无冲突优化区间。
具体优化方向:相比于直接求解梯度矩阵的逆,ConFIG 方法求解了 归一化梯度矩阵的逆,即
,其中
表示第
个梯度向量的单位向量。可以证明,变换后
矢量的每个分量代表了每个梯度
与最终更新梯度
之间的余弦相似度。因此,通过设定
分量的不同值可以直接控制最终更新梯度对于每个损失梯度的优化速率。在 ConFIG 中,
被设定为单位矢量以确保每个损失具有相同的优化强度从而避免某些损失项的优化被忽略。
优化梯度大小:此外,ConFIG 方法还根据梯度冲突程度调整步长。当梯度方向较一致时,加快更新;当梯度冲突严重时,减小更新幅度:
, 其中
为每个梯度与最终更新方向之间的余弦相似度。
使用梯度的 动量(指数移动平均)代替梯度进行 ConFIG 运算。
在每次优化迭代中,仅对 一个或部分损失进行反向传播以更新动量。其它损失项的动量采用之前迭代步的历史值。
往往要比反向传播总损失
更快。这在物理信息神经网络中尤为明显,因为边界上的采样点通常远少于计算域内的采样点。在我们的实际测试中,M-ConFIG 的平均计算成本为基于权重方法的
0.56 倍。
的同时大幅降低了边界和初始条件损失
,实现了 PDE 训练精度的
整体提升。
、平均排名
中均表现最佳。其中,对于 M-ConFIG 方法,我们在一次迭代中更新 30 个动量而不仅更新一个动量。这是因为当任务数量增加时,单个动量更新时间的间隔较长,历史动量信息难以准确捕捉梯度的变化。动量信息的滞后会逐渐抵消 M-ConFIG 方法更高训练效率带来的性能提升。
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |