Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境

自适应 LLM 反映了神经科学和计算生物学中一个公认的原理,即大脑根据当前任务激活特定区域,并动态重组其功能网络以响应不断变化的任务需求。


在自然界,「适应」是一种非常普遍的现象。例如,章鱼能够迅速改变自身的肤色和纹理,以融入周围环境,从而躲避天敌和捕捉猎物;人脑在受伤后能够重新连接自身神经回路,使个体能够恢复失去的功能并适应新的思维方式或行动方式。生物体展现出的适应能力使得生命能够在不断变化的环境中蓬勃发展。


在人工智能领域,适应的概念同样具有巨大的吸引力。想象一个机器学习系统,它能够动态地调整自身的权重以在陌生的环境中不断学习、进化。与部署在环境中的静态 AI 模型相比,这种有自适应能力的模型明显学习效率更高,而且有望成为与现实世界动态本质始终保持一致的终生模型。


日本 AI 初创公司 Sakana AI 的一项成果就是对这一方向的探索。在论文中,他们提出了一种可以根据不同任务动态调整模型权重的机器学习系统 ——Transformer^2。
图片
Transformer^2 这个名称反映了它的两步过程:首先,模型分析传入的任务以了解其要求,然后应用特定于任务的调整来生成最佳结果。通过有选择地调整模型权重的关键组成部分,该框架允许 LLM 实时动态地适应新任务。


Transformer^2 在各种任务(例如数学、编程、推理和视觉理解)上展示了显著进步,在效率和特定于任务的性能方面优于 LoRA 等传统静态方法,同时需要的参数少得多。


作者表示,这项研究为人们提供了一个未来 AI 模型不再静态的初步展望。这些系统将在测试时动态地调整其计算能力,以适应它们所遇到的任务的复杂性,体现出能够持续变化和终生学习的「活」的智能。


有人就此展望说,「未来,『预训练』和『后训练』之间的界限将会消失,我们的模型和智能体将不断适应和自我改进。像这样的系统将为新一代自适应人工智能铺平道路,这种人工智能能够修改自身的权重和架构,以适应它们在环境中遇到的任务不断变化的本质。」
图片
  • 论文标题:TRANSFORMER2 : SELF-ADAPTIVE LLMS
  • 论文链接:https://arxiv.org/pdf/2501.06252


这篇论文共有三位共同一作,其中两位是华人。Qi Sun 在东京工业大学担任研究助理,同时在 Sakana AI 兼职,研究方向是视觉语言模型的训练与评估、大规模合成数据生成等。Yujin Tang 曾在谷歌工作多年,现在是 Sakana AI 的研究科学家,研究方向是强化学习和机器人。
图片
图片
论文概览


自适应大语言模型(LLM)将代表 AI 领域的一个重要进展,提供了一个使模型能够实时适应不同任务和动态环境的框架。虽然组合性和可扩展性对于有效适应至关重要,但当前的 LLM 训练方法难以同时实现这两个特性。Sakana AI 的研究旨在提出一个开创性的解决方案来实现这一愿景并解决这些 gap。


传统上,LLM 后训练试图在单次大规模训练中优化模型的广泛能力。虽然这种「一次性」微调框架从简单性的角度来看是理想的,但在实践中很难实现。例如,后训练仍然非常消耗资源,导致巨大的计算成本和超长的训练时间。此外,在引入额外数据广度时往往存在明显的性能权衡,这使得同时克服过拟合和任务干扰变得具有挑战性。


相比之下,自适应模型提供了更灵活和高效的方法。与其试图一次性训练 LLM 完成所有任务,专家模块可以离线开发并按需增强到基础 LLM 中。这使模型能够根据当前任务动态修改其行为,而无需不断重新调整。除了具有独立组件的好处外,这种模块化还支持持续学习,使模型能够随时间增加新技能而不会出现灾难性遗忘。此外,自适应 LLM 反映了神经科学和计算生物学中一个公认的原理,即大脑根据当前任务激活特定区域,并动态重组其功能网络以响应不断变化的任务需求。


原则上,实现自适应 LLM 的第一步可以通过开发专门的专家模块来实现,每个模块都通过 LoRA 等技术进行微调。然后这些专家模块可以根据任务需求在运行时动态组合,这个过程可以通过 MoE 类系统高效管理。然而,要使这种方法既可扩展又具有组合性,需要解决几个挑战。首先,微调 LLM 以创建多个专家模块显著增加了需要训练的参数数量。实际上,即使使用 LoRA 等参数高效的方法,这些模块的累积大小也会快速增加,导致存储和计算需求增加。其次,这些专家模块往往容易过拟合,这种现象在较小数据集或窄任务领域训练时尤为普遍。第三,这些专家模块的灵活组合也带来了目前尚未解决的挑战。


为了克服这些限制,作者首先提出了奇异值微调(SVF),这是一种新的参数高效微调(PEFT)方法,用于获得自适应的有效构建块。SVF 通过仅提取和调整模型权重矩阵中的奇异值来工作。通过专注于这种原则性的参数化,他们提出的方法降低了过拟合风险,大幅减少了计算需求,并允许固有的组合性。他们证明这些特性使他们能够通过在窄数据集上使用强化学习进行训练来廉价地获得一组有效的领域特定「专家」向量,直接优化各个主题的任务性能。


然后,作者引入了完整的 Transformer^2 框架,通过自适应的基本原则来增强 LLM。给定来自未知任务的提示,Transformer^2 采用两阶段推理机制,如图 1 所示。
图片
在第一阶段,Transformer^2 执行模型并观察其测试时行为,收集相关信息以理解解决当前问题所需的技能。在第二阶段,Transformer^2 框架使用这些信息组合可用的专家向量,并对 LLM 的基础权重提供专门针对其测试时条件的新修改。作者在 Transformer^2 中设计了三种不同的适应策略,并证明这些策略随着对测试时条件的访问增加而提供单调的性能提升。


作者通过在各种 LLM 和任务上的广泛实验评估了 SVF 和完整的 Transformer^2 框架。首先,在领域特定数据集上训练时,他们展示了 SVF 始终优于传统的高效微调策略(如 LoRA),同时参数量减少了数个数量级。然后,他们展示了 Transformer^2 能够进一步提高性能,即使在完全分布外的应用(如视觉问答)中也能有效调整基础模型的权重。最后,他们分析了新框架的特性,验证了它在获得更多当前测试时条件访问权限时提供增量收益,甚至允许跨模型架构重用预训练的 SVF 专家。


方法概览


奇异值微调(SVF)


就像人类大脑通过互连的神经通路存储知识和处理信息一样,LLM 在其权重矩阵中存储知识。这些矩阵是 LLM 的「大脑」,保存着它从训练数据中学到的精髓。


要理解这个「大脑」并确保它能够有效地适应新任务,需要仔细研究其内部结构。这就要使用奇异值分解(SVD),SVD 将存储在 LLM 中庞大、复杂的知识分解成更小的、有意义的、独立的部分(例如数学、语言理解等不同的组件)。


Transformer^2 的核心是能够动态调整其权重矩阵的关键组件。在训练时,该研究引入奇异值微调(SVF),这是一种使用强化学习来增强 / 抑制来自不同「大脑」组件的信号以用于各种下游任务的方法。在推理时,该研究采用三种不同的策略来检测任务的身份并相应地调整模型的权重。
图片
使用 SVF 和 RL 进行训练


在训练时,SVF 学习一组 z 向量,每个下游任务一个。每个 z 向量可以被视为任务的专家,是一个紧凑的表征,负责指定权重矩阵中每个组件的所需强度,形成一组「放大器」或「衰减器」来调节不同组件对模型行为的影响。


SVF 使用 RL 在预定义的下游任务集上学习这些 z 向量。学得的 z 向量使 Transformer^2 能够适应各种新的下游任务,同时只引入最少量的额外参数(即 z 向量。


自适应


在推理时,该研究为框架设计了一个两阶段适应策略,以有效地组合任务特定的 z 向量集。在第一次推理时,给定任务或单个输入提示,Transformer^2 使用以下三种适应方法之一分析其测试时条件:


  • 基于提示的适应:专门设计的适应提示,对任务进行分类(例如数学、编程)并选择预训练的 z 向量。
  • 基于分类器的适应:使用 SVF 训练的任务分类器,在推理过程中识别任务并选择合适的 z 向量。
  • 少样本适应:通过加权插值组合多个预训练的 z 向量。简单的优化算法根据少样本评估集上的性能调整这些权重。


在第二次推理时,Transformer^2 通过组合 z 向量相应地调制权重,为其新设置产生最相关的最终响应。


实验结果


SVF 性能


表 1 提供了在 LLAMA3-8B-INSTRUCT、MISTRAL-7B-INSTRUCT-V0.3 和 LLAMA3-70B-INSTRUCT 基础模型上对每个任务进行训练后的结果。
图片
值得注意的是,SVF 在几乎所有任务和基础模型上都提供了显著且一致的性能提升。相比之下,LoRA 专家产生的收益较小,甚至出现了零星的性能下降。


这种趋势也可以扩展到视觉 - 语言领域,因为用 SVF 微调 LLAMA3-LLAVA-NEXT-8B 将基础模型的性能提升了超过 39%(见图 5)。
图片
适应性能


该研究使用 SVF 训练的 z 向量评估了 Transformer^2 在未见任务上的自适应能力。


如表 2 所示,所有的 Transformer^2 适应策略都在 LLAMA3-8B-INSTRUCT 基础模型的所有任务上表现出性能提升,在 MISTRAL-7B-INSTRUCT-V0.3 和 LLAMA3-70B-INSTRUCT 的三个任务中至少有两个任务有所改进。相比之下,即使是最佳训练 LoRA 也只在 ARC-Challenge 任务上提供了改进,在 MATH 和 Humaneval 上显著降低了性能。
图片
这种差异表明 LoRA 的参数化和优化可能特别容易过拟合,特别是在使用较小的 GSM8K 和 MBPP-Pro 数据集训练时。


在图 5 中,基础 LLAMA3-LLAVA-NEXT-8B VLM 的性能仅在应用 Transformer^2 后得到改善。研究团队注意到在这种设置中,Transformer^2 仅从 GSM8K、MBPP-Pro 和 ARC-Easy 的专家向量中进行自适应。因此,这一结果进一步强调了自适应的高度灵活性,基于语言任务的知识也可以迁移到不相关的基于视觉的问题上。


通过对三种适应策略的比较,作者发现了一个明显的单调趋势 —— 即随着策略的增加和测试时间条件的增加,自适应的效果越来越明显。特别是,具有少样本自适应的 Transformer^2 几乎总是得分最高的方法,在所有测试设置中都提供了显著改进,除了 LLAMA3-70B-INSTRUCT @MATH。由于 GPU 资源有限,作者只对一半的层进行了 SVF 调优。这种趋势表明,提供额外或不同类型的信息似乎对 Transformer^2 框架非常有益,表明  Transformer^2 可以为基础模型提供在终身设置中部署时持续改进性能的新方法。


表 3 报告了 Transformer^2 的提示适应策略所需的推理时间,分别展示了第一阶段和第二几段解决整个问题集所花费的时间。注意,「2nd pass」推理时间是解决问题所花费的时间,「1st pass」推理时间是自适应的时间。括号中是「1st pass」占「2nd pass」推理时间的比率。虽然额外的推理阶段可能看起来会使整体运行时间翻倍,但重要的是要注意推理时间主要取决于生成的 token 数量。在论文的设置中,它是 O (n),其中 n 是输入的长度。ARC-challenge 括号中的数值较大,因为它们是单选题,因此「2nd pass」的成本也是 O (n)。在一般设置中,作者认为这个比率更接近 MATH 和 Humaneval 的比率是合理的。
图片
更多内容请参见原论文。


参考链接:https://sakana.ai/transformer-squared/
产业 机器学习 Transformer^2 Sakana AI