本文介绍了Sakana AI提出的新型自适应框架Transformer²,它解决了传统大型语言模型(LLM)微调方法计算密集且静态的缺点。Transformer² 通过一个两阶段机制,在推理过程中实时调整LLM权重,使其能够灵活适应各种未知任务,如同章鱼般适应环境。其核心在于奇异值微调(SVF)和自适应策略,通过强化学习训练“专家”向量,并动态组合这些向量来实现对不同任务的精准应对。该框架具有参数高效、模块化、跨模型兼容等诸多优势,在实验中展现出优于传统微调方法的性能。
Transformer²的核心是其独特的两阶段机制和奇异值微调(SVF)技术,以及多种自适应策略的巧妙结合。通过强化学习训练的“专家”向量,赋予了模型强大的适应能力,使其能够在各种未知任务中表现出色。虽然目前仍有改进空间,但Transformer²无疑为构建真正动态、自我组织的AI系统迈出了重要一步,未来研究方向包括模型合并和CEM方法的扩展。论文地址已附于文末,期待更多研究者对此进行深入探索。