在人工智能领域,训练大型语言模型(LLM)一直是一项资源密集型的任务,通常只有少数科技巨头能够承担。然而,谷歌最近推出的SALT(小模型辅助大模型训练)方法,可能会彻底改变这一现状。这一创新不仅降低了训练成本,还提高了模型的性能,为更多研究机构和企业打开了AI开发的大门。
图源备注:图片由AI生成,图片授权服务商Midjourney
SALT方法的核心在于其两阶段训练过程。第一阶段是知识蒸馏,小型语言模型(SLM)作为“教师”,通过“软标签”将其学习到的知识传递给大型模型。这一阶段特别适用于那些小型模型已经掌握的基础任务,帮助大型模型在早期学习中打下坚实的基础。
第二阶段是自我监督学习,大型模型开始独立学习,专注于更复杂的任务。这一阶段的过渡需要精心设计,包括线性衰减和线性比例衰减等策略,以确保大型模型能够逐步减少对小型模型的依赖,最终实现自主学习和优化。
谷歌的研究表明,使用SALT方法训练一个28亿参数的大型模型,时间缩短了28%,并且在数学问题和阅读理解任务上的准确率分别提升了3%和4%。这一显著的性能提升不仅证明了SALT的高效性,也展示了其在复杂任务中的强大潜力。
SALT的出现不仅提升了训练效率,还降低了AI开发的门槛。过去,只有大型科技公司能够承担的训练成本,现在许多小型研究机构和公司也能够参与其中。这将推动更多创新和专业化AI解决方案的出现,进一步推动人工智能领域的发展。
总的来说,SALT方法通过引入小型模型的辅助训练,不仅提高了大型模型的性能,还大幅降低了训练成本。这一创新有望在AI领域引发一场革命,使得更多机构能够参与到AI的研究和开发中,推动整个行业的进步。