加州大学伯克利分校的天空计算实验室研究团队NovaSky近日发布了名为Sky-T1-32B-Preview的推理模型,该模型在多个关键基准测试中表现卓越,甚至与OpenAI的o1早期版本不相上下。更为引人注目的是,该模型的训练成本极低,展现了高效经济的人工智能开发新趋势。
Sky-T1-32B-Preview是首个真正意义上的开源推理模型。 NovaSky团队不仅公开了模型本身,还提供了训练数据集和必要的训练代码,使得该模型可以被完全复制。据团队在博客中透露,“Sky-T1-32B-Preview的训练成本不到450美元,这证明了高级推理能力可以通过低成本的方式实现。”相比之下,过去训练类似性能的模型往往需要数百万美元的投入。这一成本的显着降低,主要归功于合成训练数据的使用。例如,人工智能公司Writer最近发布的Palmyra X004模型几乎完全依赖合成数据进行训练,开发成本仅为70万美元。
推理模型与普通人工智能模型不同,它们具备自我事实核查的能力,能够有效避免一些常见的错误。然而,推理模型在得出解决方案时通常需要更长的时间,从几秒到几分钟不等。尽管如此,其在物理、科学和数学等领域的可靠性使其成为这些领域的理想选择。
NovaSky团队透露,他们借助阿里巴巴的QwQ-32B-Preview推理模型生成了Sky-T1的初始训练数据,随后对数据进行了整理,并使用OpenAI的GPT-4o-mini将数据重构为更易用的格式。使用8个Nvidia H100 GPU机架训练320亿参数的Sky-T1大约需要19个小时,参数数量直接反映了模型解决问题的能力。
在性能测试中,Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于o1的早期预览版本,并且在一组来自LiveCodeBench的编码难题上也击败了o1的预览版本。然而,Sky-T1在GPQA-Diamond上的表现不如o1预览版,后者包含博士毕业生应掌握的物理、生物和化学相关问题。此外,OpenAI的o1GA版本比预览版更强大,且OpenAI预计在未来几周发布性能更佳的推理模型o3。
尽管如此,NovaSky团队表示,Sky-T1仅是他们开发具有高级推理能力的开源模型的起点。 “展望未来,我们将专注于开发更高效的模型,保持强大的推理性能,并探索先进技术,进一步提高模型在测试时的效率和准确性,”团队在帖子中写道,“请继续关注我们在这些激动人心的计划上取得的进展。”这一开源推理模型的出现,无疑为人工智能领域带来了新的机遇和挑战,其未来发展值得持续关注。