非营利性人工智能研究机构Ai2发布了其全新开放语言模型OLMo2系列,这是OLMo系列的第二代产品,其完全开放的源代码特性,代表了开源AI领域的最新进展。OLMo2严格遵循开放源代码倡议的定义,所有训练数据、工具和代码均公开可用,这与其他声称“开放”但并非完全开源的语言模型形成鲜明对比。Ai2此举旨在推动开源社区的创新和发展,为全球开发者提供强大的技术支持和资源共享平台。
与目前市场上其他“开放”语言模型如Meta的Llama系列不同,OLMo2符合开放源代码倡议的严格定义,这意味着用于其开发的训练数据、工具和代码都是公开的,任何人都可以访问和使用。根据开放源代码促进会的定义,OLMo2满足了该机构对“开源AI”标准的要求,这一标准于今年10月最终确定。
Ai2在其博客中提到,OLMo2的开发过程中,所有的训练数据、代码、训练方案、评估方法以及中间检查点都完全开放,旨在通过共享资源,推动开源社区的创新与发现。“通过公开分享我们的数据、方案和发现,我们希望为开源社区提供发现新方法和创新技术的资源。”Ai2表示。
OLMo2系列包括两个版本:一个是70亿参数的OLMo7B,另一个是130亿参数的OLMo13B。参数的数量直接影响模型的表现,参数更多的版本通常能处理更复杂的任务。在常见的文本任务中,OLMo2表现出色,能够完成诸如回答问题、总结文档和编写代码等任务。
为训练OLMo2,Ai2使用了包含五万亿个token的数据集。Token是语言模型中最小的单位,100万个token大约等于75万个单词。训练数据包括来自高质量网站、学术论文、问答讨论板以及合成数学练习册的内容,这些数据经过精心筛选,以确保模型的高效性和准确性。
Ai2对OLMo2的表现充满信心,声称其在性能上已与Meta的Llama3.1等开源模型竞争。Ai2指出,OLMo27B的表现甚至超越了Llama3.18B,成为目前最强的完全开放语言模型之一。所有OLMo2模型及其组件均可通过Ai2官网免费下载,并遵循Apache2.0许可,意味着这些模型不仅可以用于研究,也可以用于商业应用。
OLMo2的开源特性以及其在性能上的优异表现,为人工智能领域的发展带来了新的可能性,也为开源社区注入了新的活力,值得期待其未来的发展和应用。