Ai2, une organisation de recherche en intelligence artificielle à but non lucratif, a publié sa nouvelle série de modèles de langage ouvert OLMo2. Il s'agit du produit de deuxième génération de la série OLMo. Ses fonctionnalités de code source entièrement open représentent les derniers progrès dans le domaine de l'IA open source. OLMo2 adhère strictement à la définition de l'Open Source Initiative, et toutes les données, outils et codes de formation sont accessibles au public, ce qui contraste fortement avec d'autres modèles de langage qui prétendent être « ouverts » mais ne sont pas complètement open source. La décision d'Ai2 vise à promouvoir l'innovation et le développement de la communauté open source et à fournir aux développeurs mondiaux un puissant support technique et une plateforme de partage de ressources.
Contrairement à d'autres modèles de langage « ouverts » actuellement sur le marché comme la série Llama de Meta, OLMo2 répond à la définition stricte de l'Open Source Initiative, ce qui signifie que les données de formation, les outils et le code utilisés pour son développement sont publics et accessibles à tous. utiliser. Tel que défini par l'Open Source Initiative, OLMo2 répond aux exigences de l'organisation en matière de norme « IA open source », qui a été finalisée en octobre de cette année.
Ai2 a mentionné dans son blog que pendant le processus de développement d'OLMo2, toutes les données de formation, codes, plans de formation, méthodes d'évaluation et points de contrôle intermédiaires étaient complètement ouverts, dans le but de promouvoir l'innovation et la découverte dans la communauté open source grâce à des ressources partagées. "En partageant ouvertement nos données, nos solutions et nos découvertes, nous espérons fournir à la communauté open source les ressources nécessaires pour découvrir de nouvelles méthodes et technologies innovantes", a déclaré Ai2.
La série OLMo2 comprend deux versions : l'une est OLMo7B avec 7 milliards de paramètres et l'autre est OLMo13B avec 13 milliards de paramètres. Le nombre de paramètres affecte directement les performances du modèle, et les versions avec plus de paramètres peuvent généralement gérer des tâches plus complexes. OLMo2 a bien performé sur les tâches de texte courantes, étant capable d'effectuer des tâches telles que répondre à des questions, résumer des documents et écrire du code.
Pour entraîner OLMo2, Ai2 a utilisé un ensemble de données contenant cinq mille milliards de jetons. Le jeton est la plus petite unité du modèle linguistique. 1 million de jetons équivaut approximativement à 750 000 mots. Les données de formation comprennent du contenu provenant de sites Web de haute qualité, d'articles universitaires, de forums de discussion de questions-réponses et de manuels de mathématiques synthétiques, et sont soigneusement sélectionnées pour garantir l'efficacité et la précision du modèle.
Ai2 est confiant dans les performances d’OLMo2, affirmant qu’il a rivalisé en termes de performances avec des modèles open source tels que Llama3.1 de Meta. Ai2 a souligné que les performances d'OLMo27B ont même dépassé Llama3.18B et sont devenues l'un des modèles de langage entièrement ouverts les plus puissants actuellement. Tous les modèles OLMo2 et leurs composants peuvent être téléchargés gratuitement via le site officiel d'Ai2 et suivent la licence Apache2.0, ce qui signifie que ces modèles peuvent être utilisés non seulement à des fins de recherche mais également pour des applications commerciales.
Les fonctionnalités open source d'OLMo2 et ses excellentes performances ont apporté de nouvelles possibilités au développement du domaine de l'intelligence artificielle et ont insufflé une nouvelle vitalité à la communauté open source. Il vaut la peine d'attendre avec impatience son développement et ses applications futurs.