Novasky, une équipe de recherche au Sky Computing Laboratory de l'Université de Californie à Berkeley, a récemment publié un modèle d'inférence appelé Sky-T1-32B-Preview, qui a très bien fonctionné sur plusieurs références clés, même comparables à la première version d'O1 d'OpenAI . Ce qui est encore plus frappant, c'est que le coût de la formation de ce modèle est extrêmement faible, montrant une nouvelle tendance dans le développement efficace et économique de l'intelligence artificielle.
Sky-T1-32B-Preview est le premier modèle de raisonnement vraiment open source. L'équipe Novasky expose non seulement le modèle lui-même, mais fournit également l'ensemble de données de formation et le code de formation nécessaire afin que le modèle puisse être complètement copié. Selon le blog de l'équipe, "Sky-T1-32B-Preview Les coûts de formation sont inférieurs à 450 $, ce qui prouve que les capacités de raisonnement avancées peuvent être obtenues à faible coût." être fait dans le passé. Cette réduction significative du coût est principalement attribuée à l'utilisation des données de formation synthétique. Par exemple, le modèle Palmyra X004 récemment publié par le rédacteur de société d'intelligence artificielle s'appuie presque entièrement sur des données synthétiques pour la formation, avec un coût de développement de seulement 700 000 $.
Les modèles d'inférence sont différents des modèles d'intelligence artificielle ordinaires. Cependant, les modèles d'inférence prennent souvent plus de temps pour trouver des solutions, allant de secondes à minutes. Néanmoins, sa fiabilité dans des domaines tels que la physique, les sciences et les mathématiques le rend idéal pour ces domaines.
L'équipe de Novasky a révélé qu'ils utilisaient le modèle d'inférence QWQ-32B d'Alibaba pour générer les données de formation initiales de Sky-T1, puis ont trié les données et reconstruit les données au format GPT-4O-MINI d'OpenAI. Il faut environ 19 heures pour entraîner Sky-T1 avec 32 milliards de paramètres en utilisant 8 racks GPU NVIDIA H100, et le nombre de paramètres reflète directement la capacité de résolution de problèmes du modèle.
Dans les tests de performances, Sky-T1 a surpassé la version prévisionnelle précoce d'O1 sur le MATH500 (un ensemble de défis mathématiques "au niveau du concours") et a également battu la version d'aperçu d'O1 sur un ensemble de puzzles de codage de LivecodeBench. Cependant, Sky-T1 n'est pas aussi bon que la version de prévisualisation O1 sur GPQA-Diamond, qui contient des problèmes de physique, de biologie et de chimie que les diplômés de doctorat devraient maîtriser. De plus, la version O1GA d'OpenAI est plus puissante que la version Aperçu, et OpenAI prévoit de publier un modèle d'inférence mieux performant O3 dans les semaines à venir.
Néanmoins, l'équipe Novasky a déclaré que Sky-T1 n'était que le point de départ pour qu'ils développent un modèle open source avec des capacités de raisonnement avancées. "Avant avec impatience, nous nous concentrerons sur le développement de modèles plus efficaces, le maintien de fortes performances d'inférence et l'exploration des technologies avancées pour améliorer encore l'efficacité et la précision des modèles lors des tests", a écrit l'équipe dans le post, «Restez à l'écoute des progrès réalisés dans ces derniers Des plans passionnants.