La start-up d'IA de San Francisco, Cosine, a publié son dernier modèle d'IA, Genie, conçu pour les développeurs de logiciels et performant dans les tests de référence, avec des scores bien supérieurs à ses concurrents. Cosine exploite les variantes GPT-4o formées en partenariat avec OpenAI et, grâce à ses capacités uniques de « raisonnement humain codé », permet à Genie d'effectuer une variété de tâches de programmation de manière autonome ou collaborative, notamment la correction de bogues, le développement de nouvelles fonctionnalités et la refactorisation du code. Le succès de Genie est également indissociable de la méthode unique de formation des données de Cosine et de l'utilisation intelligente du mécanisme d'auto-amélioration du modèle, qui a finalement obtenu un score de 30 % au test SWE-Bench.
La startup d'IA basée à San Francisco, Cosine, a lancé un nouveau modèle d'IA appelé Genie, conçu pour aider les développeurs de logiciels. Selon la société, Genie a largement surpassé ses concurrents lors des tests de référence, démontrant des capacités supérieures.
Cosine s'est associé à OpenAI pour entraîner une variante GPT-4o à l'aide de données de haute qualité, obtenant ainsi des résultats de référence impressionnants. La société affirme que la clé du succès de Genie réside dans sa capacité à « coder le raisonnement humain », qui ne se limite peut-être pas au monde du développement de logiciels.
Genie prend les devants en SWE
Le co-fondateur et PDG de Cosine, Alistair Pullen, a révélé que Genie avait obtenu un score de 30 % au test SWE-Bench, ce qui est le score le plus élevé jusqu'à présent pour un modèle d'IA dans le domaine. Ce score surpasse d’autres modèles de langage axés sur le codage, tels que le modèle d’Amazon (19 %) et Devin de Cognition (13,8 % dans certains tests de SWE-Bench).
L'architecture de Genie est conçue pour simuler les processus cognitifs des développeurs humains, lui permettant ainsi de corriger des bugs, de développer de nouvelles fonctionnalités, de refactoriser le code et d'effectuer diverses tâches de programmation de manière autonome ou collaborative.
Amélioration personnelle grâce à des données synthétiques
Genie a été développé à l'aide d'un processus exclusif qui a entraîné et affiné des variantes non publiques du GPT-40 à l'aide de milliards de données de haute qualité. Cosine a passé près d'un an à rassembler ces données avec l'aide de développeurs expérimentés. L'ensemble de données contient 21 % de JavaScript et Python, 14 % de TypeScript et TSX et 3 % d'autres langages (dont Java, C++ et Ruby).
Les performances supérieures de Genie sont dues en partie à sa formation d'auto-amélioration. Au départ, le modèle apprenait principalement d'un code parfait et fonctionnel, mais était confus quant à sa propre gestion des erreurs. Cosinus résout ce problème en utilisant des données synthétiques : si la solution initialement proposée par Genie était incorrecte, le modèle montre comment s'améliorer avec les bons résultats. À chaque itération, la solution de Genie s'est progressivement améliorée et le nombre de révisions requises a progressivement diminué.
Surmonter les limitations techniques
Pullen a vu le potentiel des grands modèles de langage pour soutenir le développement de logiciels humains dès le début de 2022. Cependant, la technologie de l'époque n'était pas encore au niveau nécessaire pour réaliser la vision de Genie. La capacité de marquage de la fenêtre contextuelle est généralement limitée à 4 000 marquages, ce qui constitue un goulot d'étranglement majeur. Aujourd'hui, des modèles tels que le Gemini 1.5 Pro peuvent gérer jusqu'à 2 millions de marqueurs en une seule invite. Bien que Cosine n’ait pas divulgué la capacité d’étiquetage spécifique de Genie, cette avancée technologique constitue sans aucun doute une base solide pour le succès de Genie.
L'émergence de Genie marque une avancée majeure dans le domaine du développement de logiciels assisté par l'IA. Ses capacités de codage efficaces et son mécanisme d'auto-apprentissage offrent de nouvelles possibilités pour le développement futur de logiciels. La technologie innovante de Cosine fournit de nouvelles idées pour améliorer l'efficacité du développement logiciel et réduire les coûts de développement, et mérite l'attention et des recherches plus approfondies de l'industrie.