Non seulement le très attendu modèle de nouvelle génération d’OpenAI, Orion, mais également Anthropic, une autre start-up vedette d’intelligence artificielle (IA) rivale de Google et d’OpenAI, a également signalé que le développement de modèles d’IA avancés avait rencontré des goulots d’étranglement.
Le mercredi 13 novembre, heure de l'Est, Bloomberg a rapporté qu'OpenAI avait terminé le premier cycle de formation Orion en septembre de cette année, dans l'espoir qu'il surpasserait considérablement certaines versions précédentes et se rapprocherait de l'objectif d'une IA dépassant les humains, citant deux personnes familières avec , mais Orion n'a pas réussi à fonctionner aussi bien que l'entreprise l'espérait. À la fin de l'été, le modèle fonctionnait mal lorsqu'il tentait de répondre à des questions de codage non entraînées.
Des personnes proches du dossier ont fait remarquer que, dans l’ensemble, jusqu’à présent, par rapport aux performances de GPT-4 au-delà de GPT-3.5, les modèles existants d’Orion et d’OpenAI n’ont pas fait beaucoup de progrès.
Le rapport cite également trois autres personnes proches du dossier affirmant que la prochaine nouvelle version de Gemini de Google ne répondait pas aux attentes internes, et Anthropic a également reporté la sortie prévue du modèle Claude connu sous le nom de 3.5 Opus.
Le rapport estime que les trois entreprises ci-dessus sont confrontées à de multiples défis dans le développement de modèles d'IA. Il leur est de plus en plus difficile de trouver des données d'entraînement artificielles de haute qualité inexploitées. Par exemple, les performances d'encodage insatisfaisantes d'Orion proviennent en partie d'un manque de données d'encodage suffisantes pour la formation. Même de modestes améliorations des performances du modèle peuvent ne pas suffire à justifier les coûts énormes de construction et d’exploitation d’un nouveau modèle, ou à répondre aux attentes d’une mise à niveau majeure.
Le problème des goulots d’étranglement dans le développement des modèles d’IA remet en question la loi d’échelle considérée comme une ligne directrice par de nombreuses start-ups et même par les géants de la technologie. Il remet également en question la faisabilité d’un investissement massif dans l’IA pour parvenir à une intelligence artificielle générale (agi).
Wall Street News a mentionné un jour que la loi proposée par OpenAI dès 2020 signifie que les performances finales d'un grand modèle sont principalement liées à la quantité de calcul, à la quantité de paramètres du modèle et à la quantité de données d'entraînement, et sont liées à la structure spécifique (couche) du modèle (numéro/profondeur/largeur) sont fondamentalement hors de propos. En juillet de cette année, Kevin Scott, directeur de la technologie (CTO) de Microsoft, a également défendu cette loi, affirmant que la loi de mise à l'échelle s'applique toujours à l'industrie actuelle - même si les grands modèles sont développés, les avantages marginaux ne diminuent pas. Par coïncidence, les médias ont annoncé la semaine dernière qu'OpenAI avait découvert qu'Orion "n'avait pas fait un grand pas en avant" et que les progrès étaient bien inférieurs à ceux des deux générations précédentes de modèles phares. Cette découverte remet directement en cause la loi Scaling qui a été poursuivie dans le domaine de l’IA. En raison de la diminution des données de formation de haute qualité et de l'augmentation des coûts de calcul, les chercheurs d'OpenAI ont dû commencer à explorer s'il existait d'autres moyens d'améliorer les performances du modèle.OpenAI, par exemple, intègre davantage de capacités d'écriture de code dans ses modèles et tente de développer un logiciel capable de prendre le contrôle d'un PC pour effectuer des activités de navigateur Web ou des tâches d'application en effectuant des clics, des mouvements de curseur et d'autres actions.
OpenAI a également créé une équipe dédiée, dirigée par Nick Ryder, auparavant responsable de la pré-formation, pour explorer comment optimiser les données de formation limitées et ajuster l'application des méthodes d'expansion afin de maintenir la stabilité de l'amélioration du modèle.
Concernant le rapport de Bloomberg publié mercredi, un porte-parole de Google DeepMind a déclaré que la société était "satisfaite des progrès de Gemini et que nous partagerions plus d'informations lorsqu'elle serait prête". OpenAI a refusé de commenter. Anthropic a également refusé de commenter, mais a fait référence à un article de blog publié lundi, dans lequel le PDG d'Anthropic, Dario Amodei, s'exprimait lors d'un podcast de cinq heures.
Amodel a dit que ce que les gens appellent la loi d'échelle n'est pas une loi. Ce n'est pas une loi universelle, mais une loi empirique. Amodel s’attend à ce que les lois d’échelle continuent d’exister, mais n’en est pas sûr. Il a déclaré qu'il y avait "beaucoup de choses" qui pourraient "perturber" les progrès vers une IA plus puissante dans les années à venir, notamment "nous pourrions manquer de données". Mais il est optimiste que les entreprises d'IA trouveront un moyen de surmonter tous les obstacles.
Concernant le rapport Bloomberg, Nosson Weissman, fondateur de NossonAI, une entreprise qui fournit des solutions d'IA personnalisées pour les entreprises, a déclaré que le rapport ne l'a pas dérouté car, tout d'abord, il n'a pas vu l'expression de véritables experts qui ont apporté des contributions significatives. dans le domaine de l'IA. Deuxièmement, nous constatons souvent des progrès significatifs dans la modélisation, et enfin, il pense que les médias aiment créer du drame, et ce rapport semble avoir un beau titre dramatique.