Le laboratoire national d'Oak Ridge, aux États-Unis, a réalisé une avancée majeure en utilisant Frontier, le supercalculateur le plus puissant au monde, pour former avec succès un modèle de langage équivalent à ChatGPT en utilisant seulement 8 % de sa puissance de calcul. Le modèle comporte des milliards de paramètres.Grâce à une formation distribuée innovante et à une technologie parallèle, l'équipe de recherche a atteint une efficacité d'expansion faible de 100 %, fournissant une expérience précieuse et une référence technique pour la formation de modèles linguistiques à plus grande échelle à l'avenir. Cette recherche démontre non seulement la puissance de la technologie des supercalculateurs, mais souligne également l’importance de la mémoire et d’autres défis liés à la formation de modèles de langage à grande échelle.
Les scientifiques ont utilisé le superordinateur le plus puissant au monde pour entraîner avec succès un modèle de niveau ChatGPT, en utilisant seulement 8 % de la puissance de calcul. La percée est venue du laboratoire national d'Oak Ridge, où l'équipe de recherche a utilisé une technologie innovante pour former un modèle de langage comportant des milliards de paramètres sur le supercalculateur Frontier. Grâce à une formation distribuée et à une technologie parallèle, une efficacité d'expansion faible de 100 % est obtenue. Cependant, la formation de grands modèles de langage présente encore des défis et nécessite de résoudre les problèmes de mémoire. La recherche fournit une expérience pour la formation d’énormes modèles de langage à l’avenir et met en évidence le rôle clé de la formation distribuée et du calcul parallèle.Ce résultat de recherche apporte de nouvelles possibilités au développement du domaine de l'intelligence artificielle et indique également que la technologie de formation de modèles linguistiques à grande échelle se développera dans une direction plus efficace et plus économe en énergie à l'avenir. L'utilisation efficace des ressources informatiques est une direction importante pour le développement futur de grands modèles de langage.