Nous Research mène une expérience révolutionnaire : utiliser des machines distribuées à l'échelle mondiale pour pré-entraîner un modèle de langage étendu (LLM) de 1,5 milliard de paramètres. Cette expérience bouleverse le modèle de formation centralisé traditionnel, évite les centres de données coûteux et énergivores et diffuse le processus de formation en temps réel via son site Web distro.nousresearch.com, démontrant les performances du modèle et les cartes de localisation du matériel. Cette décision réduit non seulement les coûts de formation, mais, plus important encore, elle devrait abaisser la barrière d'entrée pour les grands modèles de langage, permettant ainsi à davantage de petites équipes et d'individus de participer à la recherche et au développement de l'IA générative.
Dans le domaine en plein développement de l'IA générative, l'équipe Nous Research mène une expérience unique : elle utilise des machines réparties dans le monde entier pour pré-entraîner un modèle de langage étendu (LLM) de 1,5 milliard de paramètres, un processus qui évite les exigences traditionnelles centralisées. développement dans des centres de données ou des superclusters coûteux et gourmands en énergie.
Nous Research diffuse également le processus de pré-formation en direct sur son site Web dédié distro.nousresearch.com, montrant les performances du modèle sur divers critères d'évaluation en temps réel et fournissant une carte des emplacements matériels participant à la formation, couvrant plusieurs emplacements dans le États-Unis et Europe. A la date de publication de cet article, le temps restant pour la pré-formation est d'environ 57 heures (soit 2,3 jours), et plus de 75 % du déroulement de la formation a été réalisé.
La pré-formation est la première et la plus fondamentale étape de la formation LLM, qui implique la formation d'une grande quantité de données textuelles pour apprendre les propriétés statistiques et la structure du langage. À ce stade, le modèle capture les modèles de langage, de syntaxe et les relations contextuelles entre les mots en traitant de vastes ensembles de données textuelles. Ce processus donne au modèle une large compréhension du langage, la capacité de générer un texte cohérent et d'effectuer diverses tâches liées au langage. Après la pré-formation, le modèle doit également être affiné pour des tâches ou des domaines spécifiques.
Si ce plan réussit, Nous Research prouvera que les LLM de pointe peuvent toujours être formés sans super clusters coûteux ni transmission à faible latence, marquant ainsi une nouvelle ère de formation en IA distribuée. Cette approche de formation open source pourrait modifier la dynamique du pouvoir de l’IA générative, rendant les petites équipes et les acteurs non professionnels plus compétitifs dans cet espace.
La nouvelle technologie utilisée par Nous s'appelle Nous DisTrO (Distributed Training Over-the-Internet), conçue pour réduire les besoins en bande passante de communication entre les GPU pendant le processus de pré-formation. Selon la dernière version de Nous Research, DisTrO peut réduire les besoins de communication jusqu'à 10 000 fois, permettant ainsi de maintenir des taux de convergence et des courbes de perte compétitifs sur des connexions Internet plus lentes et plus abordables.
De plus, la principale avancée de DisTrO est de compresser efficacement la quantité de données échangées entre les GPU sans affecter les performances du modèle. Cette technologie s'appuie sur l'algorithme DeMo (Decoupled Momentum Optimization) antérieur, qui vise également à réduire considérablement les exigences de communication inter-GPU tout en maintenant les performances d'entraînement.
En termes de matériel, le processus de pré-formation de Nous Research est soutenu par de nombreux partenaires renommés tels que Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud et Andromeda Cluster, qui fournissent conjointement le matériel hétérogène requis pour tester pleinement DisTrO dans un environnement distribué réel. capacités des systèmes dans l’environnement.
Entrée du blog : https://nousresearch.com/
Cette expérience de Nous Research a non seulement permis une percée technologique, mais plus important encore, elle a fourni une nouvelle idée et de nouvelles possibilités aux chercheurs en IA du monde entier, annonçant un changement dans le modèle de formation en IA. À l'avenir, d'autres projets de formation distribués similaires verront peut-être le jour, abaissant encore le seuil d'entrée pour la technologie de l'IA et favorisant le développement vigoureux du domaine de l'IA.