Petit mais puissant ! Une équipe de 10 personnes a construit le premier Llama 3.1 405B perfectionné

Auteur：Eve Cole Date de mise à jour：2024-12-22 08:32:01

Dans le domaine de l’IA, les géants sont nombreux et la concurrence est féroce. Cependant, Nous Research, une start-up composée de seulement 10 personnes, a réussi à défier l'autorité des géants de la technologie grâce à sa forte force technique et son concept open source. Leur nouveau modèle Hermes3 est affiné sur la base de Llama 3.1, avec une taille de paramètre de 405B et des performances étonnantes. Il a été téléchargé plus de 33 millions de fois, ce qui en fait un produit phénoménal dans l'industrie de l'IA. Cet article approfondira les excellentes performances du modèle Hermes3, les méthodes de formation efficaces et l'esprit innovant de Nous Research.

Une petite équipe de seulement 10 personnes a osé contester le statut du géant de la technologie Meta. Il s'agit simplement d'une version réelle de David battant Goliath !

Cette startup appelée Nous Research n’est pas une inconnue. Le Hermes3 qu'ils viennent de lancer est affiné sur la base du modèle 405B de Llama3.1. Bien que l'équipe compte un petit nombre de personnes, leur force ne peut être sous-estimée. Cette équipe de dix membres a peaufiné avec succès plusieurs modèles tels que Mistral, Yi, Llama, etc., et a été téléchargée plus de 33 millions de fois. C'est tout simplement une machine très vendue dans l'industrie de l'IA !

L’émergence d’Hermes3 est comme un coup de pouce dans le monde de l’IA. Même après la quantification FP8, ses performances restent incroyablement puissantes. Cette optimisation réduit non seulement considérablement les besoins en VRAM et en disque du modèle, mais permet également à Hermes3 de fonctionner sur un seul nœud, ce qui est une excellente nouvelle pour les développeurs !

En termes de capacité de conversation, Hermes3 est tout simplement un polyvalent. Qu'il s'agisse de mémoire à long terme, de multiples séries de dialogues, de jeux de rôle ou de monologues internes, il peut les gérer facilement. Grâce à la fenêtre contextuelle de 128 Ko de Llama3.1, Hermes3 est un diplomate chevronné qui sait maintenir la cohérence des conversations.

Mais les capacités d’Hermes3 ne s’arrêtent pas là. Il démontre un ensemble de fonctionnalités avancées qui vont au-delà de la modélisation linguistique traditionnelle pour comprendre et évaluer la qualité du texte généré de manière sophistiquée et nuancée. Cela signifie qu'il peut non seulement être un orateur éloquent, mais aussi un critique strict des textes !

Ce qui est encore plus étonnant, c'est qu'Hermes3 intègre également plusieurs capacités d'agent, notamment une sortie structurée, la sortie d'étapes intermédiaires et la génération de monologues internes pour parvenir à une prise de décision transparente. C’est comme doter l’IA d’un cerveau transparent, nous permettant de jeter un coup d’œil sur son processus de réflexion.

Le processus de formation d'Hermes3 peut être qualifié de formation diabolique dans le monde de l'IA. Il est passé par deux étapes : le réglage fin supervisé (SFT) et l'optimisation directe des préférences (DPO). L'équipe a passé 5 mois complets à examiner et à construire l'ensemble de données SFT, et leur dévouement et leur patience sont tout simplement impressionnants.

Nous Research, groupe privé de recherche appliquée fondé en 2023 et dont le siège est à New York, est tout simplement un envahisseur barbare dans le monde de l’IA. Ils croient fermement au pouvoir de l’open source et s’engagent à remettre en question les limites d’innovation des technologies fermées. Le slogan de l'entreprise est brûlant : nous remettons en question l'hypothèse selon laquelle les technologies fermées occuperont toujours le summum de l'innovation et, à la place, fourniront un code open source puissant.

En un peu plus d’un an, Nous Research a publié 5 ensembles de données et 89 modèles. Cette production élevée semble déclarer au monde : la taille n’a pas d’importance, la force est reine !

Adresse du papier : https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

Introduction officielle : https://nousresearch.com/freedom-at-the-frontier-hermes-3/

Le succès de Nous Research et d'Hermes3 prouve non seulement la puissance de l'open source, mais apporte également une nouvelle vitalité et de nouvelles possibilités au domaine de l'IA. Les petites équipes peuvent également créer des miracles, ce qui constitue sans aucun doute un grand encouragement pour tous les praticiens de l'IA. À l’avenir, attendons de voir quels résultats plus surprenants apporteront Nous Research.