Lancement du modèle linguistique Teuken-7B : briser la domination anglaise et prendre en charge 24 langues officielles de l'UE

Auteur：Eve Cole Date de mise à jour：2024-11-30 16:10:01

L'éditeur de Downcodes a appris qu'un modèle linguistique de 7 milliards de paramètres appelé Teuken-7B a été publié sur la plateforme Hugging Face, prenant en charge les 24 langues officielles de l'UE. Le modèle a été développé par le projet de recherche européen OpenGPT-X et est disponible pour les utilisateurs en open source. Contrairement à la plupart des modèles linguistiques d'IA centrés sur l'anglais, Teuken-7B a été construit à partir de zéro, avec environ la moitié de ses données de formation provenant de langues européennes autres que l'anglais, ce qui lui confère un avantage significatif dans la gestion de plusieurs langues européennes.

Teuken-7B, un modèle linguistique comportant 7 milliards de paramètres, est désormais disponible sur Hugging Face et prend en charge les 24 langues officielles de l'UE. Le modèle a été développé par le projet de recherche européen OpenGPT-X et est disponible pour les utilisateurs en tant que projet open source. Contrairement à la plupart des modèles linguistiques d'IA centrés sur l'anglais, Teuken-7B a été construit à partir de zéro, avec environ la moitié de ses données de formation provenant de langues européennes autres que l'anglais.

Remarque sur la source de l'image : l'image est générée par l'IA et l'image est autorisée par le fournisseur de services Midjourney

L'équipe de développement affirme que le Teuken-7B fonctionne bien dans toutes les langues sur lesquelles il a été formé, et que sa fiabilité est particulièrement impressionnante lorsqu'il s'agit de langues autres que l'anglais. Pour mesurer les performances des modèles linguistiques dans les langues européennes, l'équipe du projet a également créé un nouveau classement européen LLM, surpassant les précédentes méthodes de test standard qui étaient principalement basées sur l'anglais.

Cette version marque une avancée significative dans la dynamique européenne en faveur de modèles d’IA multilingues, tout en fournissant également aux développeurs un outil puissant et diversifié pour prendre en charge les applications et la recherche multilingues.

La version open source de Teuken-7B apporte de nouvelles possibilités dans le domaine de l'IA multilingue et reflète les efforts actifs de l'Europe dans la recherche et le développement indépendants de la technologie de l'IA. Ses excellentes capacités de traitement multilingue offriront plus de commodité aux développeurs mondiaux et favoriseront le développement vigoureux d'applications multilingues. On s’attend à ce que Teuken-7B puisse jouer un rôle dans davantage de domaines à l’avenir.