L'éditeur de Downcodes a appris que Cohere a récemment publié deux puissants modèles d'IA open source, Aya Expanse 8B et 35B, qui sont officiellement lancés sur la plateforme Hugging Face. Ces deux modèles visent à combler l'écart de performances entre les modèles de base dans différentes langues, à améliorer considérablement les capacités de l'IA dans 23 langues et à fournir aux chercheurs mondiaux en IA des outils plus pratiques et des capacités multilingues plus puissantes. Le projet Aya s'engage à élargir l'accès aux modèles de base en langue autre que l'anglais. Sa méthode d'arbitrage de données et sa stratégie de formation de « préférence globale » évitent efficacement la génération de contenu de mauvaise qualité et améliorent les performances globales et la sécurité du modèle. Examinons ensuite les spécificités des deux modèles.
Récemment, Cohere a annoncé le lancement de deux nouveaux modèles d'IA open source, visant à réduire le fossé linguistique des modèles de base grâce à son projet Aya. Les deux nouveaux modèles, baptisés Aya Expanse8B et 35B, sont désormais disponibles sur Hugging Face. Le lancement de ces deux modèles a considérablement amélioré les performances de l'IA dans 23 langues.
Cohere a déclaré dans son blog que le modèle de paramètres 8B permet aux chercheurs du monde entier de réaliser plus facilement des percées, tandis que le modèle de paramètres 32B offre des capacités multilingues de pointe.
L'objectif du projet Aya est d'étendre l'accès au modèle de base à davantage de langues autres que l'anglais. Avant cela, le département de recherche de Cohere avait lancé le projet Aya l'année dernière et publié en février le modèle Aya101 Large Language Model (LLM), qui couvre 101 langues. En outre, Cohere a également lancé l'ensemble de données Aya pour faciliter la formation de modèles dans d'autres langues.
Le modèle Aya Expanse suit bon nombre des méthodes de base d'Aya101 dans son processus de construction. Cohere a déclaré que les améliorations apportées à Aya Expanse sont le résultat d'années passées à repenser les éléments de base des percées en matière d'apprentissage automatique. Leur direction de recherche se concentre principalement sur la réduction du fossé linguistique et a réalisé des avancées clés, telles que l'arbitrage de données, la formation aux préférences pour les performances générales et la sécurité, et la fusion de modèles.
Lors de plusieurs tests de référence, Cohere a déclaré que les deux modèles d'Aya Expanse surpassaient les modèles d'IA de taille similaire provenant de sociétés telles que Google, Mistral et Meta.
Parmi eux, Aya Expanse32B a surpassé Gemma227B, Mistral8x22B et même le plus grand Llama3.170B dans les tests de référence multilingues. Le petit modèle 8B a également surpassé Gemma29B, Llama3.18B et Ministral8B, avec des taux de réussite allant de 60,4 % à 70,6 %.
Pour éviter de générer du contenu difficile à comprendre, Cohere utilise une méthode d'échantillonnage de données appelée arbitrage de données. Cette approche permet une meilleure formation des modèles, en particulier pour les langages à faibles ressources. De plus, Cohere se concentre sur l’orientation des modèles vers des « préférences globales » et sur la prise en compte des perspectives des différentes cultures et langues pour améliorer les performances et la sécurité des modèles.
Le programme Aya de Cohere vise à garantir que les LLM puissent mieux performer dans la recherche dans des langues autres que l'anglais. Bien que de nombreux LLM soient finalement publiés dans d'autres langues, ils sont souvent confrontés au problème de données insuffisantes lors de la formation des modèles, en particulier pour les langues à faibles ressources. Les efforts de Cohere sont donc particulièrement importants pour contribuer à la création de modèles d'IA multilingues.
Blog officiel : https://cohere.com/blog/aya-expanse-connecting-our-world
Souligner:
? **Cohere lance deux nouveaux modèles d'IA**, déterminés à réduire le fossé linguistique des modèles de base et à prendre en charge l'amélioration des performances dans 23 langues.
**Le modèle Aya Expanse fonctionne bien**, surpassant bon nombre de ses concurrents sur les benchmarks multilingues.
**La méthode d'arbitrage des données** aide le modèle à éviter de générer du contenu de mauvaise qualité, à prêter attention aux perspectives culturelles et linguistiques mondiales et à améliorer l'effet de formation de l'IA multilingue.
Dans l’ensemble, le modèle Aya Expanse lancé par Cohere a fait des progrès significatifs dans le domaine de l’IA multilingue, et sa nature open source fournit également des ressources précieuses pour la recherche et le développement de la communauté mondiale de l’IA. L'éditeur de Downcodes estime que cela favorisera davantage les progrès de la technologie de l'IA multilingue et favorisera l'échange et le partage d'informations à l'échelle mondiale.