La dernière version de Meta de la série Llama 3.1 de modèles open source a réalisé des avancées significatives en termes de performances, et sa version avec paramètres 405B surpasse même certains modèles fermés. Parmi eux, la version Llama3.1-8B-Instruct prend en charge plusieurs langues, avec une longueur de contexte allant jusqu'à 131 072 jetons, et est formée avec des données synthétiques massives pour améliorer ses capacités de raisonnement dans des domaines tels que le code et les mathématiques. Sur la base de ce modèle, l'équipe OpenBuddy a lancé le modèle OpenBuddy-Llama3.1-8B-v22.1-131K qui prend en charge les questions et réponses en chinois et la traduction multilingue, démontrant le potentiel des modèles open source dans les applications multilingues.
Meta a récemment publié une nouvelle génération de séries de modèles open source Llama3.1, qui comprend une version de paramètres 405B dont les performances sont proches, voire supérieures, des modèles fermés tels que GPT-4 dans certains tests de référence. Llama3.1-8B-Instruct est une version de paramètres 8B de la série, prend en charge l'anglais, l'allemand, le français, l'italien, le portugais, l'espagnol, l'hindi et le thaï, longueur de contexte jusqu'à 131072 jetons, date limite de connaissances mise à jour jusqu'en décembre 2023 de l'année.
Pour améliorer les capacités de Llama3.1-8B-Instruct, Meta a utilisé plus de 25 millions de données synthétiques lors de l'entraînement, générées par le plus grand modèle 405B. Cela permet à Llama3.1-8B-Instruct de montrer des capacités cognitives et de raisonnement similaires à celles de GPT3.5Turbo en matière de codage, de mathématiques et d'autres tests.
OpenBuddy utilise le modèle Llama3.1-8B-Instruct et s'entraîne sur une petite quantité de données chinoises pour publier OpenBuddy-Llama3.1-8B-v22.1-131k, une nouvelle génération avec des questions et réponses en chinois et des capacités de traduction multilingue. Modèle multilingue open source. Bien que Llama3.1 lui-même ne dispose pas de capacités chinoises, après formation, le modèle est capable de générer des réponses que seuls des modèles plus grands peuvent généralement générer sur certaines questions sujettes à la confusion conceptuelle, montrant ainsi un potentiel cognitif plus fort.
Cependant, en raison des limites de l'ensemble des données de formation et du temps, OpenBuddy-Llama3.1-8B-v22.1 présente toujours des limites en termes de connaissances chinoises, en particulier de connaissances culturelles traditionnelles. Malgré cela, le modèle affiche des performances relativement stables sur des tâches telles que la compréhension de textes longs, qui bénéficient de ses capacités originales de textes longs.
À l'avenir, OpenBuddy prévoit de mener une formation à plus grande échelle sur les modèles 8B et 70B afin d'améliorer la réserve de connaissances chinoises du modèle, sa capacité à rédiger des textes longs et sa capacité cognitive, et d'explorer la possibilité d'affiner le modèle 405B.
Adresse du projet : https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
La sortie du modèle OpenBuddy-Llama3.1-8B-v22.1-131k marque une nouvelle étape dans le développement de modèles multilingues open source. Bien qu'il y ait encore des possibilités d'amélioration des connaissances chinoises, leur potentiel mérite d'être attendu. À l'avenir, à mesure que l'échelle de la formation sur modèles s'étendra, ses performances devraient encore s'améliorer. Attendez-vous à d’autres surprises de la part de l’équipe OpenBuddy à l’avenir.