Das Open-Source-Team für große Sprachmodelle von OpenBuddy veröffentlicht die chinesische Version des Llama3.1-8B-Modells

Autor：Eve Cole Aktualisierungszeit：2024-12-14 09:32:01

Metas neueste Version der Llama 3.1-Serie von Open-Source-Modellen hat bedeutende Leistungsdurchbrüche erzielt, und ihre 405B-Parameterversion übertrifft sogar einige Closed-Source-Modelle. Darunter unterstützt die Llama3.1-8B-Instruct-Version mehrere Sprachen mit einer Kontextlänge von bis zu 131072 Token und wird mit umfangreichen synthetischen Daten trainiert, um ihre Argumentationsfähigkeiten in Bereichen wie Code und Mathematik zu verbessern. Basierend auf diesem Modell startete das OpenBuddy-Team das Modell OpenBuddy-Llama3.1-8B-v22.1-131K, das chinesische Fragen und Antworten sowie sprachübergreifende Übersetzungen unterstützt und das Potenzial von Open-Source-Modellen in mehrsprachigen Anwendungen demonstriert.

Meta hat kürzlich eine neue Generation der Open-Source-Modellreihe Llama3.1 veröffentlicht, die eine 405B-Parameterversion enthält, deren Leistung in einigen Benchmark-Tests nahe an Closed-Source-Modellen wie GPT-4 liegt oder diese sogar übertrifft. Llama3.1-8B-Instruct ist eine 8B-Parameterversion in der Serie, unterstützt Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Spanisch, Hindi und Thailändisch, Kontextlänge bis zu 131072 Token, Wissensfrist aktualisiert auf 2023 Dezember des Jahres.

Um die Fähigkeiten von Llama3.1-8B-Instruct zu verbessern, verwendete Meta im Training mehr als 25 Millionen synthetische Daten, die vom größeren 405B-Modell generiert wurden. Dadurch kann Llama3.1-8B-Instruct in Codierungs-, Mathematik- und anderen Tests ähnliche kognitive Fähigkeiten und Denkfähigkeiten wie GPT3.5Turbo zeigen.

OpenBuddy verwendet das Llama3.1-8B-Instruct-Modell und trainiert anhand einer kleinen Menge chinesischer Daten, um OpenBuddy-Llama3.1-8B-v22.1-131k zu veröffentlichen, eine neue Generation mit chinesischen Frage- und Antwortfunktionen sowie sprachübergreifenden Übersetzungsfunktionen Sprachenübergreifendes Open-Source-Modell. Obwohl Llama3.1 selbst nicht über Chinesisch-Fähigkeiten verfügt, ist das Modell nach dem Training in der Lage, auf einige Fragen, die zu konzeptioneller Verwirrung neigen, Antworten zu generieren, die normalerweise nur größere Modelle generieren können, und weist ein stärkeres kognitives Potenzial auf.

Aufgrund der Einschränkungen des Trainingsdatensatzes und der Zeit weist OpenBuddy-Llama3.1-8B-v22.1 jedoch immer noch Einschränkungen im Chinesischwissen auf, insbesondere im traditionellen Kulturwissen. Trotzdem zeigt das Modell eine relativ stabile Leistung bei Aufgaben wie dem Verstehen von Langtexten, wobei es von seinen ursprünglichen Langtextfähigkeiten profitiert.

OpenBuddy plant, in Zukunft ein umfangreicheres Training der 8B- und 70B-Modelle durchzuführen, um den chinesischen Wissensvorrat, die Langtextfähigkeit und die kognitiven Fähigkeiten des Modells zu verbessern und die Möglichkeit einer Feinabstimmung des 405B-Modells zu prüfen.

Projektadresse: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

Die Veröffentlichung des OpenBuddy-Llama3.1-8B-v22.1-131k-Modells markiert eine neue Etappe in der Entwicklung mehrsprachiger Open-Source-Modelle. Obwohl die Chinesischkenntnisse noch verbesserungswürdig sind, lohnt es sich, auf ihr Potenzial zu blicken. Mit der Ausweitung des Umfangs der Modellschulung wird erwartet, dass ihre Leistung weiter verbessert wird. Freuen Sie sich in Zukunft auf weitere Überraschungen vom OpenBuddy-Team.