Alibaba Cloud hat ein neu aktualisiertes großes Sprachmodell Qwen2.5-Turbo veröffentlicht. Seine Kontextlänge übersteigt eine Million Token und seine Verarbeitungsleistung übertrifft die vergleichbarer Produkte bei weitem. Dies stellt einen enormen Fortschritt in der Langtextverarbeitung dar und ermöglicht es Benutzern, problemlos das Äquivalent von 10 Three-Body-Romanen oder 30.000 Codezeilen zu verarbeiten. Das Modell schnitt in mehreren Benchmark-Tests gut ab, übertraf insbesondere GPT-4 beim Langtextverständnis und erreichte eine extrem hohe Inferenzgeschwindigkeit und extrem niedrige Kosten, während die Genauigkeit der Kurztextverarbeitung erhalten blieb.
Alibaba Cloud führt das neu aktualisierte große Sprachmodell Qwen2.5-Turbo ein, dessen Kontextlänge erstaunliche 1 Million Token übersteigt. Was entspricht diesem Konzept? Es entspricht 10 „Three Body“-Romanen, 150 Stunden Sprachtranskription oder 30.000 Zeilen Codekapazität. Diesmal ist „zehn Romane in einem Atemzug lesen“ kein Traum mehr!
Das Qwen2.5-Turbo-Modell erreichte eine Genauigkeit von 100 % bei der Passkey-Retrieval-Aufgabe und übertraf ähnliche Modelle wie GPT-4 in Bezug auf die Fähigkeiten zum Verständnis langer Texte. Das Modell erreichte beim RULER-Langtext-Benchmark eine hohe Punktzahl von 93,1, während GPT-4 nur 91,6 und GLM4-9B-1M 89,9 erreichte.
Zusätzlich zu den Funktionen zur Verarbeitung ultralanger Texte verfügt Qwen2.5-Turbo auch über die Genauigkeit der Verarbeitung kurzer Texte. Im Kurztext-Benchmark-Test ist seine Leistung mit der von GPT-4o-mini und Qwen2.5-14B-Instruct vergleichbar Modelle.
Durch die Übernahme des Sparse-Attention-Mechanismus verkürzt das Qwen2.5-Turbo-Modell die erste Token-Verarbeitungszeit von 1 Million Token von 4,9 Minuten auf 68 Sekunden und erreicht so eine 4,3-fache Steigerung der Inferenzgeschwindigkeit.
Gleichzeitig betragen die Kosten für die Verarbeitung von 1 Million Token nur 0,3 Yuan. Im Vergleich zu GPT-4o-mini kann bei gleichen Kosten das 3,6-fache des Inhalts verarbeitet werden.
Alibaba Cloud hat eine Reihe von Demonstrationen für das Qwen2.5-Turbo-Modell vorbereitet, die seine Anwendung beim vertieften Verständnis von Romanen, bei der Codeunterstützung und beim Lesen mehrerer Artikel demonstrieren. Nachdem ein Benutzer beispielsweise die chinesische Romantrilogie „Das Drei-Körper-Problem“ mit 690.000 Token hochgeladen hatte, fasste das Modell die Handlung jedes Romans erfolgreich auf Englisch zusammen.
Benutzer können die leistungsstarken Funktionen des Qwen2.5-Turbo-Modells über den API-Dienst von Alibaba Cloud Model Studio, HuggingFace Demo oder ModelScope Demo erleben.
Alibaba Cloud erklärte, dass es das Modell in Zukunft weiter optimieren wird, um die Ausrichtung menschlicher Präferenzen bei Aufgaben mit langer Sequenz zu verbessern, die Inferenzeffizienz weiter zu optimieren, die Rechenzeit zu reduzieren und zu versuchen, ein größeres und stärkeres Modell mit langem Kontext auf den Markt zu bringen.
Offizielle Einführung: https://qwenlm.github.io/blog/qwen2.5-turbo/
Online-Demo: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
API-Dokumentation: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen
Qwen2.5-Turbo eröffnet mit seinen leistungsstarken Langtextverarbeitungsfunktionen und geringen Kosten neue Möglichkeiten für große Sprachmodellanwendungen, und es lohnt sich, auf seine zukünftige Entwicklung zu blicken. Weitere Informationen finden Sie unter dem angegebenen Link.