Alibaba Motor Hospital veröffentlicht Valley2, ein Multi-Mode-Sprachmodell, das auf E-Commerce-Veranstaltungsorten basiert. von kurzem Video. Der Datensatz von Valley2 deckt die OneVision Style -Daten, E -Commerce- und Short -Video -Daten und Ketten -Denkdaten ab. Wesen Die Optimierung seiner Architekturdesign- und Schulungsstrategien bietet neue Ideen für die Leistungsverbesserung des Multi -Mode und der großen Modelle.
Der Alibaba Bardham Courtyard hat kürzlich ein Multi-Mode-Sprachmodell namens Valley2 gestartet. Spracharchitekturen. Valley2 verwendet QWEN2.5 als LLM-Stamm mit Siglip-384-visueller Encoder, kombiniert mit der MLP-Schicht und Faltung für eine effiziente Umwandlung von Merkmalen. Seine Innovation ist, dass es große visuelle Vokabular-, Konvadapter- und Adlermodule einführt, um die Flexibilität sowie die Schulungs- und Argumentationseffizienz der Verarbeitung von diversifizierten Real -World -Input zu verbessern.
Die Daten von Valley2 bestehen aus OneVision -Style -Daten, Daten im Bereich E -Commerce und Short Video und Chain Thinking (COT) für komplexe Probleme. Der Schulungsprozess ist in vier Phasen unterteilt: Text-visuelle Ausrichtung, qualitativ hochwertiges Wissenslernen, Feinabstimmungsanweisungen und Kettendenken. In dem Experiment zeigte Valley2 in mehreren öffentlichen Benchmark-Tests, insbesondere in Mubch, MMSTAR, Mathvista und anderen Benchmarks, eine gute Leistung und übertraf auch andere selbe Modelle im ECOM-VQA-Benchmark-Test.
In Zukunft plant die Alibaba Bardham Academy, ein All -Around -Modell mit Text, Bildern, Video- und Audiomodul zu veröffentlichen und eine multimodile eingebettete Trainingsmethode auf der Basis von Valley zur Unterstützung der nachgeschalteten Such- und Erkennungsanwendungen einzulegen.
Der Start von Valley2 markiert wichtige Fortschritte im Bereich multi -modaler Sprachmodelle mit großem Maßstab und zeigt die Möglichkeit der Verbesserung der Modellleistung durch strukturelle Verbesserung, Datensatzkonstruktion und Trainingsstrategieoptimierung.
Modelllink:
https://www.modelscope.cn/models/bytedance-research/valley-eagle-7b
Code -Link:
https://github.com/bytedance/valley
These Link:
https://arxiv.org/abs/2501.05901
Die Veröffentlichung von Valley2 zeigt nicht nur die fortschrittlichen Technologien von Alibaba Padamin im Bereich Multi -Mode und große Modelle, sondern zeigt auch, dass die zukünftigen E -Commerce- und kurzen Videofelder mehr KI -basierte Innovationsanwendungen einleiten werden. Wenn Sie sich auf das Future Valley2 freuen, können Sie seine Anwendungsszenarien weiter verbessern und erweitern und Benutzer bequemere und intelligentere Dienste bringen.