Zero One Wish hat seine Yi-Serie multimodaler Sprachmodelle Yi-VL veröffentlicht, die hervorragende Leistungen beim Bild- und Textverständnis sowie bei der Dialoggenerierung gezeigt haben. Das Yi-VL-Modell hat sowohl in chinesischen als auch in englischen Datensätzen führende Ergebnisse erzielt. Insbesondere im MMMU-Benchmark-Test übertraf Yi-VL-34B andere ähnliche Modelle mit einer Genauigkeit von 41,6 % und demonstrierte damit sein starkes interdisziplinäres Wissensverständnis und seine Anwendungsfähigkeiten. . In diesem Artikel werden die Architektur, Leistung und Bedeutung des Yi-VL-Modells im multimodalen Bereich eingehend untersucht.
Das multimodale Sprachmodell 01Wan Yi-VL ist ein neues Mitglied der Modellfamilie der 01Wan Yi-Serie. Es verfügt über hervorragende Fähigkeiten beim Bild- und Textverständnis und bei der Dialoggenerierung. Das Yi-VL-Modell hat sowohl beim englischen Datensatz MMMU als auch beim chinesischen Datensatz CMMMU führende Ergebnisse erzielt und seine Stärke bei komplexen interdisziplinären Aufgaben unter Beweis gestellt. Yi-VL-34B übertraf andere multimodale Großmodelle mit einer Genauigkeit von 41,6 % im neuen multimodalen Benchmark-MMMU und demonstrierte damit sein starkes interdisziplinäres Wissensverständnis und seine Anwendungsfähigkeiten. Das Yi-VL-Modell basiert auf der Open-Source-LLaVA-Architektur und umfasst Vision Transformer (ViT), das Projektionsmodul und die umfangreichen Sprachmodelle Yi-34B-Chat und Yi-6B-Chat. ViT wird für die Bildkodierung verwendet, das Projektionsmodul implementiert die Fähigkeit, Bildmerkmale räumlich an Textmerkmalen auszurichten, und das groß angelegte Sprachmodell bietet leistungsstarke Sprachverständnis- und Generierungsfunktionen.Das Aufkommen des Yi-VL-Modells stellt einen neuen Durchbruch in der multimodalen Sprachmodelltechnologie dar, und seine leistungsstarke Leistung und seine breiten Anwendungsaussichten sind es wert, gespannt zu sein. Mit der kontinuierlichen Weiterentwicklung der Technologie wird erwartet, dass das Yi-VL-Modell in Zukunft in mehr Bereichen eine wichtige Rolle spielen und den Fortschritt und die Anwendung der Technologie der künstlichen Intelligenz fördern wird.