Der Herausgeber von Downcodes erfuhr, dass das chinesische wissenschaftliche Forschungsteam basierend auf seinem Training den ultragroßen multimodalen Datensatz Infinity-MM und das KI-Modell Aquila-VL-2B auf den Markt gebracht hat. Dieser Datensatz enthält umfangreiche Bildbeschreibungen, visuelle Anleitungsdaten usw. und nutzt fortschrittliche Bildanalyse- und Informationsextraktionstechnologie, um Datenqualität und -vielfalt sicherzustellen. Das Aquila-VL-2B-Modell schnitt in mehreren Benchmark-Tests gut ab, übertraf ähnliche Systeme und demonstrierte Chinas bedeutende Fortschritte im Bereich der multimodalen KI. Sein Open-Source-Charakter wird die akademische Forschung und die technologische Entwicklung erheblich fördern.
Der Umfang des Infinity-MM-Datensatzes ist atemberaubend und enthält vier Hauptdatenkategorien: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Instruktionsdaten, 6 Millionen ausgewählte hochwertige Instruktionsdaten und 3 Millionen generierte KI-Modelle wie GPT-4 Daten. Das Forschungsteam nutzt das Open-Source-KI-Modell RAM++ zur Bildanalyse und Informationsextraktion und stellt die Qualität und Vielfalt der generierten Daten durch ein einzigartiges Klassifizierungssystem mit sechs Kategorien sicher.
In Bezug auf die Modellarchitektur basiert Aquila-VL-2B auf LLaVA-OneVision und integriert das Qwen-2.5-Sprachmodell und die SigLIP-Bildverarbeitungstechnologie. Das Forschungsteam wendete eine vierstufige progressive Trainingsmethode an: Beginnend mit dem grundlegenden Lernen von Bild-Text-Assoziationen, schrittweiser Übergang zu allgemeinen visuellen Aufgaben, spezifischer Befehlsverarbeitung und schließlich der Einbeziehung synthetischer Daten, während gleichzeitig die Obergrenze der Bildauflösung schrittweise erhöht wird.
Obwohl Aquila-VL-2B nur über eine Parameterskala von 2 Milliarden verfügt, schnitt es in verschiedenen Benchmark-Tests gut ab. Im multimodalen Verständnisfähigkeitstest MMStar erzielte es die beste Punktzahl von 54,9 % und erreichte im mathematischen Fähigkeitstest MathVista sogar eine hohe Punktzahl von 59 % und übertraf damit ähnliche Systeme deutlich. Im allgemeinen Bildverständnistest erzielte das Modell hervorragende Ergebnisse von 43 % bzw. 75,2 % im HallusionBench und MMBench.
Untersuchungen haben ergeben, dass die Einführung synthetischer Daten erheblich zur Verbesserung der Modellleistung beiträgt. Experimente zeigen, dass die Modellleistung ohne die Verwendung dieser zusätzlichen Daten um durchschnittlich 2,4 % sinkt. Ab der dritten Stufe hat die Leistung von Aquila-VL-2B Referenzmodelle wie InternVL2-2B und Qwen2VL-2B deutlich übertroffen. Insbesondere in der vierten Stufe wird die Leistungsverbesserung mit zunehmender Datenmenge deutlicher.
Erwähnenswert ist, dass das Forschungsteam den Datensatz und das Modell für die Forschungsgemeinschaft geöffnet hat, was die Entwicklung multimodaler KI-Technologie erheblich vorantreiben wird. Das Modell basiert nicht nur auf der Nvidia A100-GPU, sondern unterstützt auch Chinas selbst entwickelte Chips und demonstriert so eine starke Hardware-Anpassungsfähigkeit.
Die Einführung des Aquila-VL-2B-Modells markiert einen großen Durchbruch im Bereich der multimodalen KI in China. Sein Open-Source-Charakter und seine leistungsstarke Leistung werden die technologische Entwicklung und Anwendungsinnovation in diesem Bereich fördern und der zukünftigen Entwicklung neue Dynamik verleihen der künstlichen Intelligenz. Der Herausgeber von Downcodes freut sich auf weitere ähnliche bahnbrechende Entwicklungen in der Zukunft.