In den letzten Jahren hat der Bereich der künstlichen Intelligenz große Fortschritte bei der Integration von Sehen und Sprache gemacht, insbesondere durch die Entstehung groß angelegter Sprachmodelle, was der Entwicklung multimodaler Systeme der künstlichen Intelligenz neue Dynamik verliehen hat. Allerdings gibt es immer noch Herausforderungen beim Aufbau starker grundlegender Modelle für Vision und Bildsprache. Um dieser Herausforderung zu begegnen, haben Forscher vieler namhafter Universitäten und Forschungseinrichtungen gemeinsam ein innovatives Modell namens InternVL entwickelt, das darauf abzielt, den Umfang und die Vielseitigkeit des grundlegenden Sehmodells zu verbessern, um verschiedene Sehsprachaufgaben besser bewältigen zu können.
In jüngster Zeit konzentriert sich der Bereich der künstlichen Intelligenz auf die nahtlose Integration von Sehen und Sprache, insbesondere mit dem Aufkommen großer Sprachmodelle (LLMs), bei denen erhebliche Fortschritte erzielt wurden. Für multimodale AGI-Systeme besteht jedoch noch Nachholbedarf bei der Entwicklung grundlegender Seh- und Bildsprachemodelle. Um diese Lücke zu schließen, schlugen Forscher der Universität Nanjing, OpenGVLab, Shanghai Artificial Intelligence Laboratory, University of Hong Kong, Chinese University of Hong Kong, Tsinghua University, University of Science and Technology of China und SenseTime Research ein innovatives Modell vor – InternVL. Dieses Modell erweitert den Maßstab visionbasierter Modelle und passt sie an allgemeine visuelle Sprachaufgaben an. InternVL demonstriert seine überlegenen Fähigkeiten bei so unterschiedlichen Aufgaben wie der Bild- und Videoklassifizierung, dem Abrufen von Bild- und Videotexten, der Bildunterschrift, der Beantwortung visueller Fragen und dem multimodalen Dialog, indem es bestehende Methoden bei 32 allgemeinen Benchmarks für visuelle Sprache übertrifft.Das Aufkommen des InternVL-Modells markiert eine neue Etappe in der Entwicklung visueller Sprachmodelle. Seine hervorragenden Ergebnisse in mehreren Benchmark-Tests bieten neue Richtungen und Möglichkeiten für den Aufbau zukünftiger multimodaler Systeme der künstlichen Intelligenz. Es wird erwartet, dass dieses Modell in Zukunft in praktischeren Anwendungen eine Rolle spielen und die Entwicklung und Anwendung der Technologie der künstlichen Intelligenz fördern kann.