Ein Forschungsteam der National University of Singapore hat ein fortschrittliches audiovisuelles Großsprachenmodell (av-LLM) namens video-SALMONN entwickelt, das in der Lage ist, den visuellen, Audio- und Sprachinhalt in Videos zu verstehen. Das Modell verbindet vorab trainierte Audio- und Video-Encoder mit großen Sprachmodellen durch eine innovative kausale Q-Former-Struktur mit mehreren Auflösungen, um ein umfassendes Verständnis von Videoinhalten zu erreichen. Diese bahnbrechende Technologie hat bei Aufgaben wie der Beantwortung von Videofragen bemerkenswerte Ergebnisse erzielt, einen neuen Weg für die Anwendung künstlicher Intelligenz beim Verstehen und Denken von Videos eröffnet und wird voraussichtlich weitreichende Anwendungen in der Bildung, in der Medizin und in anderen Bereichen bringen.
Kürzlich haben Wenyi Yu und sein Team an der National University of Singapore eine neue Technologie namens Video-SALMONN vorgeschlagen, die nicht nur visuelle Bildsequenzen, Audioereignisse und Musik in Sprachinhalten verstehen kann. Die Einführung dieser Technologie stellt einen wichtigen Schritt dar, damit Maschinen Videoinhalte verstehen können.
Video-SALMONN ist ein durchgängiges audiovisuelles Großsprachenmodell (av-LLM), das vorab trainierte Audio- und Video-Encoder mit einer neuartigen kausalen Q-Former-Struktur (MRC Q-Former) mit mehreren Auflösungen kombiniert der Körper eines großen Sprachmodells. Diese Struktur erfasst nicht nur die feinkörnigen zeitlichen Informationen, die für das Sprachverständnis erforderlich sind, sondern sorgt auch für eine effiziente Verarbeitung anderer Videoelemente.
Um die ausgewogene Verarbeitung verschiedener Videoelemente durch das Modell zu verbessern, schlug das Forschungsteam spezielle Trainingsmethoden vor, darunter Diversitätsverlust und ungepaarte Audio- und Video-Hybrid-Trainingsstrategien, um die Dominanz von Videobildern oder -modalitäten zu vermeiden.
Beim neu eingeführten Speech-Audio-Visual Evaluation Benchmark (SAVE) erreichte Video-SALMONN eine absolute Genauigkeitsverbesserung von mehr als 25 % bei der Video-Fragebeantwortung (Video-QA) und eine absolute Genauigkeitsverbesserung von mehr als 25 Bei der Audio- und Video-Fragenbeantwortungsaufgabe mit menschlicher Sprache wurde eine absolute Genauigkeitsverbesserung von mehr als 30 % erreicht. Darüber hinaus demonstriert Video-SALMONN hervorragende Videoverständnis- und Argumentationsfähigkeiten bei Aufgaben, die für andere AV-LLMs beispiellos sind.
Der Kern von Video-SALMONN ist die Q-Former-Struktur mit mehreren Auflösungen (MRC), die synchronisierte Audio- und Videoeingabefunktionen und Textdarstellungsräume auf drei verschiedene Zeitskalen ausrichtet, um der Abhängigkeit verschiedener Aufgaben von unterschiedlichen Videoelementen gerecht zu werden . Um den zeitlichen Kausalzusammenhang zwischen aufeinanderfolgenden Videobildern zu stärken, ist in MRC Q-Former außerdem eine kausale Selbstaufmerksamkeitsstruktur mit einer speziellen Kausalmaske enthalten.
Der Vorschlag von Video-SALMONN bringt nicht nur neue Forschungswerkzeuge in die akademische Gemeinschaft, sondern bietet auch umfassende Möglichkeiten für praktische Anwendungen. Es macht die Interaktion zwischen Technologie und Menschen natürlicher und intuitiver und verringert die Schwierigkeit für Benutzer, insbesondere Kinder und ältere Menschen, den Umgang mit Technologie zu erlernen. Gleichzeitig besteht das Potenzial, die Zugänglichkeit von Technologie auch für Menschen mit Bewegungseinschränkungen zu verbessern.
Der Vorschlag von Video-SALMONN ist ein wichtiger Schritt zur Verwirklichung allgemeiner künstlicher Intelligenz (AGI). Durch die Integration von Spracheingaben sowie vorhandenen nichtsprachlichen Audio- und visuellen Eingaben werden solche Modelle ein umfassendes Verständnis menschlicher Interaktionen und Umgebungen erlangen und ihre Anwendung auf ein breiteres Spektrum von Bereichen ermöglichen.
Die Entwicklung dieser Technologie wird zweifellos tiefgreifende Auswirkungen auf die Analyse von Videoinhalten, pädagogische Anwendungen und die Verbesserung der Lebensqualität der Menschen haben. Da die Technologie immer weiter voranschreitet, haben wir Grund zu der Annahme, dass die zukünftige KI intelligenter und näher an den menschlichen Bedürfnissen sein wird.
Papieradresse: https://arxiv.org/html/2406.15704v1
Der bahnbrechende Fortschritt der Video-SALMONN-Technologie zeigt, dass die künstliche Intelligenz einen neuen Meilenstein im Bereich des Videoverständnisses erreicht hat und es sich lohnt, sich auf ihre breiten Anwendungsaussichten zu freuen. In Zukunft wird die kontinuierliche Entwicklung ähnlicher Technologien die tiefe Integration von künstlicher Intelligenz und der menschlichen Gesellschaft weiter fördern.