Der Herausgeber von Downcodes erfuhr, dass Zhipu AI kürzlich ein Open-Source-Upgrade seines CogVLM2-Video-Modells angekündigt hat. Dieses Modell hat einen großen Durchbruch im Bereich des Videoverständnisses erzielt und die Mängel bestehender Modelle bei der Verarbeitung zeitlicher Informationen effektiv behoben. Durch die Einführung von Multiframe-Videobildern und Zeitstempelinformationen sowie die Verwendung automatisierter Methoden zur Erstellung von Zeitpositionierungsdaten zeigt CogVLM2-Video eine hervorragende Leistung bei der Generierung von Videountertiteln und der Zeitpositionierung und stellt ein leistungsstarkes Werkzeug für Aufgaben wie die Videogenerierung und -zusammenfassung dar. Das Modell hat bei öffentlichen Videoverständnis-Benchmarks erstklassige Ergebnisse erzielt und sein effizienter automatisierter Datengenerierungsprozess reduziert auch die Kosten für das Modelltraining.
Zhipu AI kündigte ein Open-Source-Upgrade des CogVLM2-Video-Modells an, ein Modell, das im Bereich des Videoverständnisses erhebliche Fortschritte gemacht hat. CogVLM2-Video löst die Einschränkungen bestehender Videoverständnismodelle im Umgang mit dem Verlust zeitlicher Informationen durch die Einführung von Mehrbild-Videobildern und Zeitstempeln als Encoder-Eingaben. Das Modell verwendet eine automatisierte Zeitpositionierungsdatenkonstruktionsmethode, um 30.000 zeitbezogene Video-Frage- und Antwortdaten zu generieren und so ein Modell zu trainieren, das die neueste Leistung bei öffentlichen Videoverständnis-Benchmarks erreicht. CogVLM2-Video zeichnet sich durch die Generierung von Videountertiteln und die zeitliche Positionierung aus und bietet ein leistungsstarkes Tool für Aufgaben wie die Generierung und Zusammenfassung von Videos.
CogVLM2-Video extrahiert Frames aus dem Eingabevideo und kommentiert die Zeitstempelinformationen, sodass das Sprachmodell die entsprechende Zeit jedes Frames genau kennen kann, wodurch eine zeitliche Positionierung und zugehörige Fragen und Antworten erreicht werden.
Für groß angelegte Schulungen wurde ein automatisierter Prozess zur Generierung von Video-Frage- und Antwortdaten entwickelt, der die Annotationskosten senkt und die Datenqualität durch die kombinierte Verwendung von Bildverständnismodellen und großen Sprachmodellen verbessert. Der schließlich erstellte TQA-Datensatz (Temporal Grounding Question and Answer) enthält 30.000 Datensätze und liefert umfangreiche zeitliche Positionierungsdaten für das Modelltraining.
CogVLM2-Video hat bei mehreren öffentlichen Bewertungssätzen eine hervorragende Leistung gezeigt, einschließlich einer hervorragenden Leistung bei quantitativen Bewertungsindikatoren wie VideoChatGPT-Bench und Zero-shot QA und MVBench.
Code: https://github.com/THUDM/CogVLM2
Projektwebsite: https://cogvlm2-video.github.io
Online-Testversion: http://36.103.203.44:7868/
Insgesamt eröffnet das Open-Source-Upgrade des CogVLM2-Video-Modells neue Möglichkeiten im Bereich des Videoverständnisses und seine Effizienz und Genauigkeit werden die Weiterentwicklung verwandter Technologien fördern. Interessierte Entwickler können den bereitgestellten Link nutzen, um es anzusehen und auszuprobieren. Der Herausgeber von Downcodes freut sich auf weitere innovative Anwendungen, die auf diesem Modell basieren!