El editor de Downcodes se enteró de que Zhipu AI anunció recientemente una actualización de código abierto de su modelo CogVLM2-Video. Este modelo ha logrado un gran avance en el campo de la comprensión del video, resolviendo efectivamente las deficiencias de los modelos existentes en el procesamiento de información temporal. Al introducir imágenes de video de múltiples fotogramas e información de marca de tiempo, y utilizar métodos automatizados de construcción de datos de posicionamiento de tiempo, CogVLM2-Video demuestra un excelente rendimiento en la generación de subtítulos de video y posicionamiento de tiempo, proporcionando una herramienta poderosa para tareas como la generación y el resumen de videos. El modelo ha logrado resultados de última generación en puntos de referencia de comprensión de videos públicos y su eficiente proceso de generación de datos automatizado también reduce el costo de la capacitación del modelo.
Zhipu AI anunció una actualización de código abierto del modelo CogVLM2-Video, un modelo que ha logrado avances significativos en el campo de la comprensión del video. CogVLM2-Video resuelve las limitaciones de los modelos de comprensión de video existentes al lidiar con la pérdida de información temporal al introducir imágenes de video de múltiples fotogramas y marcas de tiempo como entradas del codificador. El modelo utiliza un método automatizado de construcción de datos de posicionamiento de tiempo para generar 30.000 datos de preguntas y respuestas en video relacionados con el tiempo, entrenando así un modelo que logra el rendimiento más reciente en los puntos de referencia de comprensión de video público. CogVLM2-Video se destaca en la generación de subtítulos de video y posicionamiento temporal, proporcionando una poderosa herramienta para tareas como generación y resumen de videos.
CogVLM2-Video extrae fotogramas del vídeo de entrada y anota la información de la marca de tiempo, de modo que el modelo de lenguaje pueda conocer con precisión el tiempo correspondiente de cada fotograma, logrando así el posicionamiento temporal y las preguntas y respuestas relacionadas.
Para la capacitación a gran escala, se desarrolló un proceso automatizado de generación de datos de preguntas y respuestas en video, que reduce los costos de anotación y mejora la calidad de los datos mediante el uso combinado de modelos de comprensión de imágenes y modelos de lenguaje de gran tamaño. El conjunto de datos de preguntas y respuestas de base temporal (TQA) finalmente construido contiene 30.000 registros, lo que proporciona datos de posicionamiento temporal enriquecidos para el entrenamiento del modelo.
CogVLM2-Video ha demostrado un rendimiento excelente en múltiples conjuntos de evaluación pública, incluido un rendimiento excelente en indicadores de evaluación cuantitativa como VideoChatGPT-Bench y Zero-shot QA y MVBench.
Código: https://github.com/THUDM/CogVLM2
Sitio web del proyecto: https://cogvlm2-video.github.io
Prueba en línea: http://36.103.203.44:7868/
En definitiva, la actualización de código abierto del modelo CogVLM2-Video aporta nuevas posibilidades al campo de la comprensión del vídeo, y su eficiencia y precisión promoverán un mayor desarrollo de tecnologías relacionadas. Los desarrolladores interesados pueden visitar el enlace proporcionado para verlo y probarlo. ¡El editor de Downcodes espera más aplicaciones innovadoras basadas en este modelo!