La comprensión de videos largos siempre ha sido un desafío importante en el campo del análisis de video. Los modelos tradicionales son ineficientes al procesar videos largos y son difíciles de extraer información clave de manera efectiva. Este artículo presenta una tecnología de compresión de marcado de video jerárquico llamada HiCo y el sistema "VideoChat-Flash" basado en esta tecnología, que mejora significativamente la tarea de "aguja en el pajar" a través del aprendizaje en múltiples etapas y mejora la capacidad de comprensión de videos largos y reduce significativamente Requisitos informáticos. El equipo de investigación creó un gran conjunto de datos que contiene 300.000 horas de vídeo y 200 millones de palabras de anotaciones para el entrenamiento y la evaluación de modelos.
Específicamente, HiCo reduce la complejidad computacional al segmentar videos largos en segmentos cortos y comprimir información redundante, al tiempo que aprovecha las asociaciones semánticas con las consultas de los usuarios para reducir aún más la cantidad de etiquetas procesadas. "VideoChat-Flash" adopta un esquema de aprendizaje de varias etapas: primero utiliza videos cortos para un ajuste fino supervisado, luego introduce gradualmente capacitación en videos largos y finalmente logra una comprensión integral del corpus de longitud mixta. Además, la tarea mejorada "aguja en el pajar" mejora la comprensión del modelo del contexto y las configuraciones de video de múltiples saltos.
En la implementación específica del procesamiento de videos largos, "VideoChat-Flash" adopta un esquema de aprendizaje de múltiples etapas, desde videos cortos hasta videos largos. Los investigadores primero utilizaron videos cortos y sus anotaciones correspondientes para un ajuste fino supervisado, y luego introdujeron gradualmente videos largos para el entrenamiento, logrando finalmente una comprensión integral del corpus de longitud mixta. Este método no solo mejora las capacidades de percepción visual del modelo, sino que también proporciona soporte de datos enriquecido para el procesamiento de videos largos. El equipo de investigación construyó un enorme conjunto de datos que contiene 300.000 horas de video y 200 millones de palabras de anotaciones.
Además, en el estudio se propone una tarea mejorada de "aguja en el pajar" para configuraciones de vídeo de múltiples saltos. Con el nuevo punto de referencia, el modelo no sólo necesita encontrar una única imagen objetivo en el vídeo, sino que también necesita comprender múltiples secuencias de imágenes interrelacionadas, mejorando así la capacidad del modelo para comprender el contexto.
Los resultados experimentales muestran que el método propuesto reduce el cálculo en dos órdenes de magnitud, especialmente funciona bien en pruebas comparativas de videos cortos y largos, convirtiéndose en un líder en el nuevo campo de la comprensión de videos cortos. Al mismo tiempo, este modelo también supera a los modelos de código abierto existentes en la comprensión de videos largos y muestra fuertes capacidades de posicionamiento temporal.
Documento: https://arxiv.org/abs/2501.00574
Destacar:
Los investigadores propusieron la tecnología de compresión jerárquica de etiquetas de vídeo HiCo, que reduce significativamente los requisitos computacionales para el procesamiento de vídeos largos.
El sistema "VideoChat-Flash" adopta un método de aprendizaje de múltiples etapas y combina videos cortos y largos para el entrenamiento, lo que mejora la capacidad de comprensión del modelo.
Los resultados experimentales muestran que este método alcanza nuevos estándares de rendimiento en múltiples pruebas comparativas y se convierte en un modelo avanzado en el campo del procesamiento de videos largos.
En general, esta investigación proporciona una nueva solución para la comprensión eficiente de videos largos. La tecnología HiCo y el sistema VideoChat-Flash han logrado avances significativos en la eficiencia computacional y el rendimiento del modelo, sentando las bases para futuras aplicaciones de análisis de videos largos. Los resultados de la investigación tienen una importancia teórica importante y un valor de aplicación práctica.