Cet article présente le modèle Video ReCap, une technologie open source de génération de sous-titres vidéo capable de générer des sous-titres vidéo hiérarchiques couvrant des durées vidéo allant de 1 seconde à 2 heures. Le modèle adopte une architecture de langage vidéo récursif et comprend trois modules de base : un encodeur vidéo, un alignement du langage vidéo et un décodeur de texte récursif. Il peut comprendre le contenu vidéo à différentes durées et niveaux d'abstraction et générer des descriptions précises et riches en couches. Son architecture récursive présente des avantages significatifs dans la génération de descriptions de paragraphes et de résumés vidéo, et peut améliorer l'effet des longues questions et réponses vidéo, apportant ainsi de nouvelles avancées dans les domaines de la compréhension vidéo et de la génération de contenu.
Le modèle Video ReCap est une technologie open source de génération de sous-titres vidéo qui peut traiter des vidéos d'une seconde à deux heures et générer des sous-titres vidéo en couches à différents niveaux. En utilisant une architecture de langage vidéo récursive, comprenant trois modules : encodeur vidéo, alignement du langage vidéo et décodeur de texte récursif, le modèle est capable de comprendre des vidéos à différentes durées et niveaux d'abstraction et de générer des sous-titres de description vidéo précis et riches en couches. Les expériences démontrent l'importance des architectures récursives pour générer des descriptions de segments et des résumés vidéo. De plus, les sous-titres vidéo hiérarchiques générés par ce modèle peuvent améliorer considérablement l'effet des longues questions et réponses vidéo basées sur l'ensemble de données EgoSchema.Dans l'ensemble, le modèle Video ReCap montre un grand potentiel dans la compréhension et l'application de la vidéo grâce à ses capacités efficaces de génération de sous-titres et sa structure hiérarchique, offrant de nouvelles orientations et un support technique pour la recherche et le développement dans des domaines connexes. Sa fonctionnalité open source permet également à davantage de chercheurs et de développeurs de participer plus facilement et de promouvoir conjointement le progrès et l'amélioration de cette technologie.