В этой статье представлена модель Video ReCap — технология создания видеосубтитров с открытым исходным кодом, которая способна генерировать иерархические видеосубтитры, охватывающие продолжительность видео от 1 секунды до 2 часов. Модель использует рекурсивную архитектуру видеоязыка и включает в себя три основных модуля: видеокодер, выравнивание видео-языка и рекурсивный декодер текста. Она может понимать видеоконтент с разной продолжительностью и уровнями абстракции и генерировать точные и многоуровневые описания. Его рекурсивная архитектура демонстрирует значительные преимущества при создании описаний абзацев и резюме видео, а также может улучшить эффект от длинных видео вопросов и ответов, обеспечивая новые прорывы в области понимания видео и создания контента.
Модель Video ReCap — это технология создания видеосубтитров с открытым исходным кодом, которая может обрабатывать видео длительностью от 1 секунды до 2 часов и генерировать многослойные видеосубтитры на разных уровнях. Используя архитектуру рекурсивного языка видео, включающую три модуля: видеокодер, выравнивание видео-языка и рекурсивный декодер текста, модель способна понимать видео с разной продолжительностью и уровнями абстракции и генерировать точные и многоуровневые субтитры с описанием видео. Эксперименты демонстрируют важность рекурсивной архитектуры для создания описаний сегментов и сводок видео. Кроме того, иерархические видеосубтитры, созданные с помощью этой модели, могут значительно улучшить эффект длинных видеовопросов и ответов на основе набора данных EgoSchema.В целом, модель Video ReCap демонстрирует большой потенциал в понимании и применении видео благодаря своим эффективным возможностям создания субтитров и иерархической структуре, обеспечивающей новые направления и техническую поддержку для исследований и разработок в смежных областях. Функция открытого исходного кода также облегчает участие большего числа исследователей и разработчиков и совместное содействие прогрессу и совершенствованию этой технологии.