Редактор Downcodes узнал, что компания Zhipu AI недавно объявила об обновлении с открытым исходным кодом своей модели CogVLM2-Video. Эта модель совершила крупный прорыв в области понимания видео, эффективно решив недостатки существующих моделей обработки временной информации. Вводя многокадровые видеоизображения и информацию о временных метках, а также используя методы автоматического построения данных временного позиционирования, CogVLM2-Video демонстрирует превосходную производительность при создании видеосубтитров и временном позиционировании, предоставляя мощный инструмент для таких задач, как генерация и обобщение видео. Модель достигла самых современных результатов в тестах на понимание общедоступного видео, а ее эффективный автоматизированный процесс генерации данных также снижает затраты на обучение модели.
Компания Zhipu AI объявила об обновлении с открытым исходным кодом модели CogVLM2-Video, модели, которая добилась значительного прогресса в области понимания видео. CogVLM2-Video устраняет ограничения существующих моделей понимания видео, связанные с потерей временной информации, путем введения многокадровых видеоизображений и временных меток в качестве входных данных кодера. Модель использует автоматизированный метод построения данных временного позиционирования для генерации 30 000 привязанных ко времени видео вопросов и ответов, тем самым обучая модель, которая достигает новейших показателей производительности в тестах понимания общедоступного видео. CogVLM2-Video превосходно справляется с созданием видеосубтитров и временным позиционированием, предоставляя мощный инструмент для таких задач, как создание и обобщение видео.
CogVLM2-Video извлекает кадры из входного видео и аннотирует информацию о временных метках, чтобы языковая модель могла точно знать соответствующее время каждого кадра, тем самым обеспечивая позиционирование во времени и соответствующие вопросы и ответы.
Для крупномасштабного обучения был разработан автоматизированный процесс генерации видеовопросов и ответов, который снижает затраты на аннотации и повышает качество данных за счет комбинированного использования моделей понимания изображений и больших языковых моделей. Окончательно созданный набор данных вопросов и ответов временного заземления (TQA) содержит 30 000 записей, предоставляя обширные данные временного позиционирования для обучения модели.
CogVLM2-Video продемонстрировал отличную производительность на нескольких наборах общедоступных оценок, включая отличные показатели по индикаторам количественной оценки, таким как VideoChatGPT-Bench и Zero-shot QA и MVBench.
Код: https://github.com/THUDM/CogVLM2
Сайт проекта: https://cogvlm2-video.github.io
Онлайн-пробная версия: http://36.103.203.44:7868/
В целом, обновление модели CogVLM2-Video с открытым исходным кодом открывает новые возможности в области понимания видео, а его эффективность и точность будут способствовать дальнейшему развитию связанных технологий. Заинтересованные разработчики могут перейти по предоставленной ссылке, чтобы просмотреть и опробовать ее. Редактор Downcodes с нетерпением ждет новых инновационных приложений на основе этой модели!