Длинное понимание видео всегда было серьезной проблемой в области анализа видео. В этой статье представлена иерархическая технология сжатия видео-лейбла под названием HICO, и систему «Видеочат», основанная на технологии. . Исследовательская группа создала большие наборы данных, содержащие 300 000 часов видео и 200 миллионов слов для обучения и оценки моделей.
В частности, HICO уменьшает сложность вычисления, деляя длинное видео на короткие фрагменты и сжав избыточную информацию. «Videochat-Flash» принимает многоэтапное решение для обучения, сначала использует короткие видео для использования коротких видеороликов для тонкой настройки, а затем постепенно вводят длинные видео-обучение, чтобы наконец реализовать полное понимание корпуса смешанной длины. Кроме того, улучшенная задача «иглы в сухой траве» улучшает способность модели понимать контекст и многословную конфигурацию видео.
В конкретной реализации длинной обработки видео «Videochat-Flash» использует многоэтапное короткое видео для длинного видео-обучения. Исследователи сначала использовали короткие видео и соответствующие их аннотации, чтобы сделать надзор и тонкую -а затем постепенно ввели длинные видео для обучения и, наконец, реализовали полное понимание корпуса смешанной длины. Этот метод не только улучшает способность визуального восприятия модели, но также обеспечивает богатую поддержку данных для обработки длинных видео.
Кроме того, в исследовании была предложена улучшенная миссия «иглы в высушенных кучах». Через новый эталон модель не только должна найти одно целевое изображение в видео, но также понимает несколько взаимосвязанных последовательностей изображений, тем самым улучшая способность модели понимать контекст.
Результаты эксперимента показывают, что предлагаемый метод уменьшил на два порядка расчета, особенно в тесте коротких видеороликов и длинных видео, став лидером нового поля «Понимание коротких видео». В то же время эта модель также превосходит существующую модель с открытым исходным кодом с точки зрения длинного понимания видео, демонстрируя сильную способность временного позиционирования.
Тезис: https://arxiv.org/abs/2501.00574
Очки:
Исследователи предложили HICO HICO, иерархическую технологию сжатия видео -метки, которая значительно снижает вычислительные потребности в длинной обработке видео.
Система «Видеочат-флаш» использует многостадийный метод обучения в сочетании с короткими видео и длинными видео для обучения для повышения способности модели.
Результаты эксперимента показывают, что этот метод достиг новых стандартов производительности в нескольких тестах и стал передовой моделью в области длинной обработки видео.
В целом, это исследование предоставляет новое решение для высокоэффективного длинного понимания видео. Результаты исследований имеют важную теоретическую значимость и фактическую ценность применения.