Исследовательская группа из Национального университета Сингапура разработала усовершенствованную аудиовизуальную модель большого языка (av-LLM) под названием video-SALMONN, которая способна понимать визуальный, аудио и речевой контент в видео. Модель соединяет предварительно обученные аудио- и видеокодеры с большими языковыми моделями через инновационную причинную структуру Q-Former с несколькими разрешениями для достижения всестороннего понимания видеоконтента. Эта революционная технология достигла замечательных результатов в таких задачах, как ответы на вопросы по видео, открыв новый путь для применения искусственного интеллекта в понимании и рассуждении видео, и, как ожидается, найдет широкое применение в образовании, медицине и других областях.
Недавно Вэньи Ю и его команда из Национального университета Сингапура предложили новую технологию под названием video-SALMONN, которая способна не только понимать последовательность визуальных кадров, аудиособытия и музыку в голосовом контенте; Внедрение этой технологии знаменует собой важный шаг к тому, чтобы машины могли понимать видеоконтент.
Video-SALMONN — это комплексная аудиовизуальная модель большого языка (av-LLM), которая сочетает в себе предварительно обученные аудио- и видеокодеры с новой структурой причинного Q-Former с несколькими разрешениями (MRC Q-Former) Connect с. тело большой языковой модели. Эта структура не только захватывает детальную временную информацию, необходимую для понимания речи, но также обеспечивает эффективную обработку других видеоэлементов.
Чтобы улучшить сбалансированную обработку различных видеоэлементов в модели, исследовательская группа предложила специализированные методы обучения, включая потерю разнообразия и непарные гибридные стратегии обучения аудио и видео, чтобы избежать доминирования видеокадров или модальностей.
По недавно представленному тесту оценки речи, аудио и видео (SAVE) компания Video-SALMONN достигла абсолютного улучшения точности более чем на 25 % в задаче ответа на видеовопрос (video-QA) и достигла абсолютного повышения точности более чем на 25 %. % по аудио- и видеоответам на вопросы, включающие человеческую речь. Было достигнуто абсолютное улучшение точности более чем на 30%. Кроме того, Video-SALMONN демонстрирует превосходные возможности понимания видео и рассуждения при решении задач, беспрецедентных для других av-LLM.
Ядром video-SALMONN является причинно-следственная структура Q-Former с несколькими разрешениями (MRC), которая выравнивает синхронизированные функции ввода аудио и видео и пространство представления текста в трех разных временных масштабах, чтобы удовлетворить зависимость различных задач от различных потребностей видеоэлементов. . Кроме того, для усиления временной причинно-следственной связи между последовательными видеокадрами в MRC Q-Former включена причинная структура самовнимания со специальной причинной маской.
Предложение Video-SALMONN не только приносит академическому сообществу новые исследовательские инструменты, но и предоставляет широкие возможности для практического применения. Это делает взаимодействие между технологиями и людьми более естественным и интуитивным, уменьшая сложность обучения пользователей, особенно детей и пожилых людей, использованию технологий. В то же время у него также есть потенциал улучшить доступность технологий, в том числе для людей с ограниченными возможностями передвижения.
Предложение видео-SALMONN является важным шагом на пути к реализации общего искусственного интеллекта (AGI). Интегрируя речевой ввод, а также существующие неречевые аудио- и визуальные входные данные, такие модели позволят получить полное понимание человеческих взаимодействий и окружающей среды, что позволит применять их к более широкому кругу областей.
Развитие этой технологии, несомненно, окажет глубокое влияние на анализ видеоконтента, образовательные приложения и улучшение качества жизни людей. Поскольку технологии продолжают развиваться, у нас есть основания полагать, что будущий ИИ будет более интеллектуальным и ближе к потребностям человека.
Адрес статьи: https://arxiv.org/html/2406.15704v1.
Прорывной прогресс технологии видео-SALMONN указывает на то, что искусственный интеллект достиг новой вехи в области понимания видео, и стоит с нетерпением ждать его широких перспектив применения. В будущем непрерывное развитие подобных технологий будет способствовать дальнейшей глубокой интеграции искусственного интеллекта и человеческого общества.