NVIDIA выпустила новую схему поиска и обобщения видео с помощью искусственного интеллекта — революционную технологию, которая произведет революцию в том, как мы анализируем и понимаем видео. Этот проект использует генеративный искусственный интеллект, модели визуального языка (VLM) и модели большого языка (LLM) для достижения глубокого понимания и естественного взаимодействия видеоконтента, преодолевая ограничения традиционного видеоанализа и предоставляя пользователям беспрецедентные возможности интерактивного видео. Редактор Downcodes подробно объяснит основные функции и сценарии применения этой технологии.
NVIDIA недавно выпустила новый AI Blueprint для поиска и суммирования видео. Это техническое решение полностью изменит ограничения традиционного анализа видео. В отличие от предыдущих фиксированных моделей, которые могут распознавать только заданные объекты, новое решение обеспечивает глубокое понимание видеоконтента и естественное взаимодействие за счет сочетания генеративного искусственного интеллекта, модели визуального языка (VLM) и модели большого языка (LLM).
Эта система построена на микросервисной архитектуре NVIDIA NIM, и ее основное преимущество заключается в мощных возможностях понимания видео. Органично сочетая такие технологии, как обработка сегментации видео, генерация плотного описания и построение графа знаний, система может точно понимать и анализировать сверхдлинный видеоконтент. Пользователи могут создавать сводные видео, интерактивные вопросы и ответы, а также настраивать мониторинг событий видеопотоков в реальном времени через простой интерфейс REST API.
С точки зрения технической архитектуры решение содержит несколько ключевых компонентов: потоковый процессор отвечает за взаимодействие и синхронизацию между компонентами; NeMo Guardrails обеспечивает соответствие вводимых пользователем данных; конвейер VLM на базе NVIDIA DeepStream SDK отвечает за декодирование и функции видео; извлечение вектора. В базе данных хранятся промежуточные результаты; модуль Context-Aware RAG интегрируется для создания единой сводки. Модуль Graph-RAG фиксирует сложные взаимосвязи в видео через базу данных графов.
В практических приложениях система сначала разрезает видео на более мелкие сегменты, генерирует плотные описания с помощью VLM, а затем использует LLM для суммирования и анализа результатов. Для прямых трансляций система может непрерывно обрабатывать видеоклипы и генерировать сводки в реальном времени. В то же время, создавая график знаний, система может точно фиксировать сложную информацию в видео и поддерживать более глубокое взаимодействие в виде вопросов и ответов.
Этот технологический прорыв произведет революцию в таких сферах, как фабрики, склады, розничные магазины, аэропорты и транспортные узлы. Операционные группы могут получить более подробную информацию о видеоаналитике посредством взаимодействия на естественном языке для принятия более разумных решений.
В настоящее время NVIDIA открыла ранний доступ к приложениям для этого технологического решения. Разработчики могут выбрать подходящую модель через каталог API, предоставленный NVIDIA, либо используя службы, размещенные на NVIDIA, либо выбрав решение для локального развертывания. Этот гибкий вариант развертывания поможет предприятиям создавать индивидуальные решения для видеоаналитики, исходя из реальных потребностей.
Поскольку технология искусственного интеллекта продолжает развиваться, мы являемся свидетелями потрясающих изменений в области видеоанализа. Запуск новейшего технологического решения NVIDIA, несомненно, ускорит применение интеллектуального анализа видео во всех сферах жизни.
Подробности: https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint.
В целом, программа поиска и сводки видео с использованием ИИ от NVIDIA представляет собой большой шаг вперед в технологии интеллектуального анализа видео, а ее мощные функции и гибкие методы развертывания принесут огромную пользу различным отраслям. Эта технология имеет широкие перспективы применения и заслуживает дальнейшего развития.