NVIDIA는 새로운 AI 비디오 검색 및 요약 청사진을 발표했습니다 비디오 분석. 이 솔루션은 NVIDIA NIM 마이크로 서비스 아키텍처를 기반으로합니다. 비디오 세분화 처리, 집중적 인 설명 생성 및 지식 그래프 구성과 같은 기술을 사용하여 초대형 비디오 컨텐츠를 정확하게 이해하고 분석합니다. 간단한 REST API 인터페이스 및 라이브 비디오 스트리밍 모니터링. 핵심 구성 요소에는 스트림 프로세서, NEMO Guardrails, NVIDIA DeepStream SDK, 벡터 데이터베이스, 컨텍스트 인식 RAG 모듈 및 그래프 래그 모듈을 기반으로하는 VLM 파이프 라인이 포함되며 효율적인 비디오 분석 프로세스가 공동 구현됩니다.
NVIDIA는 최근 새로운 AI 비디오 검색 및 요약 BluePrint (비디오 검색 및 요약을위한 AI BluePrint)를 발표했습니다. 과거에 사전 설정된 객체 만 인식 한 고정 된 모델과 달리 새로운 솔루션은 생성 AI, VISION LANGUAGE MODEL (VLM) 및 LLM (Lange Language Model)을 결합하여 비디오 컨텐츠의 깊은 이해와 자연적인 상호 작용을 달성합니다.
이 시스템은 NVIDIA NIM 마이크로 서비스 아키텍처를 기반으로하며 핵심 장점은 강력한 비디오 이해 기능에 있습니다. 비디오 세분화 처리, 집중적 인 설명 생성 및 지식 그래프 구성과 같은 기술을 유기적으로 결합 함으로써이 시스템은 매우 긴 비디오 컨텐츠를 정확하게 이해하고 분석 할 수 있습니다. 사용자는 간단한 REST API 인터페이스를 사용하여 비디오 요약 생성, 대화식 Q & A 및 실시간 비디오 스트림의 사용자 정의 이벤트 모니터링을 실현할 수 있습니다.
이 솔루션에는 여러 주요 구성 요소가 포함됩니다. 스트림 프로세서에는 구성 요소 간의 상호 작용 및 동기화가 포함되어 있습니다. 벡터 데이터베이스는 중급 결과를 저장합니다.
실제 응용 분야에서 시스템은 먼저 비디오를 더 작은 세그먼트로 나누고 VLM을 통해 집중적 인 설명을 생성 한 다음 LLM을 사용하여 결과를 요약하고 분석합니다. 라이브 스트림의 경우 시스템은 비디오 클립을 지속적으로 처리하고 실시간으로 요약을 생성 할 수 있습니다. 동시에, 지식 그래프를 구축함으로써 시스템은 비디오에서 복잡한 정보를 정확하게 캡처하고 더 깊은 질문과 응답 상호 작용을 지원할 수 있습니다.
이 기술 혁신은 공장, 창고, 소매점, 공항 및 교통 허브에 혁신적인 변화를 가져올 것입니다. 운영 팀은 자연 언어 상호 작용을 통해 더 풍부한 비디오 분석 통찰력을 얻을 수있어 더 똑똑한 결정을 내릴 수 있습니다.
현재 NVIDIA는이 기술 프로그램에 대한 조기 액세스 애플리케이션을 열었습니다. 개발자는 NVIDIA에서 제공하는 API 디렉토리를 통해 NVIDIA 호스트 서비스를 사용하거나 로컬 배치 솔루션을 선택하여 적절한 모델을 선택할 수 있습니다. 이 유연한 배포 옵션은 기업이 실제 요구에 따라 맞춤형 비디오 분석 솔루션을 만드는 데 도움이됩니다.
AI 기술의 지속적인 발전으로 우리는 비디오 분석 분야의 지구 변화 변화를 목격하고 있습니다. 최신 기술 솔루션 인 Nvidia의 출시는 의심 할 여지없이 다양한 산업에서 지능형 비디오 분석 구현을 가속화 할 것입니다.
세부 사항 : https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint
요컨대, NVIDIA의 AI 비디오 검색 및 요약 BluePrint는 강력하고 유연한 비디오 분석 솔루션을 제공하여 모든 산업에 더 똑똑하고 효과적인 비디오 데이터 처리 기능을 제공하며 실제 응용 프로그램에서 AI 기술 구현을 가속화합니다. 이 솔루션의 공개 액세스는 또한 개발자에게 더 많은 가능성을 제공하며 향후이 기술을 기반으로보다 혁신적인 응용 프로그램을 기대할 수 있기를 기대합니다.