NVIDIA는 사진을 보면서 대화할 수 있는 새로운 시각적 음성 모델 NVEagle을 출시했습니다.

저자：Eve Cole 업데이트 시간：2024-12-27 09:32:01

NVIDIA는 Georgia Tech, UMD 및 HKPU의 연구팀과 협력하여 새로운 시각적 언어 모델 NVEagle을 출시했습니다. 이 다중 모드 대형 언어 모델(MLLM)은 이미지를 이해하고 자연어 대화를 수행할 수 있어 '보고 말할 수 있는' 슈퍼 어시스턴트가 됩니다. 이미지를 시각적 마크업으로 변환하고 이를 텍스트 임베딩과 결합하여 시각적 정보에 대한 이해를 크게 향상시키고, OCRBench에서 평균 점수 85.9점을 달성하여 많은 주요 모델을 능가하는 등 여러 벤치마크에서 좋은 성능을 발휘합니다. NVEagle은 다양한 작업 요구 사항을 충족하기 위해 세 가지 버전을 제공하며, 그중 13B-Chat 버전은 대화형 AI에 특별히 최적화되어 있습니다.

예를 들어 사진 속 사람을 정확하게 식별하고 '황런순'과 같은 질문에 답할 수 있습니다. 그러나 이러한 강력한 모델을 구축하려면 고해상도 이미지 처리에서 '환각' 현상이 발생하는 등의 과제도 따릅니다. 연구팀은 특히 MoE(Mixed Expert) 메커니즘을 사용하여 다양한 시각적 인코더와 융합 전략을 탐색함으로써 이러한 어려움을 성공적으로 극복하고 복잡한 시각적 정보의 정확한 처리를 달성했습니다. NVEagle은 연구원과 개발자의 편의를 위해 Hugging Face 플랫폼에 출시되었습니다. OCR, TextVQA 및 GQA와 같은 작업에서 뛰어난 성능은 강력한 시각적 이해 및 언어 생성 기능을 입증하여 시각적 언어 모델 개발을 위한 새로운 벤치마크를 설정합니다.

프로젝트 입구: https://top.aibase.com/tool/eagle

데모: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat

가장 밝은 부분:

NVEagle은 복잡한 시각적 정보에 대한 이해를 향상시키기 위해 설계된 NVIDIA가 출시한 차세대 시각적 언어 모델입니다.

이 모델에는 다양한 작업에 적합한 세 가지 버전이 포함되어 있습니다. 13B-Chat 버전은 대화형 AI에 중점을 둡니다.

?여러 벤치마크에서 Eagle 모델은 기존의 많은 주요 모델을 능가하며 탁월한 성능을 보여줍니다.

전체적으로 NVEagle의 출현은 시각적 언어 모델 기술의 획기적인 발전을 의미합니다. NVEagle의 강력한 성능과 사용 용이성은 많은 애플리케이션 시나리오에 혁신을 가져오고 인공 지능 기술의 추가 개발을 촉진할 것입니다. 앞으로 NVEagle에 대한 더 넓은 적용과 더 심층적인 연구가 기대됩니다.