Alibaba의 최신 범용 다중 모드 대형 모델 mPLUG-Owl3은 강력한 다중 모드 이해 기능과 놀라운 추론 효율성으로 인공 지능 분야에 돌풍을 일으켰습니다. 2시간 분량의 영상 콘텐츠를 4초 만에 이해하고, 사용자가 제기하는 다양한 질문에 정확하게 답변해 이미지, 영상, 텍스트 이해 모두에서 뛰어난 성능을 발휘한다. 이러한 기술적 혁신은 학계의 이정표일 뿐만 아니라 AI가 인간과 상호 작용하는 방식에 대한 미래의 변화를 예고합니다.
정보가 폭발하는 시대에 우리는 사진과 영상을 통해 일상을 기록하고 매일 행복을 공유합니다. 하지만 기계가 이러한 사진과 영상을 인간처럼 이해할 뿐만 아니라 우리와 깊이 소통할 수 있는 기술이 있다면 어떤 일이 일어날지 생각해 본 적이 있나요?
Alibaba 팀이 출시한 최신 범용 멀티모달 대형 모델 mPLUG-Owl3은 놀라운 효율성과 이해력을 갖추고 있어 2시간짜리 영화를 4초 안에 볼 수 있습니다. 이것은 단순한 모델이 아니라 그 이상입니다! 보고, 듣고, 말하고, 생각할 수 있는 AI 비서입니다.
mPLUG-Owl3, 이름은 안경을 쓴 부엉이처럼 들리며 똑똑하고 기민합니다. 핵심 기능은 긴 이미지 시퀀스를 이해하는 것입니다. 일련의 사진이든 비디오이든 내용을 이해하고 스토리라인까지 이해할 수 있습니다.
mPLUG-Owl3가 너무 많은 정보를 처리할 수 있도록 연구진은 슈퍼 브레인-하이퍼 어텐션 모듈을 장착했습니다. 이 모듈은 시각정보와 언어정보를 동시에 처리할 수 있는 AI의 슈퍼브레인 역할을 해 AI가 이미지와 관련 텍스트 정보를 모두 이해할 수 있도록 해준다.
mPLUG-Owl3 모델은 뛰어난 추론 효율성으로 다중 모드 이해 분야에서 획기적인 발전을 이루었습니다. 단일 이미지, 다중 이미지, 비디오 등 다중 시나리오 벤치마크에서 SOTA(State of the Art)에 도달할 뿐만 아니라 First Token Latency를 6배 줄이고 처리할 수 있는 이미지 수를 줄입니다. A100 그래픽 카드 한 장으로 8배 늘어나 400매에 달합니다.
mPLUG-Owl3은 들어오는 다중 모드 지식을 정확하게 이해하고 이를 사용하여 질문에 답할 수 있습니다. 판단의 기초가 되는 지식은 물론 판단의 세부 근거도 알려줄 수 있습니다.
mPLUG-Owl3은 다양한 자료의 콘텐츠 관계를 정확하게 이해하고 심층적인 추론을 수행할 수 있습니다. 문체 차이든 문자 인식이든 관계없이 모든 것을 쉽게 처리합니다.
mPLUG-Owl3는 최대 2시간 길이의 비디오를 보고 이해할 수 있으며, 질문이 비디오의 어느 부분과 관련되어 있는지에 관계없이 4초 이내에 사용자 질문에 답변을 시작할 수 있습니다.
mPLUG-Owl3은 경량 Hyper Attention 모듈을 사용하여 Transformer Block을 그래픽 및 텍스트 기능 상호 작용과 텍스트 모델링이 가능한 새로운 모듈로 확장합니다. 이 설계는 추가로 도입되는 새로운 매개변수의 수를 크게 줄여 모델 훈련을 더 쉽게 만들고 훈련 및 추론 효율성도 향상시킵니다.
mPLUG-Owl3은 광범위한 데이터 세트를 실험하면서 대부분의 단일 이미지 다중 모드 벤치마크에서 SOTA 결과를 달성했습니다. 다중 이미지 평가에서는 다중 이미지 시나리오에 특별히 최적화된 모델을 능가합니다. LongVideoBench에서는 기존 모델을 능가하며 장편 영상 이해 능력이 탁월하다는 평가를 받았다.
Alibaba mPLUG-Owl3의 출시는 기술적인 도약일 뿐만 아니라 다중 모드 대형 모델의 적용에 대한 새로운 가능성을 제공합니다. 기술이 지속적으로 향상됨에 따라 mPLUG-Owl3가 미래에 더 많은 놀라움을 선사할 것으로 기대합니다.
논문 주소: https://arxiv.org/pdf/2408.04840
코드: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
온라인 체험: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
mPLUG-Owl3의 출현은 다중 모드 대형 모델 기술 개발의 새로운 단계를 의미합니다. 효율적인 처리 기능과 정확한 이해 기능은 미래 AI 기술 응용 프로그램에 대한 광범위한 전망을 열어줍니다. 기술이 계속 발전할수록 mPLUG-Owl3는 사람들의 삶에 더 많은 편리함과 놀라움을 선사할 것이라고 믿습니다. mPLUG-Owl3을 기반으로 한 더욱 혁신적인 애플리케이션을 기대합니다.