인공 지능은 다중 모드 처리 분야에서 큰 발전을 이루었지만 고성능 모델에는 막대한 컴퓨팅 리소스가 필요한 경우가 많아 엣지 장치에서의 적용이 제한됩니다. 이러한 과제에 대응하여 OpenBMB는 고급 AI 기술과 리소스가 제한된 장치 간의 격차를 해소하는 것을 목표로 하는 효율적인 다중 모드 모델인 MiniCPM-o2.6을 출시했습니다. MiniCPM-o2.6은 80억 개의 매개변수를 보유하고 비전, 음성 및 언어 처리 모듈을 통합하며 스마트폰, 태블릿과 같은 장치에서 원활하게 실행되도록 최적화되어 개발자와 기업에 보다 편리한 AI 솔루션 배포 방법을 제공합니다.
인공 지능 기술은 최근 몇 년 동안 상당한 발전을 이루었지만 계산 효율성과 다양성 사이에는 여전히 과제가 남아 있습니다. GPT-4와 같은 많은 고급 다중 모드 모델에는 일반적으로 많은 양의 컴퓨팅 리소스가 필요하므로 고급 서버에서의 사용이 제한되어 스마트폰 및 태블릿과 같은 엣지 장치에서 스마트 기술을 효과적으로 활용하기가 어렵습니다. 또한, 영상 분석이나 음성-텍스트 변환 등의 작업을 실시간으로 처리하는 데는 여전히 기술적 장벽이 있어 제한된 하드웨어 조건에서 원활하게 작동할 수 있는 효율적이고 유연한 AI 모델의 필요성이 강조됩니다.
이러한 문제를 해결하기 위해 OpenBMB는 최근 비전, 음성 및 언어 처리를 지원하도록 설계된 80억 개의 매개변수 아키텍처를 갖춘 모델인 MiniCPM-o2.6을 출시했으며 스마트폰, 태블릿 및 iPad 실행과 같은 엣지 장치에서 효율적으로 실행할 수 있습니다. MiniCPM-o2.6은 모듈식 설계를 채택하고 여러 강력한 구성 요소를 통합합니다.
- 시각적 이해를 위한 SigLip-400M.
- Whisper-300M은 다국어 음성 처리를 구현합니다.
- ChatTTS-200M은 대화 기능을 제공합니다.
- 고급 텍스트 이해를 위한 Qwen2.5-7B.
이 모델은 OpenCompass 벤치마크에서 평균 점수 70.2점을 달성하여 시각적 작업에서 GPT-4V를 능가했습니다. 다중 언어 지원과 소비자급 장치에서의 효율적인 작동 덕분에 다양한 애플리케이션 시나리오에서 실용적입니다.
MiniCPM-o2.6은 다음과 같은 기술적 세부 사항을 통해 강력한 성능을 달성합니다.
- 매개변수 최적화: 큰 크기에도 불구하고 llama.cpp 및 vLLM과 같은 프레임워크를 통해 최적화되어 정확성을 유지하고 리소스 요구 사항을 줄입니다.
- 다중 모드 처리: 최대 1344×1344 해상도의 이미지 처리를 지원하며 뛰어난 성능을 위한 OCR 기능이 있습니다.
- 스트리밍 미디어 지원: 지속적인 비디오 및 오디오 처리를 지원하므로 실시간 모니터링 및 라이브 방송 시나리오에 적용할 수 있습니다.
- 음성 기능: 이중 언어 음성 이해, 음성 복제 및 감정 제어 기능을 제공하여 자연스러운 실시간 상호 작용을 촉진합니다.
- 통합 용이성: Gradio와 같은 플랫폼과 호환되므로 배포 프로세스가 단순화되고 일일 활성 사용자가 백만 명 미만인 상용 애플리케이션에 적합합니다.
이러한 기능을 통해 MiniCPM-o2.6은 개발자와 기업이 대규모 인프라에 의존하지 않고도 복잡한 AI 솔루션을 배포할 수 있는 기회를 제공합니다.
MiniCPM-o2.6은 다양한 분야에서 좋은 성능을 발휘합니다. 시각적 작업에서는 GPT-4V를 능가하고 음성 처리 측면에서는 실시간 중국어 및 영어 대화, 감정 제어 및 음성 복제를 구현하며 뛰어난 자연어 상호 작용 기능을 갖추고 있습니다. 동시에 지속적인 비디오 및 오디오 처리를 통해 실시간 번역 및 대화형 학습 도구에 적합하므로 문서 디지털화와 같은 OCR 작업에서 높은 정확성을 보장합니다.
MiniCPM-o2.6의 출시는 인공 지능 기술의 중요한 발전을 나타내며 리소스 집약적 모델과 엣지 장치 호환성 간의 오랜 문제를 성공적으로 해결합니다. OpenBMB는 고급 다중 모드 기능과 효율적인 에지 장치 운영을 결합하여 강력하고 접근 가능한 모델을 만듭니다. 인공지능이 일상생활에서 점점 더 중요해짐에 따라 MiniCPM-o2.6은 혁신이 어떻게 성능과 실용성 사이의 격차를 줄여 다양한 산업 분야의 개발자와 사용자가 첨단 기술을 효과적으로 활용할 수 있는지 보여줍니다.
모델: https://huggingface.co/openbmb/MiniCPM-o-2_6
가장 밝은 부분:
MiniCPM-o2.6은 에지 장치에서 효율적으로 실행될 수 있고 시각, 음성 및 언어 처리를 지원하는 80억 개의 매개변수를 갖춘 다중 모드 모델입니다.
이 모델은 OpenCompass 벤치마크에서 좋은 성능을 보였고 시각적 작업에서는 GPT-4V를 능가했으며 다중 언어 처리 기능을 갖추고 있습니다.
MiniCPM-o2.6은 실시간 처리, 음성 복제, 감정 제어 등의 기능을 갖추고 있으며 교육, 의료 및 기타 산업 분야의 혁신적인 애플리케이션에 적합합니다.
전체적으로 MiniCPM-o2.6의 출현은 AI 기술 적용에 있어 획기적인 발전을 의미합니다. 이는 강력한 멀티모달 기능과 엣지 장치의 낮은 리소스 소비 요구 사항을 성공적으로 결합하여 AI를 광범위하게 적용할 수 있는 길을 열었습니다. 기술은 매우 높은 응용 가치와 개발 전망을 가지고 있습니다.