다운코드 편집자가 MiniCPM-V2.6의 빅 소식을 전해 드립니다! 8B 매개변수만 사용하는 이 엔드사이드 다중 모드 인공지능 모델은 단일 이미지, 다중 이미지 및 비디오 이해의 세 가지 분야에서 20B 미만 모델의 SOTA 결과를 달성했습니다. 이는 소형 모델의 기적이라고 할 수 있습니다. 강력한 성능을 제공할 뿐만 아니라 최종 장치에서 매우 높은 작동 효율성과 친숙성을 달성하여 GPT-4V와 비교할 수 있는 최종 AI 애플리케이션에 새로운 가능성을 제공합니다. MiniCPM-V2.6의 강력한 기능과 특징을 좀 더 자세히 살펴보겠습니다.
MiniCPM-V2.6의 최종측 다중 모드 인공 지능 모델은 8B 매개변수만 가지고 있지만 단일 이미지, 다중 이미지 및 20B 미만의 비디오 이해에서 3개의 SOTA(State of the Art, 현재 최고 수준) 결과를 달성했습니다. - 엔드사이드 AI의 모달 기능이 크게 향상되었으며 GPT-4V 수준과 완전히 일치합니다.
다음은 기능을 요약한 것입니다.
모델 기능: MiniCPM-V2.6은 클라이언트 측에서 단일 이미지, 다중 이미지 및 비디오 이해와 같은 핵심 기능의 포괄적인 초월을 달성하고 클라이언트 측에 실시간 비디오 이해, 다중 이미지 공동 이해 및 기타 기능을 제공합니다. 처음으로 복잡한 실제 시나리오에 더 가까워졌습니다.
효율성 및 성능: 이 모델은 작고 크며 매우 높은 픽셀 밀도(토큰 밀도)를 가지고 있습니다. 이는 GPT-4o의 단일 토큰 인코딩 픽셀 밀도보다 2배 더 높으며 최종 장치에서 매우 높은 작동 효율성을 달성합니다.
클라이언트 측 친화성: 모델은 양자화 후 6GB의 메모리만 필요하며 클라이언트 측 추론 속도는 초당 18개 토큰으로 이전 세대 모델보다 33% 빠르며 다국어를 지원합니다. 추론 프레임워크.
기능 확장: MiniCPM-V2.6은 OCR 기능을 사용하여 단일 이미지 장면의 고화질 이미지 분석 기능을 다중 이미지 및 비디오 장면으로 마이그레이션하여 시각적 토큰 수를 줄이고 리소스를 절약합니다.
추론 능력: 자전거 시트 조정을 위한 단계별 지침, 밈 뒤에 있는 홈 식별 등 다중 이미지 이해 및 복잡한 추론 작업에 탁월한 능력을 나타냅니다.
다중 그래프 ICL: 이 모델은 상황별 퓨샷 학습을 지원하고 특정 분야의 작업에 빠르게 적응할 수 있으며 출력 안정성을 향상시킵니다.
고화질 시각적 아키텍처: 통합된 시각적 아키텍처를 통해 모델의 OCR 기능이 계속되어 단일 이미지에서 여러 이미지 및 비디오로 원활하게 확장할 수 있습니다.
매우 낮은 환각률: MiniCPM-V2.6은 환각 평가에서 우수한 성능을 발휘하여 신뢰성을 입증합니다.
MiniCPM-V2.6 모델의 출시는 엔드사이드 AI 개발에 큰 의미가 있습니다. 이는 다중 모드 처리 기능을 향상시킬 뿐만 아니라 엔드사이드 장치에서 고성능 AI를 실현할 수 있는 가능성을 보여줍니다. 제한된 자원.
MiniCPM-V2.6 오픈 소스 주소:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
포옹하는 얼굴:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp, ollama, vllm 배포 튜토리얼 주소:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 시리즈 오픈 소스 주소:
https://github.com/OpenBMB/MiniCPM
MiniCPM-V2.6의 등장은 의심할 여지 없이 클라이언트 측 AI 기술 개발에 박차를 가했습니다. 효율적이고 강력한 성능과 편리한 오픈 소스 방식은 더 많은 개발자와 연구자에게 귀중한 리소스를 제공하고 장치 측 AI 애플리케이션의 추가 혁신과 대중화를 촉진할 것입니다. 앞으로도 더 많은 놀라움을 선사할 MiniCPM 시리즈를 기대합니다!