복잡한 시각적 추론을 위해 만들어졌습니다! Microsoft, Phi-3.5-vision 경량 다중 모드 오픈 소스 모델 출시

저자：Eve Cole 업데이트 시간：2024-12-22 19:16:02

Microsoft는 Phi-3 제품군의 새로운 구성원이며 텍스트 및 시각적 입력을 처리하도록 설계된 새로운 경량 다중 모드 AI 모델 Phi-3.5-vision을 출시했습니다. 이 모델은 리소스가 제한된 환경에서 잘 작동하고 128K 컨텍스트 길이를 지원하므로 상업 및 연구 애플리케이션에 이상적입니다. Phi-3.5-vision은 이미지 이해, OCR, 차트 분석 및 기타 기능을 통합했으며 여러 벤치마크 테스트에서 뛰어난 성능을 입증했습니다. 오픈 소스 특성과 효율적인 디자인으로 인해 다양한 AI 애플리케이션에 이상적인 선택이 됩니다.

Phi-3.5 비전 모델은 광범위한 이미지 이해, 광학 문자 인식(OCR), 차트 및 테이블 구문 분석, 다중 이미지 또는 비디오 클립 요약 등을 제공합니다. 이 모델은 이미지 및 비디오 처리와 관련된 벤치마크에서 상당한 성능 향상을 보여주었습니다.

Phi-3.5 비전 모델은 이미지 인코더, 커넥터, 프로젝터 및 Phi-3Mini 언어 모델을 포함하여 42억 개의 매개변수 시스템으로 구성됩니다. 고품질 교육 데이터, 합성 데이터 및 엄격하게 심사된 공개 문서를 사용하여 교육되어 데이터 품질과 개인 정보 보호를 보장합니다.

Phi-3.5-vision에는 세 가지 모델이 포함되어 있습니다.

Phi-3.5Mini Instruct: 메모리나 컴퓨팅 리소스가 제한된 환경에 적합한 경량 AI 모델입니다.

Phi-3.5MoE(Mixture of Experts): 복잡한 작업을 처리하는 데 능숙한 Microsoft 최초의 "전문가 혼합" 모델입니다.

Phi-3.5Vision Instruct: 텍스트와 이미지 처리 기능을 통합한 다중 모드 모델입니다.

주요 기능

Phi-3.5 비전 모델의 주요 기능적 특징에는 이미지 이해, OCR, 차트 및 테이블 이해, 다중 이미지 비교, 다중 이미지 또는 비디오 클립 요약, 효율적인 추론 기능, 낮은 대기 시간 및 메모리 최적화가 포함됩니다.

Phi-3.5-vision은 MMMU, MMBench, TextVQA 및 비디오 처리 기능 테스트와 같은 여러 벤치마크 테스트와 BLINK 벤치마크 테스트에서 좋은 성능을 발휘하여 다중 모드 및 시각적 작업에서 강력한 성능을 입증했습니다.

마이크로소프트의 Phi-3.5 비전 모델 출시는 AI 분야, 특히 기기측 운영과 복잡한 시각적 추론 측면에서 새로운 옵션을 제공한다. 오픈 소스 기능과 최적화된 디자인을 통해 리소스가 제한된 환경에서도 잘 작동할 수 있으며 다양한 AI 기반 애플리케이션에 대한 강력한 지원을 제공합니다.

모델 다운로드 주소: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

전체적으로 Phi-3.5-vision은 경량, 다중 모드 및 고성능 특성을 갖춘 AI 개발자 및 연구자들에게 강력한 도구를 제공하여 더 많은 분야에서 AI 적용을 촉진합니다. 오픈 소스 특성은 AI 기술의 공유와 개발도 촉진합니다.