인공 지능 기술의 빠른 발전으로 비전 및 텍스트 데이터의 통합은 중요한 도전이되었습니다. 기존 모델은 구조화 된 시각적 문서를 다룰 때 많은 제한 사항이 있으며, 이는 자동 컨텐츠 추출 및 이해에 영향을 미칩니다. IBM에 의해 최근에 발표 된 화강암 -3.1-2B는이 문제를 해결하도록 설계된 시각적 언어 모델입니다.
인공 지능 기술의 지속적인 개발로 인해 비전 및 텍스트 데이터의 통합은 복잡한 도전이되었습니다. 기존 모델은 종종 테이블, 차트, 인포 그래픽 및 삽화와 같은 구조화 된 시각적 문서를 정확하게 구문 분석하는 데 어려움을 겪고 있습니다. 이 수요에 직면 한 IBM은 최근 문서 이해를 위해 설계된 작은 시각적 언어 모델 인 화강암 vision-3.1-2B를 발표했습니다.
Granite-Vision-3.1-2B는 테이블, 차트 및 삽화를 포함한 다양한 시각적 형식에서 컨텐츠를 추출 할 수 있습니다. 이 모델은 다양한 문서 관련 작업을 처리 할 수있는 공개 및 합성 소스를 포함한 데이터 소스와 함께 신중하게 선택된 데이터 세트에 대해 교육을받습니다. Granite의 대형 언어 모델의 개선 된 버전으로서 이미지와 텍스트의 두 가지 양식을 통합하여 모델의 해석 능력을 향상시키고 다양한 실제 응용 시나리오에 적합합니다.
이 모델은 세 가지 주요 구성 요소로 구성됩니다. 먼저, 시그 라립을 사용하여 시각적 데이터를 효율적으로 처리하고 인코딩하는 시각적 인코더; 텍스트 정보가 포함 된 시각적 정보; 마지막으로 화강암 -3.1-2B 비율을 기반으로하는 큰 언어 모델은 컨텍스트 길이가 128k이며 복잡하고 거대한 입력을 처리 할 수 있습니다.
훈련 중에 화강암-비전 -3.1-2b는 Llava를 끌어 들이고 다층 엔코더의 특성과 Anyres의 밀도 그리드 해상도를 결합합니다. 이러한 개선 사항은 자세한 시각적 컨텐츠를 이해하는 모델의 능력을 향상시켜 테이블 및 차트 분석, OCR (Optical Character Recognition) 및 문서 기반 쿼리에 응답하는 등의 시각적 문서 작업을보다 정확하게 수행 할 수 있습니다.
평가 결과는 화강암-비전 -3.1-2B가 여러 벤치 마크, 특히 문서 이해에서 잘 수행되었음을 보여줍니다. ChartQA 벤치 마크 에서이 모델은 0.86 점을 기록하여 1B-4B 범위의 매개 변수로 다른 모델을 능가했습니다. TextVQA 벤치 마크에서 점수는 0.76으로 이미지에 포함 된 텍스트 정보를 구문 분석하고 답변 할 수있는 강력한 기능을 보여줍니다. 이 결과는 엔터프라이즈 애플리케이션에서 정확한 시각적 및 텍스트 데이터 처리에 대한 모델의 잠재력을 강조합니다.
IBM의 Granite-Vision-3.1-2B는 시각적 언어 모델에서 중요한 발전을 나타내며 균형 잡힌 시각적 문서 이해 솔루션을 제공합니다. 아키텍처 및 교육 방법을 사용하면 복잡한 시각적 및 텍스트 데이터를 효율적으로 구문 분석하고 분석 할 수 있습니다. Transformers 및 VLLM에 대한 기본 지원 덕분 에이 모델은 다양한 사용 사례에 적응할 수 있으며 Colab T4와 같은 클라우드 환경에 배치 할 수 있으며 연구원 및 전문가에게 AI 중심 문서 처리 기능을 향상시키기위한 실용적인 도구를 제공 할 수 있습니다.
모델 : https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
핵심 사항 :
Granite-Vision-3.1-2B는 IBM의 문서 이해를 위해 특별히 설계된 작은 시각적 언어 모델로, 여러 시각적 형식으로 컨텐츠 추출을 처리 할 수 있습니다.
이 모델은 시각적 인코더, 시각적 언어 커넥터 및 대형 언어 모델의 세 부분으로 구성되어 복잡한 입력에 대한 이해를 향상시킵니다.
다중 벤치 마크, 특히 문서 이해 분야에서 우수하여 강력한 엔터프라이즈 애플리케이션 잠재력을 보여줍니다.
IBM의 Granite-Vision-3.1-2B는 시각적 및 텍스트 데이터를 통합하는 기능을 향상시킬뿐만 아니라 기업에 강력한 문서 처리 도구를 제공하여 실제 응용 프로그램에서 AI 기술의 큰 잠재력을 보여줍니다.