VLM(시각 언어 모델)은 인공 지능 분야에서 상당한 발전을 이루었지만 여전히 고해상도 이미지와 다양한 텍스트를 처리하는 데 어려움을 겪고 있습니다. 기존 모델은 정적 시각적 인코더를 사용하는 경우가 많으며 이는 비효율적이고 다양한 데이터 세트에 대한 정확도가 부족합니다. 훈련 데이터 세트의 다양성과 작업 특이성의 부족으로 인해 특히 그래프 해석과 같은 전문 도메인 작업에서 성능이 제한됩니다.
인공 지능의 급속한 발전과 함께 시각 및 언어 기능의 통합으로 인해 시각 언어 모델(VLM)이 획기적인 발전을 이루었습니다. 이러한 모델은 시각적 데이터와 텍스트 데이터를 동시에 처리하고 이해하도록 설계되었으며 이미지 설명, 시각적 질문 응답, 광학 문자 인식, 다중 모드 콘텐츠 분석과 같은 시나리오에서 널리 사용됩니다.
VLM은 자율 시스템, 향상된 인간-컴퓨터 상호 작용 및 효율적인 문서 처리 도구를 개발하는 데 중요한 역할을 하여 이 두 가지 데이터 양식 간의 격차를 성공적으로 메워 왔습니다. 그러나 고해상도의 시각적 데이터와 다양한 텍스트 입력을 처리하는 데에는 여전히 많은 과제가 존재합니다.
현재 연구에서는 이러한 제한 사항을 부분적으로 해결했지만 대부분의 모델에 채택된 정적 시각적 인코더는 고해상도 및 가변 입력 크기에 대한 적응성이 부족합니다. 동시에 사전 훈련된 언어 모델과 시각적 인코더의 조합은 다중 모드 작업에 최적화되지 않았기 때문에 종종 비효율성을 초래합니다. 일부 모델은 복잡성을 관리하기 위해 희소 컴퓨팅 기술을 도입하지만 다양한 데이터 세트의 정확도는 여전히 부족합니다. 게다가 기존 모델의 훈련 데이터 세트에는 다양성과 작업 특이성이 부족한 경우가 많아 성능이 더욱 제한됩니다. 예를 들어, 많은 모델은 차트 해석이나 밀집된 문서 분석과 같은 전문 작업에서는 제대로 수행되지 않습니다.
최근 DeepSeek-AI는 오픈 소스 하이브리드 전문가(MoE) 시각적 언어 모델의 새로운 DeepSeek-VL2 시리즈를 출시했습니다. 이 모델 시리즈는 시각적 인코딩의 동적 슬라이싱, 다중 헤드 잠재 주의 메커니즘 및 DeepSeek-MoE 프레임워크를 포함한 최첨단 혁신 기술을 결합합니다.
DeepSeek-VL2 시리즈는 세 가지 매개변수 구성을 제공합니다.
- DeepSeek-VL2-Tiny: 33억 7천만 개의 매개변수(10억 개의 활성화 매개변수)
- DeepSeek-VL2-Small: 161억 개의 매개변수(28억 개의 활성화 매개변수)
- DeepSeek-VL2: 275억 개의 매개변수(45억 개의 활성화 매개변수)
이러한 확장성은 다양한 애플리케이션 요구 사항과 컴퓨팅 예산에 적응할 수 있는 능력을 보장합니다.
DeepSeek-VL2의 아키텍처는 계산 요구 사항을 줄이면서 성능을 최적화하도록 설계되었습니다. 동적 슬라이싱 방법을 사용하면 중요한 세부 정보를 잃지 않고 고해상도 이미지를 처리할 수 있으므로 문서 분석 및 시각적 현지화 작업에 이상적입니다. 또한 다중 헤드 잠재 주의 메커니즘을 통해 모델은 대량의 텍스트 데이터를 효율적으로 처리할 수 있으므로 일반적으로 조밀한 언어 입력 처리와 관련된 계산 오버헤드가 줄어듭니다. DeepSeek-VL2의 교육은 다양한 다중 모드 데이터 세트를 다루므로 광학 문자 인식, 시각적 질문 답변 및 차트 해석과 같은 다양한 작업에서 우수한 성능을 발휘할 수 있습니다.
성능 테스트 결과, Small 구성은 광학 문자 인식 작업에서 92.3%의 정확도를 달성해 기존 모델을 크게 뛰어넘었습니다. 비주얼 포지셔닝 벤치마크 테스트에서는 이전 세대 제품 대비 모델 정확도가 15% 향상됐다.
동시에 DeepSeek-VL2는 최첨단 정확도를 유지하면서 컴퓨팅 리소스 요구 사항을 30% 줄입니다. 이러한 결과는 고해상도 이미지 및 텍스트 처리에서 이 모델의 우수성을 입증합니다.
프로젝트 입구: https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab
하이라이트:
DeepSeek-VL2 시리즈는 다양한 애플리케이션 요구 사항에 맞게 다양한 매개변수 구성을 제공합니다.
다이나믹 슬라이싱 기술은 고해상도 이미지 처리의 효율성을 높여 복잡한 문서 분석에 적합합니다.
이 모델은 정확도가 크게 향상되어 광학 문자 인식 및 시각적 위치 파악 작업에서 탁월한 성능을 발휘합니다.
DeepSeek-VL2 시리즈 모델은 혁신적인 아키텍처와 뛰어난 성능으로 시각적 언어 모델 분야에 새로운 혁신을 가져왔습니다. 고해상도 이미지와 복잡한 텍스트 처리의 장점으로 인해 많은 응용 시나리오에서 큰 잠재력을 보여주며 더 많은 관심과 연구가 필요합니다.