최근 LLM(Large Language Model) 기술이 급속히 발전하면서 중요한 분야인 시각언어모델(Visual Language Model)이 폭넓은 주목을 받고 있다. 특히 중국에서는 칭화대학교, 저장대학교 등 대학들이 오픈소스 시각모델 연구개발을 적극적으로 추진해 국내 인공지능 분야 발전에 새로운 활력을 불어넣고 있다. 이 기사에서는 세간의 이목을 끄는 여러 가지 오픈 소스 비전 모델에 초점을 맞추고 비전 처리 분야에서의 잠재력을 분석합니다.
칭화대학교, 저장대학교 등의 대학에서는 GPT-4V에 대한 오픈소스 대안을 장려했으며, 뛰어난 성능을 갖춘 일련의 오픈소스 시각적 모델이 중국에서 등장했습니다. 그 중 LLaVA, CogAgent, BakLLaVA가 많은 주목을 받았습니다. LLaVA는 시각적 채팅 및 추론 질문 응답에서 GPT-4 수준에 가까운 기능을 시연했으며 CogAgent는 CogVLM에서 개선된 오픈 소스 시각적 언어 모델입니다. 또한 BakLLaVA는 LLaVA1.5 아키텍처를 사용해 강화된 Mistral7B 기본 모델로 더 나은 성능과 상용성을 갖췄다. 이러한 오픈 소스 비전 모델은 비전 처리 분야에서 큰 잠재력을 가지고 있습니다.
LLaVA, CogAgent 및 BakLLaVA와 같은 오픈 소스 시각적 모델의 출현은 인공 지능 분야에서 중국의 상당한 진전을 나타내며 학계와 산업계에 강력한 도구와 리소스를 제공하며 시각적 언어 모델이 미래에 더 넓은 응용 가능성을 가질 것임을 나타냅니다. 인공지능 기술의 지속가능한 발전을 촉진하고, 사회 각계각층에 변화를 가져옵니다. 이러한 모델의 오픈 소스는 기술적 한계를 낮추고 더 광범위한 혁신과 협력을 촉진합니다.