최근 몇 년 동안 인공지능 분야는 시각과 언어의 통합에서 큰 진전을 이루었으며, 특히 대규모 언어 모델의 등장은 다중 모드 인공지능 시스템 개발에 새로운 활력을 불어넣었습니다. 그러나 비전과 시각적 언어에 대한 강력한 기본 모델을 구축하는 데에는 여전히 어려움이 있습니다. 이러한 과제를 해결하기 위해 많은 유명 대학과 연구 기관의 연구자들이 협력하여 InternVL이라는 혁신적인 모델을 개발했습니다. InternVL은 다양한 비전 언어 작업에 더 잘 대처할 수 있도록 기본 비전 모델의 규모와 다양성을 향상시키는 것을 목표로 합니다.
최근 인공지능 분야에서는 시각과 언어의 원활한 통합에 초점이 맞춰지고 있으며, 특히 LLM(Large Language Model)의 등장으로 상당한 진전이 이루어지고 있다. 그러나 다중 모드 AGI 시스템의 경우 시각 및 시각 언어의 기본 모델 개발이 여전히 따라잡아야 합니다. 이러한 격차를 메우기 위해 난징 대학교, OpenGVLab, 상하이 인공 지능 연구소, 홍콩 대학교, 홍콩 중문 대학교, 칭화 대학교, 중국 과학 기술 대학교 및 SenseTime Research의 연구원들은 혁신적인 모델인 InternVL을 제안했습니다. 이 모델은 비전 기반 모델의 규모를 확장하고 일반적인 시각적 언어 작업에 적용합니다. InternVL은 32개의 일반 시각적 언어 벤치마크에서 기존 방법을 능가하여 이미지 및 비디오 분류, 이미지 및 비디오 텍스트 검색, 이미지 캡션, 시각적 질문 답변 및 다중 모드 대화와 같은 다양한 작업에서 탁월한 기능을 보여줍니다.InternVL 모델의 출현은 시각적 언어 모델 개발의 새로운 단계를 의미합니다. 여러 벤치마크 테스트에서 얻은 우수한 결과는 미래의 다중 모드 인공 지능 시스템 구축을 위한 새로운 방향과 가능성을 제공합니다. 향후 이 모델이 보다 실용적인 응용 분야에서 역할을 할 수 있을 것으로 기대되며, 인공지능 기술의 발전과 적용을 촉진할 수 있을 것으로 기대된다.