중국 과학 연구팀은 Infinity-MM Super-Large-Scale Multimodal Data Set과 데이터 세트를 기반으로 훈련 된 Aquila-VL-2B AI 모델을 출시하여 멀티 모달 AI 분야에 상당한 획기적인 혁신을 가져 왔습니다. Infinity-MM 데이터 세트에는 GPT-4 모델에서 생성 된 대규모 이미지 설명, 시각적 명령 데이터 및 데이터가 포함되어 있으며 이미지 분석을 위해 RAM ++ 모델을 사용하여 고유 한 6 카테고리 분류 시스템을 사용하여 데이터 품질을 보장합니다. aq
Infinity-MM 데이터 세트는 규모가 대단하며 4 가지 범주의 데이터가 포함되어 있습니다. 1 천만 이미지 설명, 2,440 만 개의 일반적인 시각 지침 데이터, 6 백만 개의 선택된 고품질 명령 데이터 및 GPT-4와 같은 3 백만 AI 모델이 생성됩니다. 데이터. 연구팀은 이미지 분석 및 정보 추출을 위해 오픈 소스 AI 모델 RAM ++를 사용했으며 고유 한 6 가지 범주 분류 시스템을 통해 생성 된 데이터의 품질과 다양성을 보장했습니다.
모델 아키텍처 측면에서 Aquila-VL-2B는 Llava-Ponevision을 기반으로 구축되며 Qwen-2.5 언어 모델 및 Siglip 이미지 처리 기술을 통합합니다. 연구팀은 기본 그래픽 텍스트 상관 학습에서 시작하여 일반적인 시각적 작업 및 특정 지침 처리로 점차 전환하고 합성 데이터를 통합하면서 이미지 해상도의 상한을 점차적으로 증가시키는 4 단계 점진적인 교육 방법을 채택했습니다.
20 억 개의 매개 변수에도 불구하고 Aquila-VL-2B는 다양한 벤치 마크 테스트에서 잘 수행되었습니다. 멀티 모달 이해 능력 테스트 MMSTAR에서 가장 좋은 점수는 54.9%를 달성했으며 수학 능력 테스트 MathVista의 높은 점수는 59%를 달성하여 유사한 시스템을 크게 능가했습니다. 일반적인 이미지 이해 테스트 에서이 모델은 HallusionBench 및 MMBench에서 각각 43% 및 75.2%의 우수한 결과를 얻었습니다.
이 연구는 합성 데이터의 도입이 모델 성능의 개선에 크게 기여한 것으로 나타났습니다. 실험에 따르면 이러한 추가 데이터를 사용하지 않으면 모델 성능이 평균 2.4%감소합니다. 세 번째 단계에서 시작하여 Aquila-VL-2B의 성능은 InternVL2-2B 및 QWEN2VL-2B와 같은 기준 모델을 크게 능가했으며, 특히 네 번째 단계에서는 데이터의 양이 증가함에 따라 성능 향상이 더 분명합니다.
연구팀이 연구 커뮤니티에 데이터 세트와 모델을 열었으며, 이는 멀티 모달 AI 기술의 개발을 크게 촉진 할 것입니다. 이 모델은 NVIDIA A100GPU에 대한 교육을 완료 할뿐만 아니라 중국 자체 개발 칩을 지원하여 강력한 하드웨어 적응성을 보여줍니다.
Aquila-VL-2B 모델의 성공과 데이터 세트 및 모델의 오픈 소스는 중국의 다중 모드 인공 지능 분야에서 중요한 진전을 나타내며 미래의 AI 개발을위한 토대를 제공하며 멀티 모달 기술을 나타냅니다 광범위한 응용 프로그램 전망을 안내 할 것입니다.