Downcodes의 편집자는 중국 과학 연구팀이 훈련을 기반으로 Infinity-MM 초대형 다중 모드 데이터 세트와 Aquila-VL-2B AI 모델을 출시했다는 사실을 알게 되었습니다. 이 데이터 세트에는 대규모 이미지 설명, 시각적 지시 데이터 등이 포함되어 있으며 고급 이미지 분석 및 정보 추출 기술을 사용하여 데이터 품질과 다양성을 보장합니다. Aquila-VL-2B 모델은 여러 벤치마크 테스트에서 우수한 성능을 발휘하여 유사한 시스템을 능가하고 다중 모드 AI 분야에서 중국의 상당한 진전을 보여주었습니다. 오픈 소스 특성은 학술 연구 및 기술 개발을 크게 촉진할 것입니다.
Infinity-MM 데이터세트의 규모는 4가지 주요 데이터 범주(이미지 설명 1,000만 개, 일반 시각적 지침 데이터 2,440만 개, 선별된 고품질 지침 데이터 600만 개, 생성된 GPT-4와 같은 AI 모델 300만 개)를 포함하여 엄청납니다. 데이터. 연구팀은 이미지 분석 및 정보 추출을 위해 오픈소스 AI 모델 RAM++를 사용하고, 고유한 6개 카테고리 분류 시스템을 통해 생성된 데이터의 품질과 다양성을 보장합니다.
모델 아키텍처 측면에서 Aquila-VL-2B는 LLaVA-OneVision을 기반으로 구축되었으며 Qwen-2.5 언어 모델과 SigLIP 이미지 처리 기술을 통합합니다. 연구팀은 기본적인 이미지-텍스트 연관 학습에서 시작하여 점차적으로 일반적인 시각적 작업, 특정 명령 처리로 전환하고 마지막으로 합성 데이터를 통합하는 동시에 이미지 해상도의 상한을 점차 높이는 4단계 점진적인 훈련 방법을 채택했습니다.
매개변수 규모가 20억 개에 불과함에도 불구하고 Aquila-VL-2B는 다양한 벤치마크 테스트에서 좋은 성능을 보였습니다. 멀티모달 이해능력 테스트인 MMStar에서 최고점인 54.9%를 기록했고, 수학 능력 테스트인 MathVista에서도 59%라는 높은 점수를 기록해 유사 시스템을 크게 뛰어넘었습니다. 일반 이미지 이해도 테스트에서는 HallusionBench와 MMBench에서 각각 43%, 75.2%라는 우수한 결과를 얻었습니다.
연구에 따르면 합성 데이터의 도입이 모델 성능 향상에 크게 기여하는 것으로 나타났습니다. 실험에 따르면 이 추가 데이터를 사용하지 않으면 모델 성능이 평균 2.4% 감소하는 것으로 나타났습니다. 3단계부터 Aquila-VL-2B의 성능은 InternVL2-2B, Qwen2VL-2B 등 레퍼런스 모델을 크게 능가했다. 특히 4단계에서는 데이터 양이 늘어날수록 성능 향상이 더욱 뚜렷해진다.
연구팀이 연구 커뮤니티에 데이터 세트와 모델을 공개했다는 점은 언급할 가치가 있으며, 이는 다중 모드 AI 기술 개발을 크게 촉진할 것입니다. 이 모델은 Nvidia A100 GPU에서 훈련되었을 뿐만 아니라 중국이 자체 개발한 칩도 지원하여 강력한 하드웨어 적응성을 보여줍니다.
Aquila-VL-2B 모델의 출시는 중국의 다중 모드 AI 분야에서 획기적인 발전을 의미합니다. Aquila의 오픈 소스 특성과 강력한 성능은 이 분야의 기술 개발과 애플리케이션 혁신을 촉진하여 미래 개발에 새로운 활력을 불어넣을 것입니다. 인공지능의. Downcodes의 편집자는 앞으로도 더욱 유사한 획기적인 개발이 이루어지기를 기대합니다.