A equipe de pesquisa científica chinesa lançou o conjunto de dados multimodal de super grande escala do Infinity-MM e o modelo AI AI Aquila-VL-2B treinado com base no conjunto de dados, trazendo avanços significativos ao campo da IA multimodal. O conjunto de dados do Infinity-MM contém descrições de imagens maciças, dados de instruções visuais e dados gerados pelos modelos GPT-4 e usa modelos RAM ++ para análise de imagem e um sistema de classificação de seis categorias exclusivo para garantir a qualidade dos dados. O modelo Aquila-VL-2B é baseado na arquitetura Llava-Onevision, integra o modelo de idioma QWEN-2.5 e a tecnologia de processamento de imagem Siglip, adota um método de treinamento progressivo de quatro estágios, que tem desempenho excelentemente em vários testes de referência, superando sistemas semelhantes.
O conjunto de dados Infinity-MM é incrível em escala e contém quatro categorias de dados: 10 milhões de descrições de imagens, 24,4 milhões de dados gerais de instrução visual, 6 milhões de dados selecionados de instrução de alta qualidade e 3 milhões de modelos de IA, como GPT-4, o gerado gerado dados. A equipe de pesquisa usou o modelo de código aberto RAM ++ para análise de imagens e extração de informações e garantiu a qualidade e a diversidade de dados gerados por meio de um sistema exclusivo de classificação de seis categorias.
Em termos de arquitetura do modelo, o Aquila-VL-2B é construído com base na Llava-Onevision e integra o modelo de idioma QWEN-2.5 e a tecnologia de processamento de imagem Siglip. A equipe de pesquisa adotou um método de treinamento gradual de quatro estágios: a partir do aprendizado básico de correlação de texto gráfico, em transição gradualmente para tarefas visuais gerais e processamento específico de instrução e, finalmente, integrando dados sintéticos, aumentando gradualmente o limite superior da resolução da imagem.
Apesar de apenas 2 bilhões de parâmetros, o Aquila-VL-2B teve um bom desempenho em vários testes de referência. A melhor pontuação no teste de capacidade de compreensão multimodal MMStar alcançou 54,9%, e a pontuação alta no teste de capacidade matemática Mathvista alcançou 59%, superando significativamente sistemas semelhantes. No teste geral de compreensão da imagem, o modelo alcançou excelentes resultados de 43% e 75,2% em Hallusionbench e MMbench, respectivamente.
O estudo constatou que a introdução de dados sintéticos contribuiu significativamente para a melhoria do desempenho do modelo. As experiências mostram que, sem usar esses dados adicionais, o desempenho do modelo cairá em uma média de 2,4%. A partir do terceiro estágio, o desempenho dos Aquila-VL-2B superou significativamente os modelos de referência como Internvl2-2B e QWEN2VL-2B, especialmente no quarto estágio, a melhoria do desempenho é mais óbvia à medida que a quantidade de dados aumenta.
Vale ressaltar que a equipe de pesquisa abriu conjuntos de dados e modelos para a comunidade de pesquisa, o que promoverá bastante o desenvolvimento da tecnologia multimodal de IA. Esse modelo não apenas completa o treinamento no NVIDIA A100GPU, mas também suporta chips autodesenvolvidos chineses, demonstrando forte adaptabilidade de hardware.
O sucesso do modelo Aquila-VL-2B, bem como o código aberto de conjuntos e modelos de dados, marca um progresso significativo no campo de inteligência artificial multimodal da China, fornece uma base sólida para o desenvolvimento futuro da IA e também indica a tecnologia de IA multimodal irá inaugurar as perspectivas de aplicativos mais amplas.