O editor do Downcodes soube que a equipe de pesquisa científica chinesa lançou o conjunto de dados multimodais de ultra grande escala Infinity-MM e o modelo de IA Aquila-VL-2B baseado em seu treinamento. Este conjunto de dados contém descrições massivas de imagens, dados de instruções visuais, etc., e usa análise avançada de imagens e tecnologia de extração de informações para garantir a qualidade e diversidade dos dados. O modelo Aquila-VL-2B teve um bom desempenho em vários testes de benchmark, superando sistemas similares e demonstrando o progresso significativo da China no campo da IA multimodal. A sua natureza de código aberto promoverá enormemente a investigação académica e o desenvolvimento tecnológico.
A escala do conjunto de dados Infinity-MM é impressionante, contendo quatro categorias principais de dados: 10 milhões de descrições de imagens, 24,4 milhões de dados de instruções visuais gerais, 6 milhões de dados de instruções selecionados de alta qualidade e 3 milhões de modelos de IA, como GPT-4 gerados. dados. A equipe de pesquisa usa o modelo de IA de código aberto RAM++ para análise de imagens e extração de informações, e garante a qualidade e diversidade dos dados gerados por meio de um sistema exclusivo de classificação de seis categorias.
Em termos de arquitetura de modelo, Aquila-VL-2B é construído em LLaVA-OneVision e integra o modelo de linguagem Qwen-2.5 e a tecnologia de processamento de imagem SigLIP. A equipe de pesquisa adotou um método de treinamento progressivo em quatro estágios: começando com o aprendizado básico de associação imagem-texto, passando gradualmente para tarefas visuais gerais, processamento de instruções específicas e, finalmente, incorporando dados sintéticos, enquanto aumentava gradualmente o limite superior da resolução da imagem.
Apesar de ter uma escala de parâmetros de apenas 2 bilhões, o Aquila-VL-2B teve um bom desempenho em vários testes de benchmark. Alcançou a melhor pontuação de 54,9% no teste de habilidade de compreensão multimodal MMStar, e ainda alcançou uma pontuação alta de 59% no teste de habilidade matemática MathVista, superando significativamente sistemas similares. No teste geral de compreensão de imagem, o modelo obteve excelentes resultados de 43% e 75,2% no HalllusionBench e MMBench respectivamente.
A pesquisa descobriu que a introdução de dados sintéticos contribui significativamente para a melhoria do desempenho do modelo. Experimentos mostram que sem usar esses dados adicionais, o desempenho do modelo cai em média 2,4%. A partir do terceiro estágio, o desempenho do Aquila-VL-2B superou significativamente os modelos de referência como InternVL2-2B e Qwen2VL-2B. Principalmente no quarto estágio, à medida que a quantidade de dados aumenta, a melhoria do desempenho torna-se mais evidente.
Vale ressaltar que a equipe de pesquisa abriu o conjunto de dados e o modelo para a comunidade de pesquisa, o que promoverá enormemente o desenvolvimento da tecnologia de IA multimodal. O modelo não é apenas treinado na GPU Nvidia A100, mas também suporta chips desenvolvidos pela China, demonstrando forte adaptabilidade de hardware.
O lançamento do modelo Aquila-VL-2B marca um grande avanço no campo da IA multimodal na China. A sua natureza de código aberto e o seu poderoso desempenho promoverão o desenvolvimento tecnológico e a inovação de aplicações neste campo, injetando nova vitalidade no desenvolvimento futuro. de inteligência artificial. O editor do Downcodes espera mais desenvolvimentos inovadores semelhantes no futuro.