A equipe de pesquisa chinesa fez um grande avanço e criou com sucesso o maior conjunto de dados público de AI multimodal "Infinity-MM", com base nisso, e treinou um modelo pequeno com excelente desempenho Aquila-VL-2B. Esse conjunto de dados contém descrições de imagens maciças, dados de instruções visuais e dados gerados por modelos de IA, como o GPT-4. O modelo Aquila-VL-2B alcançou excelentes resultados em vários testes de referência, com apenas 2 bilhões de parâmetros, mas possui uma pontuação alta de 54,9% no teste básico do MMStar e também é excelente nas tarefas de matemática e compreensão de imagens Uso eficaz de dados sintéticos, o desempenho do modelo foi aprimorado em 2,4%. Mais importante, o conjunto de dados e o modelo foram abertos à comunidade de pesquisa, impulsionando o desenvolvimento da IA de código aberto.
Este resultado da pesquisa marca um progresso significativo no campo multimodal da China. . O projeto Infinity-MM e o projeto Aquila-VL-2B estão disponíveis, visite o link relevante para saber mais.