A Universidade de Engenharia de Anhui, a Universidade Tecnológica de Nanyang e a Universidade Lehigh lançaram em conjunto um grande modelo multimodal atraente - TinyGPT-V. A característica notável deste modelo é sua incrível relação custo-benefício: seu desempenho é comparável a modelos com dezenas de bilhões de parâmetros, mas requer apenas GPU 24G para completar o treinamento, o que reduz bastante o limite de recursos. Este é, sem dúvida, um grande benefício para indivíduos e instituições que desejam realizar pesquisas e aplicações de modelos em larga escala com recursos limitados. A arquitetura do TinyGPT-V consiste principalmente no modelo de linguagem grande Phi-2, codificador visual e camada de projeção linear. Seus resultados de avaliação de desempenho multiângulo também demonstram sua forte força em múltiplas tarefas de linguagem visual.
Pesquisadores da Anhui Engineering University, Nanyang Technological University e Lehigh University abriram o código-fonte de um grande modelo multimodal - TinyGPT-V Seu desempenho é comparável a modelos com dezenas de bilhões de parâmetros, e o treinamento requer apenas uma GPU 24G para ser concluído. TinyGPT-V é composto principalmente por três blocos principais: modelo de linguagem grande Phi-2, codificador visual e camada de projeção linear. Os pesquisadores conduziram uma avaliação multiângulo do desempenho do TinyGPT-V, mostrando seu forte desempenho em múltiplas tarefas de linguagem visual.
O código aberto do TinyGPT-V fornece novas ideias e possibilidades para a pesquisa e aplicação de grandes modelos multimodais e também marca um progresso significativo na redução do limite para o treinamento de grandes modelos. No futuro, podemos esperar o aparecimento de mais modelos semelhantes de alta eficiência e baixo custo, promovendo ainda mais a popularização e o desenvolvimento da tecnologia de inteligência artificial. O seu desempenho eficiente em ambientes com recursos limitados trouxe boas notícias tanto para a academia como para a indústria.