A atualização do modelo grande multimodal do estudioso Puyu Lingbi para a versão 2.5 suporta imagem de contexto mais longa e compreensão de vídeo, apontando diretamente para GPT4V

Autor：Eve Cole Data da Última Atualização：2024-12-15 09:32:01

O Laboratório de Inteligência Artificial de Xangai anunciou recentemente que o grande modelo multimodal InternLM-XComposer desenvolvido por ele foi atualizado para a versão 2.5 (IXC-2.5). Esta versão fez grandes avanços na compreensão de contexto longo, compreensão de linguagem visual e expansão de aplicativos, melhorou significativamente a compreensão de imagens de texto e as capacidades de criação e superou os modelos de código aberto existentes em vários testes de benchmark. Alguns indicadores são até comparáveis ao GPT-4V e Gemini Pro. é comparável. O IXC-2.5 apresenta forte desempenho e amplo potencial de aplicação, estabelecendo uma nova referência para o desenvolvimento de grandes modelos multimodais.

Recentemente, o grande modelo multimodal InternLM-XComposer foi atualizado para a versão 2.5. Este modelo, desenvolvido pelo Laboratório de Inteligência Artificial de Xangai, melhorou a compreensão de texto e imagem com seus excelentes recursos de entrada e saída de longo contexto e aplicações criativas. avanços revolucionários.

O IXC-2.5 é capaz de lidar com contextos longos de até 96K com facilidade, graças aos dados de imagem-texto intercalados de 24K usados em seu treinamento. Esse recurso de contexto longo permite que o IXC-2.5 tenha um bom desempenho em tarefas que exigem amplo contexto de entrada e saída.

Comparado com a versão anterior, o IXC-2.5 possui três atualizações importantes na compreensão da linguagem visual:

Compreensão de resolução ultra-alta: IXC-2.5 suporta imagens de alta resolução de qualquer proporção por meio do codificador visual nativo 560×560ViT.

Compreensão detalhada do vídeo: trate o vídeo como uma imagem composta de altíssima resolução composta de dezenas a centenas de quadros, capturando detalhes por meio de amostragem densa e resolução mais alta.

Diálogo multi-turn e multi-imagem: Suporta diálogo multi-turn e multi-imagem de formato livre para interação natural com humanos.

Além de melhorias na compreensão, o IXC-2.5 também expande duas aplicações atraentes usando parâmetros LoRA adicionais para criação de imagens de texto:

Crie páginas da web: com base nas instruções de imagens de texto, o IXC-2.5 pode escrever códigos-fonte HTML, CSS e JavaScript para criar páginas da web.

Escreva artigos gráficos de alta qualidade: use tecnologias de Cadeia de Pensamento (CoT) e Otimização de Preferência Direta (DPO) especialmente projetadas para melhorar significativamente a qualidade de seu conteúdo escrito.

O IXC-2.5 é avaliado em 28 benchmarks e supera os modelos de última geração de código aberto existentes em 16 benchmarks. Além disso, igualou ou superou o GPT-4V e o Gemini Pro em 16 tarefas principais. Esta conquista comprova plenamente o poderoso desempenho e o amplo potencial de aplicação do IXC-2.5.

Endereço do artigo: https://arxiv.org/pdf/2407.03320

Endereço do projeto: https://github.com/InternLM/InternLM-XComposer

Em suma, o lançamento da versão IXC-2.5 marca um progresso significativo na tecnologia multimodal de grandes modelos, e seu poderoso desempenho e ricos cenários de aplicação indicam um futuro brilhante para o desenvolvimento da tecnologia de inteligência artificial no futuro. Ansioso por atualizações de recursos cada vez mais poderosas no futuro!