Feito para raciocínio visual complexo! Microsoft lança modelo de código aberto multimodal e leve Phi-3.5-vision

Autor：Eve Cole Data da Última Atualização：2024-12-22 19:16:02

A Microsoft lançou um novo modelo leve de IA multimodal Phi-3.5-vision, que é um novo membro da família Phi-3 e foi projetado para processar entrada de texto e visual. O modelo funciona bem em ambientes com recursos limitados e suporta comprimento de contexto de 128K, tornando-o ideal para aplicações comerciais e de pesquisa. Phi-3.5-vision integra compreensão de imagem, OCR, análise de gráficos e outras funções e demonstrou excelente desempenho em vários testes de benchmark. Sua natureza de código aberto e design eficiente o tornam a escolha ideal para diversas aplicações de IA.

O modelo Phi-3.5-vision apresenta ampla compreensão de imagens, reconhecimento óptico de caracteres (OCR), análise de gráficos e tabelas, resumo de múltiplas imagens ou videoclipes e muito mais. O modelo demonstrou melhorias significativas de desempenho em benchmarks relacionados ao processamento de imagem e vídeo.

O modelo Phi-3.5-vision consiste em um sistema de 4,2 bilhões de parâmetros, incluindo codificadores de imagem, conectores, projetores e modelos de linguagem Phi-3Mini. É treinado com dados educacionais de alta qualidade, dados sintéticos e documentos públicos rigorosamente selecionados, garantindo a qualidade e a privacidade dos dados.

Phi-3.5-vision contém três modelos:

Phi-3.5Mini Instruct: Modelo leve de IA, adequado para ambientes com memória ou recursos computacionais limitados.

Phi-3.5MoE (Mixture of Experts): O primeiro modelo de “mistura de especialistas” da Microsoft, que é bom para lidar com tarefas complexas.

Phi-3.5Vision Instruct: Modelo multimodal integrando funções de processamento de texto e imagem.

Principais características

Os principais recursos funcionais do modelo de visão Phi-3.5 incluem compreensão de imagem, OCR, compreensão de gráficos e tabelas, comparação de múltiplas imagens, resumo de múltiplas imagens ou videoclipes, recursos de raciocínio eficientes e baixa latência e otimização de memória.

Phi-3.5-vision teve um bom desempenho em vários testes de benchmark, como MMMU, MMBench, TextVQA e testes de capacidade de processamento de vídeo, bem como no teste de benchmark BLINK, demonstrando seu forte desempenho em tarefas multimodais e visuais.

O lançamento do modelo Phi-3.5-vision da Microsoft traz novas opções para o campo da IA, especialmente em termos de operação do lado do dispositivo e raciocínio visual complexo. Seus recursos de código aberto e design otimizado permitem um bom desempenho em ambientes com recursos limitados, fornecendo forte suporte para uma variedade de aplicativos orientados por IA.

Endereço de download do modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Resumindo, Phi-3.5-vision fornece uma ferramenta poderosa para desenvolvedores e pesquisadores de IA com suas características leves, multimodais e de alto desempenho, promovendo a aplicação de IA em mais campos. A sua natureza de código aberto também promove a partilha e o desenvolvimento de tecnologia de IA.