Gigante francês de IA invade campo de batalha multimodal: Mistral AI lança modelo de código aberto de compreensão de imagem e texto Pixtral 12B

Autor：Eve Cole Data da Última Atualização：2024-12-30 09:32:01

A Mistral AI lançou surpreendentemente o primeiro grande modelo multimodal de código aberto Pixtral12B. Sua escala de 12 bilhões de parâmetros e poderosa capacidade de processar imagens e texto são comparáveis à série Claude da Anthropic e ao GPT-4 da OpenAI. O que é ainda mais impressionante é que o Mistral AI divulga diretamente os pesos dos modelos e até fornece downloads de links magnéticos, o que reduz bastante o limite de uso e facilita o início rápido dos desenvolvedores e pesquisadores. O tamanho do Pixtral12B é de apenas 23,64 GB. É leve entre os modelos multimodais, tem baixo consumo de energia, é fácil de implantar e pode ser baixado em poucos minutos em uma rede de alta velocidade.

Mistral AI mais uma vez chocou o mundo da IA e lançou o Pixtral12B, o primeiro grande modelo multimodal de código aberto. Este modelo, que pode processar imagens e texto simultaneamente, não é apenas tecnologicamente avançado, mas também atrai a atenção generalizada pela sua abertura. Mistral AI publica diretamente os pesos do modelo on-line e até fornece links magnéticos cuidadosamente.

O destaque do Pixtral12B não são apenas suas funções poderosas, mas também seu design requintado. O tamanho total do modelo é de apenas 23,64 GB, tornando-o um player leve entre os modelos multimodais. Esse recurso reduz bastante o consumo de energia e o limite de implantação, permitindo que mais desenvolvedores e pesquisadores comecem facilmente. É relatado que usuários com conexões de Internet de alta velocidade podem concluir o download em apenas alguns minutos, melhorando muito a acessibilidade do modelo.

Como a mais recente obra-prima da Mistral AI, o Pixtral12B é desenvolvido com base em seu modelo de texto Nemo12B e possui 12 bilhões de parâmetros. Suas capacidades são comparáveis a modelos multimodais bem conhecidos, como a série Claude da Anthropic e o GPT-4 da OpenAI, e podem compreender e responder a uma variedade de questões complexas relacionadas a imagens.

Em termos de especificações técnicas, o Pixtral12B é igualmente impressionante: estrutura de rede de 40 camadas, 14.336 dimensões ocultas, 32 cabeças de atenção e um codificador visual dedicado de 400M que suporta processamento de imagens com resolução de 1024x1024.

O que vale mais a pena mencionar é que o Pixtral12B teve um bom desempenho em vários testes de benchmark confiáveis. Em plataformas como MMMU, Mathvista, ChartQA e DocVQA, seus resultados superaram muitos modelos multimodais bem conhecidos, incluindo Phi-3 e Qwen-27B, provando plenamente sua forte força.

A mudança da Mistral AI irá, sem dúvida, promover ainda mais a onda de modelos multimodais de código aberto. A resposta da comunidade a este novo modelo tem sido impressionante, com muitos desenvolvedores e pesquisadores ansiosos para começar a explorar o potencial do Pixtral12B. Isto não só reflecte a vitalidade da comunidade de código aberto, mas também indica que a tecnologia de IA multimodal pode inaugurar uma nova ronda de inovação.

Com o lançamento do Pixtral12B, temos motivos para esperar o surgimento de aplicações mais inovadoras. Seja nas áreas de compreensão de imagens, análise de documentos ou raciocínio intermodal, este modelo pode trazer progressos inovadores. Este movimento da Mistral AI sem dúvida contribuiu para a democratização e popularização da tecnologia de IA. Vamos esperar e ver como isso irá remodelar o padrão do campo da IA no futuro.

endereço huggingface: https://huggingface.co/mistral-community/pixtral-12b-240910

O lançamento de código aberto do Pixtral12B marca uma nova etapa no desenvolvimento da tecnologia de IA multimodal. Seu design leve e desempenho poderoso promoverão enormemente a popularização e aplicação da tecnologia de IA. .