O editor de Downcodes traz para você as grandes novidades do MiniCPM-V2.6! Este modelo de inteligência artificial multimodal final com apenas 8B de parâmetros alcançou resultados SOTA de modelos abaixo de 20B nos três campos de imagem única, multiimagem e compreensão de vídeo. Pode ser chamado de milagre dos modelos pequenos! Ele não apenas tem um forte desempenho, mas também alcança eficiência operacional extremamente alta e facilidade de uso em dispositivos finais, trazendo novas possibilidades para aplicações de IA finais, até mesmo comparáveis ao GPT-4V. Vamos dar uma olhada mais profunda nas poderosas funções e recursos do MiniCPM-V2.6.
O modelo de inteligência artificial multimodal final do MiniCPM-V2.6 tem apenas parâmetros de 8B, mas alcançou três resultados SOTA (State of the Art, o melhor nível atual) de imagem única, multiimagem e compreensão de vídeo abaixo de 20B. -as capacidades modais da IA final foram significativamente melhoradas e estão totalmente alinhadas com os níveis GPT-4V.
A seguir está um resumo dos recursos:
Recursos do modelo: MiniCPM-V2.6 alcança transcendência abrangente de recursos essenciais, como compreensão de imagem única, multiimagem e vídeo no lado do cliente, e traz compreensão de vídeo em tempo real, compreensão conjunta de múltiplas imagens e outras funções para o lado do cliente pela primeira vez, aproximando-o de cenários complexos do mundo real.
Eficiência e desempenho: Este modelo é pequeno e grande, com densidade de pixels extremamente alta (densidade de token), que é duas vezes maior que a densidade de pixels de codificação de token único do GPT-4o, e atinge eficiência operacional extremamente alta em dispositivos finais.
Facilidade do lado do cliente: o modelo requer apenas 6 GB de memória após a quantização, e a velocidade de inferência do lado do cliente chega a 18 tokens por segundo, o que é 33% mais rápido que o modelo da geração anterior e suporta vários idiomas. e estruturas de inferência.
Expansão de função: MiniCPM-V2.6 usa recursos de OCR para migrar os recursos de análise de imagem de alta definição de cenas de imagem única para cenas de múltiplas imagens e vídeo, reduzindo o número de tokens visuais e economizando recursos.
Capacidade de raciocínio: Demonstra excelente habilidade na compreensão de múltiplas imagens e tarefas complexas de raciocínio, como o passo a passo para ajuste de assento de bicicleta e a identificação dos sulcos atrás dos memes.
ICL multigráfico: o modelo oferece suporte ao aprendizado contextual de poucas tentativas, pode se adaptar rapidamente a tarefas em campos específicos e melhora a estabilidade da saída.
Arquitetura visual de alta definição: Através de uma arquitetura visual unificada, os recursos de OCR do modelo são continuados, permitindo uma expansão suave de imagens únicas para múltiplas imagens e vídeos.
Taxa de alucinação ultrabaixa: o MiniCPM-V2.6 tem um bom desempenho na avaliação de alucinações, demonstrando sua credibilidade.
O lançamento do modelo MiniCPM-V2.6 é de grande importância para o desenvolvimento da IA final. Ele não apenas melhora as capacidades de processamento multimodal, mas também demonstra a possibilidade de realizar IA de alto desempenho em dispositivos finais. recursos limitados.
Endereço de código aberto MiniCPM-V2.6:
Github:
https://github.com/OpenBMB/MiniCPM-V
Abraçando o rosto:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp, ollama, endereço do tutorial de implantação do vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Endereço de código aberto da série MiniCPM:
https://github.com/OpenBMB/MiniCPM
O surgimento do MiniCPM-V2.6 sem dúvida injetou um impulso no desenvolvimento da tecnologia de IA do lado do cliente. Seu desempenho eficiente e poderoso e seu método de código aberto conveniente fornecerão recursos valiosos para mais desenvolvedores e pesquisadores e promoverão maior inovação e popularização de aplicativos de IA no lado do dispositivo. Esperamos que a série MiniCPM traga mais surpresas no futuro!