Relatórios do editor de downcodes: MiniCPM-V2.6, este modelo multimodal end-side de parâmetro 8B do OpenBMB, alcançou recentemente resultados impressionantes no GitHub e Hugging Face, classificado entre os 3 primeiros, e o número de estrelas do GitHub ultrapassou 10.000, e o número de downloads ultrapassou um milhão! Ele supera de forma abrangente o GPT-4V em termos de compreensão de imagem única, multiimagem e vídeo e, pela primeira vez, integra funções de ponta, como compreensão de vídeo em tempo real e compreensão conjunta de múltiplas imagens. Seu desempenho eficiente e método de implantação conveniente tornam-no uma medida importante do limite das capacidades do modelo final, que atraiu atenção generalizada no círculo tecnológico global.
Desde o seu lançamento, a última versão 2.6 da série MiniCPM-V subiu rapidamente para o Top 3 nas listas de tendências do GitHub e HuggingFace, as principais comunidades de código aberto do mundo, e seu número de estrelas do GitHub ultrapassou 10.000. Desde a sua estreia em 1º de fevereiro, a série MiniCPM foi baixada mais de um milhão de vezes, tornando-se uma importante medida do limite das capacidades do modelo do lado do cliente.
O MiniCPM-V2.6 alcança melhorias abrangentes de desempenho em imagem única, multiimagem e compreensão de vídeo com seus parâmetros de 8B, superando o GPT-4V. Este modelo multimodal final integra funções de ponta, como compreensão de vídeo em tempo real, compreensão conjunta de múltiplas imagens e ICL de múltiplas imagens pela primeira vez. Ele ocupa apenas 6 GB de memória no back-end quantizado e a velocidade de inferência final chega a 18 tokens/s, o que é 33% mais rápido que o modelo da geração anterior. Ele suporta llama.cpp, ollama, vllm. inferência e oferece suporte a vários idiomas.
Este avanço tecnológico despertou uma resposta entusiástica no círculo tecnológico global, e muitos desenvolvedores e membros da comunidade demonstraram grande interesse no lançamento do MiniCPM-V2.6.
Atualmente, os endereços de código aberto GitHub e Hugging Face do MiniCPM-V2.6 foram anunciados ao público e links para tutoriais de implantação llama.cpp, ollama e vllm foram fornecidos.
Endereço de código aberto MiniCPM-V2.6GitHub:
https://github.com/OpenBMB/MiniCPM-V
Endereço de código aberto MiniCPM-V2.6Hugging Face:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp, ollama, endereço do tutorial de implantação do vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
O código aberto do MiniCPM-V2.6 fornece aos desenvolvedores ferramentas poderosas e tutoriais de implantação convenientes. Acredita-se que promoverá o desenvolvimento de tecnologia de modelo multimodal final no futuro e trará possibilidades inovadoras para mais cenários de aplicação. O editor do Downcodes continuará atento ao seu progresso subsequente, portanto, fique atento!