OpenBMB lança modelo multimodal MiniCPM-o2.6 Os telefones celulares também podem realizar processamento visual e de fala - artigo de IA.

Autor：Eve Cole Data da Última Atualização：2025-01-28 16:16:02

A inteligência artificial fez grandes progressos no processamento multimodal, mas os modelos de alto desempenho exigem frequentemente enormes recursos computacionais, limitando a sua aplicação em dispositivos de ponta. Em resposta a este desafio, a OpenBMB lançou o MiniCPM-o2.6, um modelo multimodal eficiente, com o objetivo de preencher a lacuna entre a tecnologia avançada de IA e os dispositivos com recursos limitados. MiniCPM-o2.6 tem 8 bilhões de parâmetros, integra módulos de visão, fala e processamento de linguagem e é otimizado para funcionar perfeitamente em dispositivos como smartphones e tablets, fornecendo aos desenvolvedores e empresas uma maneira mais conveniente de implantação de soluções de IA.

A tecnologia de inteligência artificial fez progressos significativos nos últimos anos, mas permanecem desafios entre eficiência computacional e versatilidade. Muitos modelos multimodais avançados, como o GPT-4, geralmente exigem grandes quantidades de recursos computacionais, o que limita seu uso em servidores de ponta, dificultando a utilização eficaz de tecnologias inteligentes em dispositivos de ponta, como smartphones e tablets. Além disso, ainda existem barreiras técnicas para tarefas de processamento, como análise de vídeo ou conversão de fala em texto em tempo real, destacando a necessidade de modelos de IA eficientes e flexíveis que possam operar perfeitamente sob condições limitadas de hardware.

Para resolver esses problemas, a OpenBMB lançou recentemente o MiniCPM-o2.6, um modelo com uma arquitetura de 8 bilhões de parâmetros projetado para suportar processamento de visão, fala e linguagem, e pode ser executado com eficiência em dispositivos de ponta, como smartphones, tablets e iPads. MiniCPM-o2.6 adota um design modular e integra vários componentes poderosos:

- SigLip-400M para compreensão visual.

- Whisper-300M implementa processamento de fala multilíngue.

- ChatTTS-200M oferece recursos de conversação.

- Qwen2.5-7B para compreensão avançada de texto.

O modelo obteve pontuação média de 70,2 no benchmark OpenCompass, superando o GPT-4V em tarefas visuais. Seu suporte multilíngue e operação eficiente em dispositivos de consumo o tornam prático em diversos cenários de aplicação.

MiniCPM-o2.6 alcança desempenho poderoso através dos seguintes detalhes técnicos:

- Otimização de parâmetros: Apesar de seu grande tamanho, é otimizado através de frameworks como llama.cpp e vLLM para manter a precisão e reduzir a necessidade de recursos.

- Processamento multimodal: suporta processamento de imagens com resolução de até 1344×1344 e possui função OCR para excelente desempenho.

- Suporte para streaming de mídia: Suporta processamento contínuo de vídeo e áudio, tornando-o aplicável ao monitoramento em tempo real e cenários de transmissão ao vivo.

- Recursos de voz: Fornece compreensão de fala bilíngue, clonagem de voz e controle de emoções para promover interação natural em tempo real.

- Fácil de integrar: Compatível com plataformas como Gradio, simplificando o processo de implantação e adequado para aplicações comerciais com menos de um milhão de usuários ativos diariamente.

Esses recursos tornam o MiniCPM-o2.6 uma oportunidade para desenvolvedores e empresas implantarem soluções complexas de IA sem depender de uma enorme infraestrutura.

MiniCPM-o2.6 tem bom desempenho em vários campos. Ele supera o GPT-4V em tarefas visuais, realiza diálogo em chinês e inglês em tempo real, controle de emoções e clonagem de voz em termos de processamento de fala e possui excelentes recursos de interação em linguagem natural. Ao mesmo tempo, o processamento contínuo de vídeo e áudio o torna adequado para tradução em tempo real e ferramentas de aprendizagem interativas, garantindo alta precisão em tarefas de OCR, como digitalização de documentos.

O lançamento do MiniCPM-o2.6 representa um desenvolvimento importante na tecnologia de inteligência artificial, resolvendo com sucesso o desafio de longa data entre modelos que consomem muitos recursos e compatibilidade de dispositivos de ponta. Ao combinar recursos multimodais avançados com operações eficientes de dispositivos de ponta, o OpenBMB cria um modelo poderoso e acessível. À medida que a inteligência artificial se torna cada vez mais importante na vida diária, o MiniCPM-o2.6 demonstra como a inovação pode reduzir a lacuna entre desempenho e praticidade, possibilitando que desenvolvedores e usuários em vários setores utilizem efetivamente tecnologias de ponta.

Modelo: https://huggingface.co/openbmb/MiniCPM-o-2_6

Destaque:

MiniCPM-o2.6 é um modelo multimodal com 8 bilhões de parâmetros que pode ser executado com eficiência em dispositivos de ponta e oferece suporte ao processamento de visão, fala e linguagem.

O modelo teve um bom desempenho no benchmark OpenCompass, superou o GPT-4V em tarefas visuais e possui capacidade de processamento multilíngue.

MiniCPM-o2.6 possui funções como processamento em tempo real, clonagem de voz e controle de emoções, e é adequado para aplicações inovadoras nas indústrias educacional, médica e outras.

Em suma, o surgimento do MiniCPM-o2.6 marca um grande avanço na aplicação da tecnologia de IA. Ele combina com sucesso capacidades multimodais poderosas com os requisitos de baixo consumo de recursos dos dispositivos de ponta, abrindo caminho para a aplicação generalizada de IA. tecnologia Possui valor de aplicação e perspectivas de desenvolvimento extremamente altos.