Nexa AI lança OmniAudio-2.6B: um modelo de linguagem de áudio rápido para implantação na borda

Autor：Eve Cole Data da Última Atualização：2024-12-19 10:00:02

Nexa AI lançou seu mais recente modelo de linguagem de áudio OmniAudio-2.6B, uma ferramenta poderosa otimizada para dispositivos de ponta. Ele integra reconhecimento automático de fala (ASR) e modelos de linguagem em uma estrutura unificada, melhorando significativamente a velocidade e a eficiência do processamento e resolvendo os problemas de ineficiência e atraso causados pelas conexões entre componentes nas arquiteturas tradicionais. Este modelo é particularmente adequado para dispositivos com recursos computacionais limitados, como wearables, sistemas automotivos e dispositivos IoT.

A Nexa AI lançou recentemente seu novo modelo de linguagem de áudio OmniAudio-2.6B, projetado para atender às necessidades de implantação eficiente de dispositivos de ponta. Ao contrário das arquiteturas tradicionais que separam o reconhecimento automático de fala (ASR) e os modelos de linguagem, OmniAudio-2.6B integra Gemma-2-2b, Whisper Turbo e projetores personalizados em uma estrutura unificada. Este design elimina a ineficiência e a latência do sistema tradicional causadas pelo sistema. a ligação de vários componentes na rede é particularmente adequada para dispositivos com recursos computacionais limitados.

Principais destaques:

Velocidade de processamento: OmniAudio-2.6B se destaca em desempenho. Em um 2024Mac Mini M4Pro, usando o Nexa SDK e o formato FP16GGUF, o modelo atingiu 35,23 tokens por segundo e 66 tokens por segundo no formato Q4_K_M GGUF. Em comparação, o Qwen2-Audio-7B pode lidar apenas com 6,38 tokens por segundo em hardware semelhante, demonstrando uma vantagem significativa de velocidade. Eficiência de recursos: o design compacto do modelo reduz efetivamente a dependência de recursos da nuvem, tornando-o ideal para wearables, sistemas automotivos e dispositivos IoT com restrição de energia e largura de banda. Este recurso permite uma operação eficiente sob condições limitadas de hardware. Alta precisão e flexibilidade: Embora o OmniAudio-2.6B se concentre na velocidade e na eficiência, ele também tem um bom desempenho em termos de precisão e é adequado para uma variedade de tarefas, como transcrição, tradução, resumo, etc. Quer se trate de processamento de fala em tempo real ou de tarefas linguísticas complexas, o OmniAudio-2.6B pode fornecer resultados precisos.

O lançamento do OmniAudio-2.6B marca outro avanço importante da Nexa AI no campo de modelos de linguagem de áudio. Sua arquitetura otimizada não apenas melhora a velocidade e a eficiência do processamento, mas também traz mais possibilidades para dispositivos de computação de ponta. Com a crescente popularidade da Internet das Coisas e dos dispositivos vestíveis, espera-se que o OmniAudio-2.6B desempenhe um papel importante em vários cenários de aplicação.

Endereço do modelo: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Endereço do produto: https://nexa.ai/blogs/omniaudio-2.6b

Resumindo, OmniAudio-2.6B trouxe mudanças revolucionárias ao processamento de áudio em dispositivos de ponta com sua arquitetura eficiente e excelente desempenho, estabelecendo uma base sólida para a ampla popularização de aplicativos de IA no futuro. Vale a pena esperar pela inovação da Nexa AI.