Nexa AI lanza OmniAudio-2.6B: un modelo de lenguaje de audio rápido para implementación perimetral

Autor：Eve Cole Fecha de actualización：2024-12-19 10:00:02

Nexa AI ha lanzado su último modelo de lenguaje de audio OmniAudio-2.6B, una poderosa herramienta optimizada para dispositivos periféricos. Integra el reconocimiento automático de voz (ASR) y los modelos de lenguaje en un marco unificado, mejorando significativamente la velocidad y la eficiencia del procesamiento y resolviendo los problemas de ineficiencia y retraso causados por las conexiones entre componentes en las arquitecturas tradicionales. Este modelo es particularmente adecuado para dispositivos con recursos informáticos limitados, como dispositivos portátiles, sistemas automotrices y dispositivos IoT.

Nexa AI lanzó recientemente su nuevo modelo de lenguaje de audio OmniAudio-2.6B, diseñado para satisfacer las necesidades de implementación eficiente de dispositivos de vanguardia. A diferencia de las arquitecturas tradicionales que separan el reconocimiento automático de voz (ASR) y los modelos de lenguaje, OmniAudio-2.6B integra Gemma-2-2b, Whisper Turbo y proyectores personalizados en un marco unificado. Este diseño elimina la ineficiencia y latencia del sistema tradicional. La conexión de varios componentes en la red es particularmente adecuada para dispositivos con recursos informáticos limitados.

Principales aspectos destacados:

Velocidad de procesamiento: OmniAudio-2.6B destaca en rendimiento. En un Mac Mini M4Pro 2024, utilizando el SDK de Nexa y el formato FP16GGUF, el modelo logró 35,23 tokens por segundo y 66 tokens por segundo en el formato Q4_K_M GGUF. En comparación, Qwen2-Audio-7B solo puede manejar 6,38 tokens por segundo en hardware similar, lo que demuestra una ventaja de velocidad significativa. Eficiencia de recursos: el diseño compacto del modelo reduce la dependencia de los recursos de la nube, lo que lo hace ideal para dispositivos portátiles, sistemas automotrices y dispositivos IoT con limitaciones de energía y ancho de banda. Esta característica permite un funcionamiento eficiente en condiciones de hardware limitadas. Alta precisión y flexibilidad: aunque OmniAudio-2.6B se centra en la velocidad y la eficiencia, también funciona bien en términos de precisión y es adecuado para una variedad de tareas como transcripción, traducción, resumen, etc. Ya sea que se trate de procesamiento de voz en tiempo real o tareas lingüísticas complejas, OmniAudio-2.6B puede proporcionar resultados precisos.

El lanzamiento de OmniAudio-2.6B marca otro avance importante de Nexa AI en el campo de los modelos de lenguaje de audio. Su arquitectura optimizada no solo mejora la velocidad y la eficiencia del procesamiento, sino que también brinda más posibilidades a los dispositivos informáticos de vanguardia. A medida que Internet de las cosas y los dispositivos portátiles se vuelven más populares, se espera que OmniAudio-2.6B desempeñe un papel importante en múltiples escenarios de aplicaciones.

Dirección del modelo: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Dirección del producto: https://nexa.ai/blogs/omniaudio-2.6b

En definitiva, OmniAudio-2.6B ha aportado cambios revolucionarios al procesamiento de audio en dispositivos de vanguardia con su arquitectura eficiente y excelente rendimiento, sentando una base sólida para la popularización generalizada de las aplicaciones de IA en el futuro. Vale la pena esperar con ansias la innovación de Nexa AI.