Nexa AI lance OmniAudio-2.6B : un modèle de langage audio rapide pour le déploiement en périphérie

Auteur：Eve Cole Date de mise à jour：2024-12-19 10:00:02

Nexa AI a publié son dernier modèle de langage audio OmniAudio-2.6B, un outil puissant optimisé pour les appareils de pointe. Il intègre la reconnaissance vocale automatique (ASR) et des modèles de langage dans un cadre unifié, améliorant considérablement la vitesse et l'efficacité du traitement et résolvant les problèmes d'inefficacité et de retard causés par les connexions entre les composants des architectures traditionnelles. Ce modèle est particulièrement adapté aux appareils dotés de ressources informatiques limitées, tels que les appareils portables, les systèmes automobiles et les appareils IoT.

Nexa AI a récemment lancé son nouveau modèle de langage audio OmniAudio-2.6B, conçu pour répondre aux besoins de déploiement efficace des appareils de périphérie. Contrairement aux architectures traditionnelles qui séparent la reconnaissance vocale automatique (ASR) et les modèles de langage, OmniAudio-2.6B intègre Gemma-2-2b, Whisper Turbo et des projecteurs personnalisés dans un cadre unifié. Cette conception élimine l'inefficacité et la latence du système traditionnel causées par le système traditionnel. La liaison de divers composants du réseau est particulièrement adaptée aux appareils dotés de ressources informatiques limitées.

Principaux points forts :

Vitesse de traitement : OmniAudio-2.6B excelle en termes de performances. Sur un Mac Mini M4Pro 2024, utilisant le SDK Nexa et utilisant le format FP16GGUF, le modèle a atteint 35,23 jetons par seconde et 66 jetons par seconde au format Q4_K_M GGUF. En comparaison, Qwen2-Audio-7B ne peut gérer que 6,38 jetons par seconde sur un matériel similaire, démontrant un avantage significatif en termes de vitesse. Efficacité des ressources : la conception compacte du modèle réduit la dépendance aux ressources cloud, ce qui le rend idéal pour les appareils portables, les systèmes automobiles et les appareils IoT à puissance et bande passante limitées. Cette fonctionnalité permet un fonctionnement efficace dans des conditions matérielles limitées. Haute précision et flexibilité : Bien qu'OmniAudio-2.6B se concentre sur la vitesse et l'efficacité, il fonctionne également bien en termes de précision et convient à une variété de tâches telles que la transcription, la traduction, le résumé, etc. Qu'il s'agisse de traitement vocal en temps réel ou de tâches linguistiques complexes, OmniAudio-2.6B peut fournir des résultats précis.

Le lancement d'OmniAudio-2.6B marque une autre avancée importante de Nexa AI dans le domaine des modèles de langage audio. Son architecture optimisée améliore non seulement la vitesse et l'efficacité du traitement, mais apporte également plus de possibilités aux appareils informatiques de pointe. Alors que l'Internet des objets et les appareils portables continuent de gagner en popularité, OmniAudio-2.6B devrait jouer un rôle important dans de nombreux scénarios d'application.

Adresse du modèle : https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Adresse du produit : https://nexa.ai/blogs/omniaudio-2.6b

Dans l’ensemble, OmniAudio-2.6B a apporté des changements révolutionnaires au traitement audio sur les appareils de pointe grâce à son architecture efficace et ses excellentes performances, jetant ainsi une base solide pour la vulgarisation généralisée des applications d’IA à l’avenir. L’innovation de Nexa AI mérite d’être attendue avec impatience.