Rapports de l'éditeur de downcodes : la startup américaine Useful Sensors a publié un modèle de reconnaissance vocale open source appelé Moonshine. Ce modèle présente des avantages significatifs en termes d'efficacité des ressources informatiques et de vitesse de traitement. Par rapport au modèle Whisper d'OpenAI, sa vitesse est cinq fois supérieure. Moonshine est conçu pour mettre en œuvre des applications en temps réel sur du matériel aux ressources limitées, et son architecture flexible lui permet de s'adapter à divers scénarios d'application. Il s’agit d’une avancée majeure pour les applications qui nécessitent la reconnaissance vocale pour fonctionner sur des appareils à faible consommation.
Contrairement à Whisper, qui traite l'audio en segments fixes de 30 secondes, Moonshine ajuste le temps de traitement en fonction de la durée réelle de l'audio. Cela le rend performant lors du traitement de clips audio plus courts, réduisant ainsi la surcharge de traitement due au remplissage nul.
Moonshine est disponible en deux versions : la petite version Tiny possède 27,1 millions de paramètres et la grande version Base possède 61,5 millions de paramètres. En comparaison, les modèles similaires d'OpenAI ont des paramètres plus grands, Whisper tiny.en vaut 37,8 millions et base.en vaut 72,6 millions.
Les résultats des tests montrent que le modèle Tiny de Moonshine est équivalent à Whisper en termes de précision tout en consommant moins de ressources informatiques. En termes de niveaux audio et de bruit de fond, les deux versions de Moonshine étaient inférieures à Whisper en termes de taux d'erreur de mots (WER), ce qui montre de bonnes performances.
L'équipe de recherche a noté que Moonshine pouvait encore s'améliorer en ce qui concerne le traitement de clips audio très courts (moins d'une seconde). Ces courts audios représentent une proportion relativement faible des données d'entraînement, et l'augmentation de l'entraînement de ces clips audio peut améliorer les performances du modèle.
De plus, les capacités hors ligne de Moonshine ouvrent de nouveaux scénarios d’application, et des applications auparavant impossibles en raison de limitations matérielles sont désormais réalisables. Contrairement à Whisper, qui nécessite une consommation d'énergie plus élevée, Moonshine convient au fonctionnement sur les smartphones et les petits appareils tels que le Raspberry Pi. Useful Sensors utilise Moonshine pour développer son traducteur anglais-espagnol Torre.
Le code de Moonshine a été publié sur GitHub et les utilisateurs doivent être conscients que les systèmes de transcription d'IA comme Whisper peuvent contenir des erreurs. Certaines études ont montré que Whisper a 1,4 % de chances de contenir de fausses informations lors de la génération de contenu, en particulier pour les personnes ayant des troubles du langage, où le taux d'erreur est plus élevé.
Entrée du projet : https://github.com/usefulsensors/moonshine
L'émergence du modèle de reconnaissance vocale open source Moonshine offre de nouvelles possibilités pour les applications de reconnaissance vocale sur les appareils à faibles ressources. Ses performances efficaces et son architecture flexible lui confèrent de larges perspectives d'application dans de nombreux domaines. Mais les utilisateurs doivent également être conscients des erreurs potentielles et les utiliser avec prudence. L'éditeur de Downcodes recommande à chacun de prêter attention à ses mises à jour et améliorations ultérieures.