Modèle de synthèse vocale ultra-rapide Lightning : latence ultra-faible, 100 millisecondes pour générer 10 secondes d'audio

Auteur：Eve Cole Date de mise à jour：2024-11-29 14:41:01

L'éditeur de Downcodes a appris que la startup américaine d'IA smallest.ai a lancé un nouveau modèle de synthèse vocale (TTS) Lightning. Sa vitesse est incroyable : il ne faut que 100 millisecondes pour générer un son pouvant atteindre 10 secondes ! Il s’agit d’une avancée majeure dans la technologie TTS, qui réduira considérablement le coût de développement et d’application des robots vocaux, améliorera l’accessibilité et apportera de bonnes nouvelles aux développeurs du monde entier. Lightning prend en charge plusieurs accents en anglais et en hindi, prendra en charge davantage de langues à l'avenir et propose des prix extrêmement compétitifs : seulement 0,02 $ par minute.

Récemment, smallest.ai, une startup d'IA dont le siège est à San Francisco, en Californie, a lancé son nouveau produit Lightning, un modèle de synthèse vocale (TTS) capable de générer jusqu'à 10 secondes d'audio en 100 millisecondes. Les progrès de cette technologie permettent aux développeurs du monde entier de créer des applications de robot vocal très réalistes avec une latence extrêmement courte, réduisant ainsi les coûts de mise en œuvre et améliorant l'accessibilité des applications.

Lightning prend actuellement en charge plusieurs accents en anglais et en hindi, et l'équipe prévoit d'ajouter rapidement davantage de langues pour répondre à la demande du marché. Ce modèle coûte seulement 0,02 USD (environ 1,6 INR) par minute, offrant aux développeurs de robots vocaux une solution très rentable, le coût de fonctionnement de l'application étant contrôlé à moins de 1 INR par minute. robots vocaux tout en élargissant l’accessibilité du marché.

Contrairement au modèle TTS traditionnel qui repose sur le streaming multimédia et les sockets réseau, ce qui augmente la charge du serveur et complique l'évolutivité, Lightning utilise une conception simple d'API REST pour fournir de l'audio en 100 millisecondes environ, évitant ainsi les problèmes causés par la pression continue du serveur. Cette puissance de traitement rapide et cette rentabilité en font une alternative importante dans l’industrie des robots vocaux.

Les fonctionnalités du produit Lightning peuvent être résumées comme suit :

1. Rapidité et efficacité. Connu comme la synthèse vocale la plus rapide au monde, le modèle Lightning génère 10 secondes d'audio ultra-réaliste en 100 millisecondes, réalisant une synthèse vocale en temps réel pour répondre au besoin de réponse rapide.

2. Compacité et compatibilité. Nécessitant moins de 1 Go de mémoire vidéo, le modèle est petit et peut facilement fonctionner sur la plupart des appareils grand public et périphériques, réduisant ainsi les exigences matérielles.

3. Prise en charge multilingue. Prise en charge multilingue et accentuée, prend actuellement en charge plusieurs accents en anglais et en hindi et prévoit d'ajouter rapidement davantage de langues pour répondre aux besoins des utilisateurs du monde entier.

4. Hautement personnalisable. Le diffuseur de style utilise un diffuseur de style spécial pour ajuster le style audio en fonction des besoins de l'utilisateur, rendant ainsi la parole générée plus naturelle et émotionnelle.

5. Intégration facile. L'intégration de l'API REST fournit une interface API REST simple, permettant aux développeurs d'intégrer rapidement le modèle Lightning dans les systèmes existants, éliminant ainsi le besoin de connexions WebSocket complexes.

6. Des tarifs avantageux, à partir de 0,04 USD par minute, adaptés à tous les types d'entreprises, et des plans tarifaires personnalisés sont proposés aux entreprises ayant de gros volumes d'utilisation.

smallest.ai a été fondé par Sudarshan Kamath et Akshat Mandloi, anciens élèves de l'IIT Guwahati. Kamath a déclaré que la stratégie à bas prix de smallest.ai est motivée par l’accent mis sur la qualité des données et l’efficacité des modèles. "Notre modèle est beaucoup plus petit que celui de concurrents tels qu'ElevenLabs, mais nous obtenons une sortie vocale de haute qualité grâce à des données hautement raffinées", a-t-il expliqué.

Les développeurs de robots vocaux qui ont obtenu un accès anticipé à Lightning ont signalé une réduction de 8 fois des coûts d'exploitation tout en améliorant la qualité audio. En plus des applications de robot vocal en temps réel, Lightning peut également être utilisé pour créer des voix off pour des livres audio et du contenu de réseaux sociaux sur des plateformes telles qu'Instagram et YouTube. Les non-développeurs peuvent également accéder à Lightning via la plateforme Waves Speech et bénéficier de fonctionnalités telles que le clonage vocal et la conversion d'accent, qui sont actuellement en version bêta.

Dans une interaction exclusive avec Analytical India Magazine, Kamath a déclaré : « Lorsque nous avons commencé à construire, nous avons réalisé que les modèles existants requis pour les robots vocaux n'étaient pas assez matures pour les langues indiennes. Les modèles existants pour les langues non anglaises n'étaient tout simplement pas à la hauteur. production Exiger."

En juin de cette année, smallest.ai a également lancé le modèle AWAAZ, qui prend en charge le clonage vocal via de courts clips audio à un prix compétitif. Ce modèle est conçu pour répondre aux applications évolutives sur les marchés linguistiques régionaux et fournir une sécurité et une conformité de niveau entreprise. Interrogé sur sa mission, Kamath a déclaré : « Pourquoi un milliard de personnes ne communiquent-elles pas quotidiennement avec une voix IA, malgré les énormes progrès de la technologie de l'IA vocale ? C'est la question que nous nous efforçons de résoudre.

Entrée du projet : https://smallest.ai/blog/lightning-fast-text-to-speech

L’émergence du modèle Lightning constitue sans aucun doute une nouvelle référence pour la technologie de synthèse vocale. Sa haute efficacité, son faible coût et sa facilité d'intégration favoriseront la popularité et l'innovation des applications de robot vocal et offriront de nouvelles opportunités à davantage de développeurs et d'entreprises. L'éditeur de Downcodes espère que Lightning prendra en charge davantage de langues et de fonctions à l'avenir, offrant ainsi une expérience vocale plus pratique et meilleure aux utilisateurs du monde entier.