Texte ultra-rapide à la parole de la parole: latence ultra-low, 100 millisecondes de 10 secondes d'articles audio - AI

Auteur：Eve Cole Date de mise à jour：2025-02-13 02:16:02

Smallst.ai, une startup américaine de l'IA, a publié son dernier produit, Lightning, un modèle de texte-parole (TTS) avec une vitesse incroyable. Lightning génère jusqu'à 10 secondes d'audio en 100 millisecondes, prend en charge plusieurs accents en anglais et en hindi et prévoit de soutenir plus de langues. Son faible coût (seulement 0,02 $ par minute) et sa simple conception d'API REST le rendent idéal pour les développeurs de robots vocaux, réduisant considérablement les coûts de développement et de fonctionnement, et améliorer l'efficacité de la synthèse vocale et l'accès aux applications. Cet article analysera les différentes caractéristiques fonctionnelles, le positionnement du marché et la plus petite vision de l'entreprise en détail.

Récemment, Smallst.ai, une startup d'IA basée à San Francisco, en Californie, a lancé son nouveau modèle Lightning, un modèle de texte à dispection (TTS) qui peut générer jusqu'à 10 secondes d'audio en 100 millisecondes. L'avancement de cette technologie a permis aux développeurs du monde entier de créer des applications de robot vocal hautement simulées, avec des temps de retard extrêmement courts, de la réduction des coûts de mise en œuvre et de l'amélioration de l'accessibilité des applications.

Lightning prend actuellement en charge plusieurs accents en anglais et en hindi, et l'équipe prévoit également d'ajouter rapidement plus de langues pour répondre à la demande du marché. Prix à seulement 0,02 USD par minute (environ 1,6 INR) Ce modèle fournit une solution rentable pour les développeurs de robots vocaux, les coûts de fonctionnement de l'application contrôlés en dessous de 1 par minute, réduisent considérablement le coût de la construction de robots vocaux et élargissent l'accessibilité du marché.

Contrairement au modèle TTS traditionnel qui s'appuie sur le streaming et les prises de réseau pour augmenter le fardeau du serveur et l'évolutivité complexe, Lightning utilise une conception d'API de repos simple pour permettre à l'audio d'être livré dans environ 100 millisecondes, en évitant le streaming continu. Cette puissance de traitement rapide et cette rentabilité en font une alternative importante dans l'industrie de la robotique vocale.

Les caractéristiques du produit de Lightning peuvent être résumées comme suit

1. Vitesse et efficacité. Connu sous le nom de texte vocale le plus rapide du monde, le modèle Lightning génère 10 secondes d'audio surréaliste en 100 millisecondes, la synthèse vocale en temps réel, répondant aux besoins de la réponse rapide.

2. Petit et compatibilité. Avec une exigence de mémoire vidéo de moins de 1 Go, le modèle est de petite taille et peut facilement fonctionner sur la plupart des consommateurs et des appareils de bord, réduisant les exigences matérielles.

3. Support multilingue. Le support multilingue et accent, prend actuellement en charge plusieurs accents en anglais et en hindi, et prévoit d'ajouter rapidement plus de langues pour répondre aux besoins des utilisateurs du monde entier.

4. Hautement personnalisable. Le diffuseur de style, en utilisant un diffuseur de style spécial, ajuste le style audio en fonction des besoins des utilisateurs, ce qui rend la voix générée plus naturelle et émotionnelle.

5. Intégration simple. L'intégration de l'API REST fournit une interface API REST simple, où les développeurs peuvent rapidement intégrer des modèles Lightning dans les systèmes existants, éliminant les connexions WebSocket complexes.

6. Le prix abordable commence à 0,04 $ US par minute, ce qui convient à tous les types d'entreprises.

Small lest.ai a été fondée par les anciens de l'Indian Institute of Technology Guwahati, Sudarshan Kamath et Akshat Mandloi. Kamath a déclaré que la stratégie à faible prix de la plus petite est due à leur concentration sur la qualité des données et l'efficacité du modèle. «Notre modèle est beaucoup plus petit que les concurrents comme ElevenLabs, mais nous obtenons une production vocale de haute qualité avec des données très raffinées», explique-t-il.

Les développeurs de robots vocaux qui avaient un accès précoce à Lightning ont rapporté que leurs coûts d'exploitation avaient été réduits de 8 fois, tandis que la qualité audio a été améliorée. En plus des applications vocales en temps réel, Lightning peut également être utilisé pour créer des voix off pour les livres audio et le contenu des médias sociaux, tels que des plateformes comme Instagram et YouTube. Les non-développeurs peuvent également accéder à la foudre via la plate-forme de parole des vagues pour découvrir des fonctionnalités telles que le clonage sonore et la conversion d'accent, qui sont actuellement en version bêta.

Kamath a déclaré dans une interaction exclusive avec le Journal of Analytics India: «Lorsque nous avons commencé à la construire, nous avons réalisé que les modèles requis pour les robots vocaux existants ne sont pas suffisamment matures pour les langues indiennes. Production. "

En juin de cette année, Smallst.ai a également lancé le modèle Awaaz, qui prend en charge le clonage du son à travers de courts clips audio, et est au prix d'un prix compétitif. Le modèle est conçu pour répondre aux applications évolutives sur le marché régional des langues et pour assurer la sécurité et la conformité au niveau de l'entreprise. Interrogé sur sa mission, Kamath a déclaré: "Pourquoi un milliard de personnes ne communiquent-elles pas avec la voix de l'IA chaque jour, malgré les énormes avancées de la technologie de l'IA de la voix? C'est un problème que nous travaillons dur pour résoudre."

Entrée du projet: https://smallest.ai/blog/lightning-fast-text-to-disech

Points clés:

Le modèle de texte vocale de foudre génère de l'audio en 100 millisecondes, prend en charge plusieurs accents en anglais et en hindi et élargira plus de langues à l'avenir.

Avec un faible coût de seulement 0,02 $ par minute, il réduit considérablement les coûts d'exploitation des développeurs de robots vocaux.

La foudre convient non seulement aux robots vocaux, mais aussi aux livres audio et au doublage des médias sociaux, ce qui facilite l'utilisation des développeurs et des non-développeurs.

En bref, le modèle Lightning de la plus petite devrait révolutionner le domaine de la synthèse de la parole avec sa vitesse, son efficacité, son faible coût et sa facilité d'utilisation, offrant aux développeurs et aux utilisateurs mondiaux des services d'IA de voix plus pratiques et économiques. Sa vision de résoudre l'inclusivité de la technologie de l'IA vocale mérite également une attention.