Der Herausgeber von Downcodes erfuhr, dass das amerikanische KI-Startup small.ai ein neues Text-to-Speech (TTS)-Modell Lightning auf den Markt gebracht hat. Seine Geschwindigkeit ist erstaunlich: Es dauert nur 100 Millisekunden, um Audio von bis zu 10 Sekunden zu erzeugen! Dies stellt einen großen Sprung in der TTS-Technologie dar, der die Kosten für die Entwicklung und Anwendung von Sprachrobotern erheblich senken, die Zugänglichkeit verbessern und Entwicklern auf der ganzen Welt gute Nachrichten bringen wird. Lightning unterstützt mehrere Akzente in Englisch und Hindi und wird in Zukunft weitere Sprachen unterstützen und bietet einen äußerst wettbewerbsfähigen Preis: nur 0,02 $ pro Minute.
Kürzlich hat small.ai, ein KI-Startup mit Hauptsitz in San Francisco, Kalifornien, sein neues Produkt Lightning auf den Markt gebracht, ein Text-to-Speech (TTS)-Modell, das in 100 Millisekunden bis zu 10 Sekunden Audio erzeugen kann. Die Weiterentwicklung dieser Technologie ermöglicht es Entwicklern auf der ganzen Welt, äußerst realistische Sprachroboteranwendungen mit extrem kurzer Latenz zu erstellen, wodurch die Implementierungskosten gesenkt und die Zugänglichkeit der Anwendungen verbessert werden.
Lightning unterstützt derzeit mehrere Akzente in Englisch und Hindi und das Team plant, schnell weitere Sprachen hinzuzufügen, um der Marktnachfrage gerecht zu werden. Der Preis für dieses Modell beträgt nur 0,02 US-Dollar (ca. 1,6 INR) pro Minute und bietet Voice-Bot-Entwicklern eine äußerst kostengünstige Lösung, wobei die laufenden Kosten der Anwendung auf weniger als 1 INR pro Minute begrenzt werden. Dadurch werden die Baukosten gesenkt Sprachroboter und erweitern gleichzeitig die Marktzugänglichkeit.
Im Gegensatz zum herkömmlichen TTS-Modell, das auf Streaming-Medien und Netzwerk-Sockets basiert, was die Serverlast erhöht und die Skalierbarkeit erschwert, verwendet Lightning ein einfaches REST-API-Design, um Audio in etwa 100 Millisekunden bereitzustellen, wodurch die durch kontinuierliches Streaming verursachten Probleme vermieden werden. Diese schnelle Verarbeitungsleistung und Kosteneffizienz machen es zu einer bedeutenden Alternative in der Sprachroboterbranche.
Die Produktmerkmale von Lightning lassen sich wie folgt zusammenfassen:
1. Geschwindigkeit und Effizienz. Das Lightning-Modell gilt als das weltweit schnellste Text-to-Speech-System und generiert in 100 Millisekunden 10 Sekunden ultrarealistischen Ton und ermöglicht so eine Sprachsynthese in Echtzeit, um den Bedarf an schneller Reaktion zu decken.
2. Kompaktheit und Kompatibilität. Das Modell benötigt weniger als 1 GB Videospeicher, ist klein und kann problemlos auf den meisten Consumer- und Edge-Geräten ausgeführt werden, wodurch die Hardwareanforderungen reduziert werden.
3. Mehrsprachige Unterstützung. Unterstützung mehrerer Sprachen und Akzente, unterstützt derzeit mehrere Akzente in Englisch und Hindi und plant, schnell weitere Sprachen hinzuzufügen, um den Anforderungen globaler Benutzer gerecht zu werden.
4. Hochgradig anpassbar. Der Style-Diffusor verwendet einen speziellen Style-Diffusor, um den Audiostil an die Bedürfnisse des Benutzers anzupassen und die erzeugte Sprache natürlicher und emotionaler zu machen.
5. Einfache Integration. Die REST-API-Integration bietet eine einfache REST-API-Schnittstelle, die es Entwicklern ermöglicht, das Lightning-Modell schnell in bestehende Systeme zu integrieren, sodass keine komplexen WebSocket-Verbindungen erforderlich sind.
6. Freundliche Preise ab 0,04 US-Dollar pro Minute, geeignet für alle Arten von Unternehmen, und für Unternehmen mit großem Nutzungsvolumen werden maßgeschneiderte Preispläne bereitgestellt.
smallst.ai wurde von den IIT Guwahati-Alumni Sudarshan Kamath und Akshat Mandloi gegründet. Kamath sagte, dass die Niedrigpreisstrategie von smalls.ai auf der Fokussierung auf Datenqualität und Modelleffizienz beruht. „Unser Modell ist viel kleiner als Konkurrenten wie ElevenLabs, aber wir erreichen eine qualitativ hochwertige Sprachausgabe durch hochverfeinerte Daten“, erklärte er.
Voice-Bot-Entwickler, die frühzeitig Zugriff auf Lightning erhielten, berichteten von einer Reduzierung der Betriebskosten um das Achtfache bei gleichzeitiger Verbesserung der Audioqualität. Neben Echtzeit-Voice-Bot-Anwendungen können mit Lightning auch Voiceovers für Hörbücher und Social-Media-Inhalte auf Plattformen wie Instagram und YouTube erstellt werden. Auch Nicht-Entwickler können über die Waves Speech-Plattform auf Lightning zugreifen und Funktionen wie das Klonen von Stimmen und die Akzentumwandlung erleben, die sich derzeit in der Betaphase befinden.
In einer exklusiven Interaktion mit dem Analytical India Magazine sagte Kamath: „Als wir mit dem Aufbau begannen, stellten wir fest, dass die vorhandenen Modelle, die für Voice-Bots erforderlich waren, für indische Sprachen nicht ausgereift genug waren. Bestehende Modelle für nicht-englische Sprachen waren einfach nicht gewachsen.“ Produktion erfordern.“
Im Juni dieses Jahres brachte smallst.ai außerdem das AWAAZ-Modell auf den Markt, das das Klonen von Stimmen durch kurze Audioclips zu einem wettbewerbsfähigen Preis unterstützt. Dieses Modell ist für skalierbare Anwendungen in regionalen Sprachmärkten konzipiert und bietet Sicherheit und Compliance auf Unternehmensniveau. Auf die Frage nach seiner Mission sagte Kamath: „Warum kommunizieren eine Milliarde Menschen trotz enormer Fortschritte in der Sprach-KI-Technologie nicht täglich mit einer KI-Stimme? Das ist die Frage, die wir zu lösen versuchen.“
Projekteingang: https://smallest.ai/blog/lightning-fast-text-to-speech
Das Aufkommen des Lightning-Modells setzt zweifellos einen neuen Maßstab für die Sprachsynthesetechnologie. Seine hohe Effizienz, niedrige Kosten und einfache Integration werden die Popularität und Innovation von Sprachroboteranwendungen fördern und mehr Entwicklern und Unternehmen neue Möglichkeiten eröffnen. Der Herausgeber von Downcodes hofft, dass Lightning in Zukunft mehr Sprachen und Funktionen unterstützt und Benutzern auf der ganzen Welt ein komfortableres und besseres Spracherlebnis bietet.