OpenAI kündigte kürzlich ein wichtiges Update für die Echtzeit-API an, startete fünf neue Sprachoptionen und senkte die Caching-Kosten, um Entwicklern erschwinglichere Sprach-zu-Voice-Anwendungslösungen zur Verfügung zu stellen.
Heute kündigte OpenAI ein Update der Echtzeit-API an, die sich noch in der Beta befindet. Der Höhepunkt dieses Updates ist der Start von fünf neuen Sprachoptionen, die für Sprach-zu-Voice-Anwendungen entwickelt wurden und gleichzeitig die damit verbundenen Cache-Gebühren verringern und die Entwickler bei der Verwendung erschwinglicher machen.
Von den fünf veröffentlichten neuen Stimmen zeigte Openai drei dieser neuen Sounds in einem Artikel über X, Ash, Vers und die britische Ballade. Diese klingen nicht nur lebendiger und einstellbarer, sondern bieten auch eine natürlichere Kommunikationserfahrung. OpenAI erwähnt in seiner API-Dokumentation, dass diese native Voice-to-Voice-Feature die Verarbeitung der intermediierten Textformatierung beseitigt und eine geringe Latenz und eine empfindlichere Ausgabe ermöglicht.
OpenAI erinnert jedoch auch die Benutzer daran, dass die Echtzeit-API, da sie sich noch in der Testphase befindet, vorübergehend keine Client-Authentifizierung bereitstellen kann. Darüber hinaus kann die Echtzeit-Audioverarbeitung von Netzwerkbedingungen beeinflusst werden, was auch Herausforderungen bei der groß angelegten Audioübertragung darstellt. OpenAI weist darauf hin, dass die Gewährleistung einer zuverlässigen Audioübertragung in der Tat eine schwierige Aufgabe ist, wenn die Netzwerkbedingungen instabil sind.
OpenAIs Entwicklungsgeschichte in der Sprachtechnologie ist ebenfalls umstritten. Im März starteten sie die Voice Engine, eine Sprachklon -Plattform, die versuchte, mit elf Labs zu konkurrieren, aber nur einigen Forschern offen war. Mit der Demonstration von GPT-4O- und Sprachmodi pausierte Openai im Mai eine Voice-Verwendung "Sky" genannt, als die Hollywood-Schauspielerin Scarlett Johnson Unzufriedenheit mit ihm zum Ausdruck brachte und glaubte, dass es ihrer Stimme zu ähnlich war.
Im September startete OpenAI den Chatgpt Advanced Voice -Modus für seine kostenpflichtigen Abonnenten, die von Benutzern wie Chatgpt Plus, Enterprise, Teams und EDU verwendet werden können. Durch diese Voice-to-Voice-Technologie können Unternehmen schneller Echtzeit-Antworten generieren und die Effizienz des Kundendienstes erheblich verbessern.
Die Kosten um mehr als 50% senkenIn Bezug auf die Preisgestaltung von Echtzeit-APIs lag OpenAI in einer früheren Veröffentlichung bei 0,06 US-Dollar bei 0,06 US-Dollar in Minuten Audioeingabe und 0,24 USD an Audioausgabe, was für Entwickler relativ hoch ist. Nach diesem Update werden die Kosten für die Verwendung zwischengespeicherter Texteingaben jedoch um 50%gesenkt, während die Kosten für zwischengespeicherte Audioeingabe bis zu 80%betragen.
OpenAI kündigte die neue Funktion von "prompt Caching" am Entwicklertag an, mit dem Kontextaufforderungen häufiger Anforderungen im Speicher des Modells speichern können, wodurch die Anzahl der für die Generierung einer Antwort erforderlichen Token verringert wird. Durch die Senkung des Inputpreises hofft Openai, mehr Entwickler für die Nutzung seiner API anzulocken.
Darüber hinaus haben andere Unternehmen wie Anthropic ähnliche Caching -Funktionen auf den Markt gebracht, um die Attraktivität ihrer Sprachtechnologie zu erhöhen.
Schlüsselpunkte:
Fünf neue natürliche Stimmen werden hinzugefügt, um die Erfahrung der Sprachanwendung zu verbessern
Echtzeit-API reduziert die Inputkosten durch Cache und macht Entwickler kostengünstiger
Die Echtzeit-Audioverarbeitung wird von den Netzwerkbedingungen beeinflusst, und die Zuverlässigkeit muss beachtet werden
Dieses Update von OpenAI verbessert nicht nur die Anwendungserfahrung der Sprachtechnologie, sondern zieht auch mehr Entwickler an, indem sie die Kosten senkt und die Popularisierung und Entwicklung der Sprachtechnologie weiter fördert.