OpenAI a récemment annoncé une mise à jour importante de son API en temps réel, lançant cinq nouvelles options vocales et réduisant les coûts de mise en cache, visant à fournir aux développeurs des solutions d'application vocale plus abordables.
Aujourd'hui, OpenAI a annoncé une mise à jour de l'API en temps réel, qui est toujours en version bêta. Le point culminant de cette mise à jour est le lancement de cinq nouvelles options vocales, conçues pour les applications vocales à la voix, tout en réduisant les frais de cache connexes, ce qui rend les développeurs plus abordables lors de leur utilisation.
Sur les cinq nouvelles voix publiées, Openai a montré trois de ces nouveaux sons dans un article sur X, Ash, Verse et la ballade au son au Royaume-Uni. Non seulement ces sons sont plus vifs et réglables, mais ils offrent également une expérience de communication plus naturelle. OpenAI a mentionné dans sa documentation de l'API que cette fonctionnalité native vocale à la voix élimine le traitement de la mise en forme de texte intermédiaire, permettant une faible latence et une sortie plus délicate.
Cependant, OpenAI rappelle également aux utilisateurs que, comme l'API en temps réel est toujours en phase de test, il est temporairement incapable de fournir une authentification client. De plus, le traitement audio en temps réel peut être affecté par les conditions du réseau, qui pose également des défis dans la transmission audio à grande échelle. OpenAI souligne que garantir une transmission audio fiable est en effet une tâche difficile lorsque les conditions de réseau sont instables.
L'histoire du développement d'OpenAI dans la technologie vocale est également controversée. En mars, ils ont lancé le moteur vocal, une plate-forme de clonage vocale, qui a tenté de rivaliser avec onzelabs, mais n'était ouvert qu'à quelques chercheurs. Avec la démonstration de GPT-4O et des modes vocaux, Openai a interrompu l'utilisation de la voix appelée "Sky" en mai, alors que l'actrice hollywoodienne Scarlett Johnson en a exprimé son insatisfaction, croyant que c'était trop similaire à sa voix.
En septembre, OpenAI a lancé le mode vocal avancé ChatGPT pour ses abonnés payants, qui peuvent être utilisés par des utilisateurs tels que ChatGpt Plus, Enterprise, Teams et Edu. Grâce à cette technologie de voix à voix, les entreprises peuvent générer des réponses en temps réel plus rapidement, améliorant considérablement l'efficacité du service client.
Réduire les coûts de plus de 50%En ce qui concerne la tarification des API en temps réel, OpenAI était au prix de 0,06 $ dans une version précédente à 0,06 $ en minutes d'apport audio et de 0,24 $ en sortie audio, ce qui est relativement élevé pour les développeurs. Cependant, après cette mise à jour, le coût de l'utilisation de l'entrée de texte mis en cache sera réduit de 50%, tandis que le coût de l'entrée audio mis en cache sera jusqu'à 80%.
OpenAI a annoncé la nouvelle fonctionnalité de la "mise en cache invite" dans la journée du développeur, qui peut enregistrer des invites de contexte de demandes fréquentes dans la mémoire du modèle, réduisant ainsi le nombre de jetons nécessaires pour générer une réponse. En abaissant le prix des intrants, OpenAI espère attirer plus de développeurs pour utiliser son API.
De plus, d'autres sociétés telles que Anthropic ont lancé des fonctionnalités de mise en cache similaires pour augmenter l'attrait de leur technologie vocale.
Points clés:
Cinq nouvelles voix naturelles sont ajoutées pour améliorer l'expérience de l'application vocale
L'API en temps réel réduit les coûts des entrées dans le cache, ce qui rend les développeurs plus rentables
Le traitement audio en temps réel est affecté par les conditions du réseau et la fiabilité doit être accordée
Cette mise à jour d'OpenAI améliore non seulement l'expérience d'application de la technologie vocale, mais attire également plus de développeurs en réduisant les coûts, en favorisant davantage la popularisation et le développement de la technologie vocale.