Operai anunció recientemente una actualización importante de su API en tiempo real, lanzando cinco nuevas opciones de voz y reduciendo los costos de almacenamiento en caché, con el objetivo de proporcionar a los desarrolladores soluciones de aplicaciones de voz a voz más asequibles.
Hoy, Openai anunció una actualización de la API en tiempo real, que todavía está en beta. Lo más destacado de esta actualización es el lanzamiento de cinco nuevas opciones de voz, diseñadas para aplicaciones de voz a voz, al tiempo que reduce las tarifas de caché relacionadas, lo que hace que los desarrolladores sean más asequibles al usarlas.
De las cinco nuevas voces publicadas, Operai mostró tres de estos nuevos sonidos en un artículo sobre X, Ash, Versículo y la balada que suena en el Reino Unido. Estos sonidos no solo son más vívidos y ajustables, sino que también proporcionan una experiencia de comunicación más natural. Operai mencionó en su documentación de API que esta función nativa de voz a voz elimina el procesamiento de formato de texto intermedio, que permite una latencia baja y una salida más delicada.
Sin embargo, Openai también recuerda a los usuarios que, dado que la API en tiempo real todavía está en la fase de prueba, no puede proporcionar temporalmente la autenticación del cliente. Además, el procesamiento de audio en tiempo real puede verse afectado por las condiciones de la red, lo que también plantea desafíos en la transmisión de audio a gran escala. Openai señala que garantizar la transmisión de audio confiable es una tarea difícil cuando las condiciones de la red son inestables.
El historial de desarrollo de OpenAI en tecnología de voz también es controvertida. En marzo, lanzaron The Voice Engine, una plataforma de clonación de voz, que intentó competir con Elevenlabs, pero solo estaba abierta a algunos investigadores. Con la demostración de los modos de GPT-4O y Voice, el uso de voz de OpenAi pausó llamado "cielo" en mayo, ya que la actriz de Hollywood Scarlett Johnson expresó su insatisfacción con él, creyendo que era demasiado similar a su voz.
En septiembre, Operai lanzó el modo de voz avanzado ChatGPT para sus suscriptores pagados, que pueden ser utilizados por usuarios como ChatGPT Plus, Enterprise, Equips y EDU. A través de esta tecnología de voz a voz, las empresas pueden generar respuestas en tiempo real más rápidamente, mejorando en gran medida la eficiencia del servicio al cliente.
Reducir los costos en más del 50%Con respecto al precio de las API en tiempo real, OpenAi tenía un precio de $ 0.06 en un lanzamiento anterior a $ 0.06 en minutos de entrada de audio y $ 0.24 en salida de audio, que es relativamente alta para los desarrolladores. Sin embargo, después de esta actualización, el costo de usar la entrada de texto en caché se reducirá en un 50%, mientras que el costo de la entrada de audio en caché será de hasta el 80%.
Operai anunció la nueva característica del "almacenamiento en caché rápido" en el día del desarrollador, que puede guardar las indicaciones de contexto de las solicitudes frecuentes en la memoria del modelo, reduciendo así el número de tokens requeridos para generar una respuesta. Al reducir el precio de entrada, Operai espera atraer a más desarrolladores para usar su API.
Además, otras compañías como Anthrope han lanzado características de almacenamiento en caché similares para aumentar el atractivo de su tecnología de voz.
Puntos clave:
Se agregan cinco nuevas voces naturales para mejorar la experiencia de aplicación de voz
La API en tiempo real reduce los costos de entrada a través del caché, lo que hace que los desarrolladores sean más rentables
El procesamiento de audio en tiempo real se ve afectado por las condiciones de la red, y la confiabilidad debe prestarse atención
Esta actualización de OpenAI no solo mejora la experiencia de la aplicación de la tecnología de voz, sino que también atrae a más desarrolladores al reducir los costos, promoviendo aún más la popularización y el desarrollo de la tecnología de voz.