A OpenAI anunciou recentemente uma atualização importante para sua API em tempo real, lançando cinco novas opções de voz e reduzindo os custos de cache, com o objetivo de fornecer aos desenvolvedores soluções de aplicativos de voz a voz mais acessíveis.
Hoje, o Openai anunciou uma atualização para a API em tempo real, que ainda está na versão beta. O destaque desta atualização é o lançamento de cinco novas opções de voz, projetadas para aplicativos de voz a voz, além de reduzir as taxas de cache relacionadas, tornando os desenvolvedores mais acessíveis ao usá-los.
Das cinco novas vozes lançadas, o Openai mostrou três desses novos sons em um artigo sobre X, Ash, verso e a balada que soa no Reino Unido. Esses sons não apenas são mais vívidos e ajustáveis, mas também oferecem uma experiência de comunicação mais natural. O OpenAI mencionou em sua documentação da API que esse recurso de voz a voz nativa elimina o processamento intermediário de formatação de texto, permitindo baixa latência e saída mais delicada.
No entanto, o OpenAI também lembra aos usuários que, como a API em tempo real ainda está na fase de teste, ela é temporariamente incapaz de fornecer autenticação do cliente. Além disso, o processamento em áudio em tempo real pode ser afetado pelas condições da rede, o que também apresenta desafios na transmissão de áudio em larga escala. O OpenAI aponta que garantir a transmissão confiável de áudio é realmente uma tarefa difícil quando as condições da rede são instáveis.
A história do desenvolvimento da Openai na tecnologia de voz também é controversa. Em março, eles lançaram o mecanismo de voz, uma plataforma de clonagem de voz, que tentou competir com o Elevenlabs, mas só estava aberta a alguns pesquisadores. Com a demonstração dos modos GPT-4O e Voice, o OpenAi fez um uso de voz chamado "Sky" em maio, como a atriz de Hollywood Scarlett Johnson expressou insatisfação com ele, acreditando que era muito parecido com sua voz.
Em setembro, o OpenAI lançou o modo de voz Avançado do ChatGPT para seus assinantes pagos, que podem ser usados por usuários como ChatGPT Plus, Enterprise, Teams e EDU. Por meio dessa tecnologia de voz a voz, as empresas podem gerar respostas em tempo real mais rapidamente, melhorando bastante a eficiência do atendimento ao cliente.
Reduzir custos em mais de 50%Em relação ao preço das APIs em tempo real, o OpenAI custou US $ 0,06 em uma versão anterior a US $ 0,06 em minutos de entrada de áudio e US $ 0,24 na saída de áudio, o que é relativamente alto para os desenvolvedores. No entanto, após esta atualização, o custo do uso de entrada de texto em cache será reduzido em 50%, enquanto o custo da entrada de áudio em cache será de até 80%.
A OpenAI anunciou o novo recurso do "cache rápido" no dia do desenvolvedor, que pode salvar os avisos de contexto de solicitações frequentes na memória do modelo, reduzindo assim o número de tokens necessários para gerar uma resposta. Ao diminuir o preço de entrada, o OpenAI espera atrair mais desenvolvedores para usar sua API.
Além disso, outras empresas como a Antrópica lançaram recursos semelhantes de cache para aumentar o apelo de sua tecnologia de voz.
Pontos -chave:
Cinco novas vozes naturais são adicionadas para melhorar a experiência de aplicação de voz
A API em tempo real reduz os custos de entrada através do cache, tornando os desenvolvedores mais econômicos
O processamento em áudio em tempo real é afetado pelas condições da rede, e a confiabilidade precisa receber atenção
Esta atualização do OpenAI não apenas melhora a experiência de aplicação da tecnologia de voz, mas também atrai mais desenvolvedores, reduzindo os custos, promovendo ainda mais a popularização e o desenvolvimento da tecnologia de voz.