OpenAI está prestes a lançar a tão esperada versão Alpha do modo de voz para assinantes do ChatGPT Plus. Este recurso é baseado em seu modelo principal GPT-4o e melhora significativamente a experiência de interação de voz. O modelo GPT-4o pode processar entrada de áudio a uma velocidade próxima à reação humana e combina treinamento ponta a ponta de três modalidades: texto, visão e áudio, demonstrando o mais recente avanço da OpenAI no campo da IA multimodal. Anteriormente, a implementação deste recurso foi adiada devido à necessidade de melhorar a moderação de conteúdo do modelo e a construção de infraestrutura. Esta atualização não apenas resolverá o problema de atraso excessivo no modo de voz ChatGPT existente, mas também proporcionará aos usuários uma experiência de conversação por voz mais suave e natural.
Quando o modelo principal da OpenAI, GPT-4o (o significa omni), foi lançado em maio, seus recursos de compreensão de áudio atraíram muita atenção. O modelo GPT-4o foi capaz de responder à entrada de áudio em média 320 milissegundos, o que é semelhante ao tempo de reação de humanos em uma conversa típica.
A OpenAI também anunciou que o recurso de modo de voz do ChatGPT aproveitará os recursos de áudio do modelo GPT-4o para fornecer aos usuários uma experiência de conversação por voz perfeita. Com relação aos recursos de fala do GPT-4o, a equipe OpenAI escreveu:
Com o GPT-4o, treinamos um modelo totalmente novo que treina as três modalidades de texto, visual e áudio ponta a ponta, ou seja, todas as entradas e somas são processadas pela mesma rede neural. Como o GPT-4o é o nosso primeiro modelo a combinar todas essas modalidades, ainda apenas arranhamos a superfície do potencial e das limitações do nosso modelo.
Em junho, a OpenAI anunciou planos para lançar o modo lingo avançado em alfa para um pequeno grupo de usuários do ChatGPT Plus posteriormente, mas os planos foram adiados por um mês devido à necessidade de melhorar a capacidade do modelo de detectar e rejeitar determinados conteúdos. . Além disso, a OpenAI está preparando sua infraestrutura para escalar milhões de usuários, mantendo ao mesmo tempo a capacidade de resposta em tempo real.
Agora, o CEO da OpenAI, Sam Altman, confirmou via X que a versão Alpha do modo de voz será lançada para assinantes do ChatGPT Plus a partir da próxima semana.
O modo de voz ChatGPT atual não é intuitivo devido ao atraso médio de 2,8 segundos (GPT3,5) e 5,4 segundos (GPT-4). O próximo modo de voz avançado baseado em GPT-4o permitirá que os assinantes do ChatGPT tenham conversas tranquilas e sem atrasos.
Além disso, a OpenAI também lançou hoje o tão aguardado SearchGPT, que é sua nova tentativa de experiência de pesquisa na web. Atualmente um protótipo, o SearchGPT fornece recursos de pesquisa de inteligência artificial que podem fornecer rapidamente respostas precisas de fontes claras e relevantes. Você pode aprender mais aqui.
Em suma, a série de atualizações da OpenAI mostra a sua capacidade de continuar a inovar no campo da inteligência artificial. Em particular, a aplicação do modelo GPT-4o melhorará significativamente a experiência do usuário, e o lançamento do SearchGPT anuncia uma nova direção para. desenvolvimento futuro do mecanismo de pesquisa. Esperamos inovações tecnológicas mais surpreendentes trazidas pela OpenAI no futuro.