Play AI lança grandiosamente sua mais recente obra-prima - a versão beta do PlayDialog, um modelo de voz de IA que pode gerar áudio de podcast conversacional. Ele pode não apenas ajustar a entonação, a emoção e a velocidade da fala de acordo com o contexto histórico da conversa, alcançar uma síntese de fala mais natural, mas também criar uma experiência imersiva de comunicação por voz, que pode ser considerada um novo marco no diálogo humano-computador. O editor de Downcodes explicará em detalhes as poderosas funções do PlayDialog e sua ferramenta de suporte PlayNote.
Recentemente, a Play AI lançou oficialmente seu produto mais ambicioso, a versão beta do PlayDialog, que pode gerar áudio de podcast conversacional.
Este modelo de fala de IA de ponta a ponta usa o contexto histórico da conversa para controlar a entonação, a emoção e a velocidade da fala para obter uma síntese de fala mais natural, marcando um novo nível de diálogo homem-máquina. PlayDialog é particularmente adequado para criar experiências reais de diálogo, como narração, dublagem de voz, podcasts sintetizados, etc. Ele também pode fornecer uma experiência imersiva de comunicação de voz individual em um ambiente de negócios, semelhante ao NotebookLM do Google.
Ao mesmo tempo, a Play AI também lançou o PlayNote, uma ferramenta que pode converter uma variedade de arquivos de mídia (como PDF, texto, vídeo, etc.) em experiências de conversação. Os usuários podem gerar podcasts, apresentações, narrações e até histórias infantis em minutos e aproveitar os efeitos de voz suaves e naturais trazidos pelo PlayDialog. A singularidade do PlayNote é que ele também fornece uma interface API, permitindo aos usuários obter facilmente a geração programática de conteúdo de áudio sem depender da interface do usuário.
O PlayDialog beta foi treinado em centenas de milhões de conversas reais. O tamanho do modelo é cerca de dez vezes maior que o do Play AI3.0mini e pode corresponder ao desempenho da fala humana em termos de entonação (como a cadência da voz e a velocidade da voz). discurso). Em testes cegos, o PlayDialog beta teve um desempenho duas vezes melhor que os principais modelos concorrentes do mercado, obtendo notas máximas em particular pela expressividade.
Ao contrário dos modelos de fala anteriores, o PlayDialog beta pode compreender o contexto de toda a conversa, afetando assim o efeito da geração de fala. Play AI construiu uma nova arquitetura chamada Adaptive Speech Contextualizer (ASC), que permite que o modelo responda usando o histórico completo da conversa, para que cada frase não seja uma saída isolada, mas rica. O tom faz com que o podcast resultante pareça que o ouvinte está se comunicando no mesmo espaço que o locutor.
Quer se trate de uma discussão dinâmica ou de um tópico delicado que requer empatia, o PlayDialog se adapta perfeitamente, tornando as interações mais naturais e humanas.
Os usuários podem experimentar tudo isso com o PlayNote, usando-o para criar narrações, podcasts, apresentações e muito mais poderosos e naturais em apenas alguns minutos. O PlayNote também está disponível por meio de uma interface API, permitindo que os desenvolvedores gerem conteúdo envolvente de forma programática em grande escala.
Entrada da Tia: https://play.ai/playnote
Introdução oficial do blog: https://blog.play.ai/blog/introduzindo-playdialog
O surgimento do PlayDialog e do PlayNote sem dúvida levará a tecnologia de síntese de voz de IA a novos patamares e trará mudanças revolucionárias na produção de podcast, comunicação de voz e outros campos. Esperamos mais inovações surpreendentes do Play AI no futuro!