Comparar Google NotebookLM! Modelo de generación de voz PlayDialog: puede generar podcasts de conversación y narraciones.

Autor：Eve Cole Fecha de actualización：2024-11-28 10:24:01

Play AI lanza grandiosamente su última obra maestra: la versión beta de PlayDialog, un modelo de voz de IA que puede generar audio de podcast conversacional. No solo puede ajustar la entonación, la emoción y la velocidad del habla de acuerdo con el contexto histórico de la conversación, lograr una síntesis del habla más natural, sino también crear una experiencia de comunicación de voz inmersiva, que puede considerarse un nuevo hito en el diálogo entre humanos y computadoras. El editor de Downcodes explicará en detalle las poderosas funciones de PlayDialog y su herramienta de soporte PlayNote.

Recientemente, Play AI lanzó oficialmente su producto más ambicioso, la versión beta de PlayDialog, que puede generar audio de podcast conversacional.

Este modelo de voz de IA de extremo a extremo utiliza el contexto histórico de la conversación para controlar la entonación, las emociones y la velocidad del habla para lograr una síntesis del habla más natural, lo que marca un nuevo nivel de diálogo entre humanos y máquinas. PlayDialog es particularmente adecuado para crear experiencias de diálogo reales, como narración, doblaje de voz, podcasts sintetizados, etc. También puede proporcionar una experiencia inmersiva de comunicación de voz uno a uno en un entorno empresarial, similar a NotebookLM de Google.

Al mismo tiempo, Play AI también lanzó PlayNote, una herramienta que puede convertir una variedad de archivos multimedia (como PDF, texto, video, etc.) en experiencias conversacionales. Los usuarios pueden generar podcasts, presentaciones, narraciones e incluso cuentos infantiles en minutos, y disfrutar de los efectos de voz suaves y naturales que ofrece PlayDialog. La singularidad de PlayNote es que también proporciona una interfaz API, lo que permite a los usuarios lograr fácilmente la generación programática de contenido de audio sin depender de la interfaz de usuario.

PlayDialog beta ha sido entrenado en cientos de millones de conversaciones reales. El tamaño del modelo es aproximadamente diez veces mayor que el de Play AI3.0mini y puede igualar el rendimiento del habla humana en términos de entonación (como la cadencia de la voz y la velocidad de la voz). discurso). En las pruebas a ciegas, PlayDialog beta obtuvo el doble de rendimiento que los principales modelos de la competencia en el mercado, obteniendo las mejores notas, especialmente en cuanto a expresividad.

A diferencia de los modelos de voz anteriores, PlayDialog beta puede comprender el contexto de toda la conversación, afectando así el efecto de generación de voz. Play AI creó una nueva arquitectura llamada Contextualizador adaptativo del habla (ASC), que permite que el modelo responda utilizando el historial de conversación completo, de modo que cada oración no sea una salida aislada, sino rica, con el tono, la emoción y la emoción adecuados. El tono hace que el podcast resultante parezca como si el oyente se estuviera comunicando en el mismo espacio que el hablante.

Ya sea que se trate de una discusión dinámica o de un tema delicado que requiere empatía, PlayDialog se adapta perfectamente, haciendo que las interacciones se sientan más naturales y humanas.

Los usuarios pueden experimentar todo esto con PlayNote, usándolo para crear narraciones, podcasts, presentaciones y más potentes y naturales en solo minutos. PlayNote también está disponible a través de una interfaz API, lo que permite a los desarrolladores generar contenido atractivo a escala mediante programación.

Entrada de Tía: https://play.ai/playnote

Introducción oficial del blog: https://blog.play.ai/blog/introtaining-playdialog

Sin duda, la aparición de PlayDialog y PlayNote impulsará la tecnología de síntesis de voz mediante IA a nuevas alturas y traerá cambios revolucionarios a la producción de podcasts, la comunicación de voz y otros campos. ¡Esperamos más innovaciones sorprendentes de Play AI en el futuro!