La aplicación Doubao lanzó el último modelo grande de voz "de extremo a extremo" el 20 de enero de 2025, realizando una actualización importante de la función de llamada de voz en tiempo real. Esta actualización marca que Doubao ha logrado un progreso significativo en el campo de la interacción de voz. Ya no depende de las soluciones en cascada tradicionales ASR, LLM y TTS, sino que integra el reconocimiento, la comprensión y la generación de voz en el mismo modelo, logrando una experiencia más fluida. Experiencia de interacción de voz inteligente. El objetivo de esta actualización es mejorar el antropomorfismo de la interacción de voz, permitiendo a la IA comprender y responder mejor a las emociones humanas.
El 20 de enero de 2025, la aplicación Doubao lanzó oficialmente su último modelo de voz "de extremo a extremo" e realizó actualizaciones importantes a la función de llamada de voz en tiempo real. Este progreso marca otro paso adelante para Doubao en el campo de la interacción de voz, superando las soluciones en cascada anteriores de ASR (reconocimiento automático de voz), LLM (modelo de lenguaje grande) y TTS (Tensheng Audio), integrando reconocimiento, comprensión y generación de voz. en el mismo modelo.
Después de las pruebas realizadas por "Smart Emergence", lo más destacado de la nueva versión de Doubao es que tiene una capacidad de expresión y una producción emocional similares a las de los humanos, lo que mejora la fluidez y el nivel de inteligencia del diálogo. En particular, los modos "Soul Singer" y "Various Master" permiten a Doubao no sólo cantar, sino también realizar ricos juegos de rol, convirtiéndose en un nuevo favorito para la interacción del usuario. Por ejemplo, cuando los usuarios le pidieron a Doubao que imitara la voz de la celebridad Yu Shuxin, Doubao no solo replicó con éxito el tono del personaje, sino que también expresó de manera divertida su propia personalidad única.
Lo que es aún más digno de mencionar es que Doubao es capaz de improvisar canciones en conversaciones naturales sin necesidad de instrucciones complicadas o indicaciones profesionales. Los usuarios pueden pedirle a Doubao que cante a voluntad e incluso pueden especificar el tema de la letra. Aunque la actuación de Doubao ocasionalmente cometió pequeños errores, su velocidad de reacción y capacidad de improvisación fueron asombrosas, lo que demuestra su fuerte habilidad antropomórfica.
Además, los dos modos de personalidad recién agregados de Doubao, a saber, "el bolso pequeño" y "el maestro exagerado", también aportan frescura a los usuarios. Estos patrones de personalidad le permiten a Doubao expresar diferentes emociones y estilos en diferentes situaciones, mejorando así la diversión y el realismo de las interacciones.
Hoy en día, con el creciente desarrollo de la tecnología de interacción de voz, esta actualización de Doubao no solo amplía los escenarios de aplicación de la IA al compañerismo emocional, el asesoramiento psicológico y otros campos, sino que también acerca las capacidades de comunicación emocional de la IA a los humanos. Sin duda, esta transformación permitirá a Doubao ocupar un lugar en un mercado altamente competitivo y liderar el desarrollo futuro de la interacción con la IA.
Esta actualización de la aplicación Doubao no solo logra un gran avance en tecnología, sino que, lo que es más importante, logra un salto cualitativo en la experiencia del usuario, proporcionando una nueva dirección para el desarrollo futuro de la interacción con IA, y vale la pena esperar más innovaciones en el futuro. arriba.