Doubao lanza un modelo grande de voz en tiempo real con idioma chino de primera clase, Shuangshang Online - artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-28 11:48:02

El último modelo de voz en tiempo real lanzado por Doubao Company ha logrado avances revolucionarios en el campo del diálogo chino. Está completamente lanzado en la versión 7.2.0 de Año Nuevo de la aplicación Doubao. Este modelo integra profundamente la comprensión y generación del habla para crear un sistema de diálogo de voz de extremo a extremo, que mejora significativamente la expresividad, el control y la aceptación emocional del habla. También tiene funciones como baja latencia e interrupción de conversaciones en cualquier momento, lo que brinda más beneficios. para los usuarios. Experiencia interactiva natural y fluida. Esta actualización también trae una nueva función de llamada de voz en tiempo real, que admite el ajuste flexible de los detalles de la conversación, la imitación de múltiples voces y dialectos e incluso la capacidad de cantar algunas canciones, mejorando aún más el realismo del diálogo entre humanos y máquinas.

Recientemente, Doubao Company anunció el lanzamiento de su nuevo modelo de voz en tiempo real, afirmando haber logrado una "liderazgo" en el diálogo chino, lo que marca una mejora significativa en las capacidades de diálogo de la IA. Este modelo está completamente abierto en la aplicación Doubao (número de versión 7.2.0 Edición de Año Nuevo), brindando a los usuarios una experiencia de comunicación de voz más rica y realista.

Según los informes, el modelo grande de voz en tiempo real de Doubao logra una profunda integración de la comprensión y generación del habla, formando un sistema de diálogo de voz de un extremo a otro. Este avance tecnológico permite que el modelo tenga un muy buen desempeño en términos de expresividad de voz, control y aceptación emocional. Tiene baja latencia y la capacidad de interrumpir conversaciones en cualquier momento, lo que mejora enormemente la experiencia interactiva del usuario. Los funcionarios afirmaron que esta tecnología no solo mejora el "CI", sino que también tiene inteligencia emocional en línea, lo que le permite comprender y expresar mejor las emociones.

Esta actualización también incluye una función de llamada de voz en tiempo real, que se basa en el último modelo grande de Doubao y puede ajustar de manera flexible detalles como el ritmo de la conversación, la voz, el volumen y los sonidos de la respiración en diferentes escenarios. Además, la nueva función de voz también puede imitar diferentes voces, admitir múltiples dialectos y conversaciones en inglés e incluso tener la capacidad de cantar algunas canciones. Todo esto ha elevado el realismo del diálogo hombre-máquina a un nuevo nivel, llegando casi al punto en que resulta "difícil distinguir entre hombre y máquina".

El equipo de I+D de Doubao afirmó que esta nueva tecnología se basa en un marco de un extremo a otro y utiliza métodos nativos para integrar profundamente patrones de voz y texto para un modelado unificado. Este diseño no sólo optimiza el proceso de reconocimiento y generación de voz, sino que también proporciona a la IA un "alma" más rica para que pueda comunicarse mejor con los humanos.

El lanzamiento del gran modelo de voz en tiempo real de Doubao en el campo del diálogo de voz chino proporcionará a los usuarios una experiencia interactiva sin precedentes y promoverá el desarrollo de la tecnología de voz inteligente.

El lanzamiento del modelo de voz en tiempo real Doubao marca un progreso significativo en la tecnología de interacción de voz inteligente, y su desempeño sobresaliente en el campo del diálogo chino es emocionante. En el futuro, con el continuo desarrollo de la tecnología, creo que modelos de habla similares traerán más comodidad y sorpresas a la vida de las personas.