¡Abre la boca y arrodíllate! Fish Audio lanza Fish Speech 1.5, agrega 5 nuevos idiomas y también lanzará una función de conversación fluida en tiempo real

Autor：Eve Cole Fecha de actualización：2024-12-18 10:00:02

El modelo de síntesis de voz Fish Speech 1.5 recientemente lanzado por Fish Audio ha desatado una tormenta en el campo de la síntesis de voz. Este modelo no solo ha logrado mejoras significativas en precisión, estabilidad y capacidades entre idiomas, sino que, lo que es más importante, ha agregado soporte para cinco nuevos idiomas y pronto lanzará una función de conversación fluida en tiempo real, brindando beneficios sin precedentes a los usuarios. experiencia interactiva. Su potente rendimiento se deriva de más de 1 millón de horas de datos de entrenamiento en varios idiomas y ha alcanzado el segundo lugar en el ranking anónimo de TTS-Arena. Su fuerza no puede subestimarse. Este artículo analizará en profundidad las características y beneficios de Fish Speech 1.5.

Fish Audio lanzó recientemente un éxito de taquilla: Fish Speech1.5. Este nuevo modelo de síntesis de voz es simplemente "sonido" inmersivo, y no solo supera a sus predecesores en precisión, estabilidad y capacidades en varios idiomas. Además, Fish Speech 1.5 pronto lanzará un producto real. Función de conversación fluida en tiempo, que permite a los usuarios seleccionar una biblioteca de voz para chat interactivo en cualquier momento y en cualquier lugar.

El "conocimiento" de Fish Speech 1.5 es bastante profundo. Ha "roído" más de 1 millón de horas de datos de entrenamiento en varios idiomas para desarrollar sus habilidades únicas. Actualmente domina 13 idiomas, incluidos inglés, chino y japonés. Esto no es alardear, ¡obtuve el segundo lugar en el ranking anónimo de TTS-Arena!

La función de clonación de voz de Fish Speech1.5 también se puede llamar "Flash", el tiempo de retardo es inferior a 150 milisegundos y se genera en tiempo real. Más importante aún, Fish Speech1.5 también abre generosamente el modelo previamente entrenado. No importa si deseas "sintonizarte" en casa o elegir un servicio en la nube, ¡puedes hacerlo fácilmente!

Características principales:

Síntesis de voz de muestras cero y de pocas muestras: solo necesita escuchar de 10 a 30 segundos de muestras de sonido y podrá imitarlas perfectamente y generar una salida de síntesis de voz de alta calidad. Es como un espectáculo de súper imitación. ¡Mientras te atrevas a "mostrar", él se atreve a "aprender"!

Soporte multilingüe y entre idiomas: ¿Todavía te preocupan las barreras del idioma? Fish Speech1.5 te ha ayudado a eliminar los obstáculos. Simplemente copia y pega lo que quieres decir en el cuadro de entrada y podrás hacerlo fácilmente. , admite inglés, japonés, coreano, chino, francés, alemán, árabe y español. ¡Ahora finalmente puedes chatear con amigos de todo el mundo!

Sin dependencia de fonemas: los modelos tradicionales de síntesis de voz a menudo se basan en fonemas, pero Fish Speech1.5 adopta un enfoque diferente. Tiene capacidades de súper generalización y puede procesar texto en cualquier idioma. ¡Esto es simplemente una revolución en el mundo de la síntesis de voz!

Altamente preciso: para un artículo en inglés de 5 minutos, la tasa de error de Fish Speech1.5 es tan baja como 2%, ¡lo cual es un número bastante sorprendente!

Rápido: Fish Speech1.5 también es muy rápido. En una computadora portátil Nvidia RTX4060, su coeficiente en tiempo real es de aproximadamente 1:5, y en una Nvidia RTX4090, su coeficiente en tiempo real es tan alto como 1:15. ¡sensación de "volar"!

Fish Speech1.5 también admite la implementación local:

WebUI: proporciona una interfaz de usuario web simple y fácil de usar, compatible con los principales navegadores como Chrome, Firefox y Edge, lo que le permite experimentar la diversión de la síntesis de voz en cualquier momento y en cualquier lugar.

GUI: También proporciona una interfaz gráfica PyQt6 que puede funcionar perfectamente con el servidor API y es compatible con sistemas Linux, Windows y macOS. ¡Es simplemente una buena noticia para los "Tres Mosqueteros"!

Fácil de implementar: también puede implementar fácilmente Fish Speech1.5 en sistemas Linux, Windows y MacOS, minimizando la pérdida de velocidad.

Dirección del sitio web oficial: https://fish.audio/zh-CN/

Dirección del proyecto: https://github.com/fishaudio/fish-speech

En definitiva, con sus potentes funciones, métodos de implementación convenientes y ventajas de código abierto, Fish Speech 1.5 seguramente atraerá una amplia atención en el campo de la síntesis de voz y brindará a los usuarios una experiencia de interacción de voz más conveniente e inteligente. Su eficiencia, precisión y soporte en varios idiomas brindan un poderoso soporte técnico para diversos escenarios de aplicaciones. Bienvenido a visitar el sitio web oficial y la dirección del proyecto para obtener más información.