Lanzamientos de audio de pescado Agente de pescado V0.1 3B Clonación de voz en tiempo real - Artículo de IA

Autor：Eve Cole Fecha de actualización：2025-02-13 00:16:01

Fish Audio ha lanzado su nuevo modelo de procesamiento de voz, Fish Agent V0.13b, un impresionante modelo de voz a voz que puede generar y procesar el habla de manera eficiente y precisa, y es bueno para simular y clonar diferentes sonidos. El modelo está previamente entrenado en función del instructo QWEN-2.5-3B y utiliza un conjunto de datos masivo que contiene 200 mil millones de tokens de voz y texto. Su innovación radica en la adopción de una arquitectura "semántica libre de tokenses" que procesa directamente la voz a nivel de sonido, mejorando así la velocidad y la eficiencia, realizando la clonación de voz "instantánea" y la conversión de texto a voz, que requiere solo 200 milisegundos. El modelo admite múltiples idiomas y es de código abierto, lo que brinda nuevas posibilidades al desarrollo de la tecnología de voz de IA.

Recientemente, Fish Audio lanzó el nuevo modelo de procesamiento de voz V0.13b. Esto significa que estamos un paso más cerca de tener un asistente de voz de IA natural y receptivo.

El modelo Fish Agent V0.13B se realiza previamente en función de QWEN-2.5-3B-Instructo y utiliza un conjunto de datos masivo que contiene 200 mil millones de tokens de voz y texto. A diferencia de los modelos tradicionales que requieren la primera conversión del discurso en una codificación semántica compleja, Fish Agent V0.13b adopta una arquitectura llamada "Token sin semántico" para procesar y generar discurso directamente a nivel de sonido. Este procesamiento directo no solo simplifica la estructura del modelo, sino que también mejora la velocidad y la eficiencia de reacción del modelo.

Gracias a esta innovadora arquitectura, Fish Agent V0.13B puede generar una voz de alta calidad rápida y naturalmente, permitiendo la clonación de voz "instantánea" y la conversión de texto a voz, con tiempo de conversión de texto a audio (TTFA) en solo 200 milisegundos . Esta característica lo hace ideal para escenarios de aplicación que requieren una generación de voz en tiempo real, como asistentes de voz, servicio al cliente automático y otros escenarios que requieren comentarios rápidos de voz.

El modelo Fish Agent V0.13B admite múltiples idiomas, incluidos inglés, chino, alemán, japonés, francés, español, coreano y árabe, y usa aproximadamente 700,000 horas de datos de audio multilingües para capacitación. Esto significa que puede manejar múltiples idiomas y contextos y genera una pronunciación más natural y más cercana para la persona real.

Además de las funciones de conversión de generación de voz a voz y texto a voz, Fish Agent V0.13b también tiene las siguientes características clave:

Clonación de voz de muestra cero: la clonación de voz se puede lograr sin entrenamiento.

Parámetros 3B simplificados: use 3 mil millones de parámetros para un fácil desarrollo.

Admite entrada de texto y audio: método flexible de entrada múltiple.

Actualmente, Fish Audio ha abierto el modelo Fish Agent V0.13B y proporciona una versión de demostración preliminar para la experiencia del usuario. El lanzamiento de este modelo promoverá aún más el desarrollo de la tecnología de voz de IA y traerá más posibilidades a aplicaciones como asistentes de voz y personas virtuales.

Github: https://github.com/fishaudio/fish-sepeech

Demo del agente de peces: https://huggingface.co/spaces/fishudio/fish-agent

Descarga del modelo: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

Informe técnico: https://arxiv.org/abs/2411.01156

El lanzamiento de código abierto del modelo Fish Agent V0.13B traerá nuevos avances a la investigación y aplicación de AI Voice Field, y vale la pena esperar su papel en el desarrollo futuro de la tecnología de voz. Espero que más desarrolladores puedan participar y promover conjuntamente el avance de la tecnología de voz de IA.