Recientemente, se lanzó un nuevo tipo de modelo sintético de voz llamado Kokoro en la plataforma Hugging Face, que ha atraído una atención generalizada. Este modelo solo utiliza 82 millones de parámetros y datos de audio de menos de 100 horas, lo que ha logrado el efecto que es mucho más que el modelo del número de parámetros. Su eficiente proceso de entrenamiento y su uso conveniente del uso lo convierten en un gran avance en el campo de la síntesis de voz. Este artículo introducirá el rendimiento, el proceso de capacitación, el método de uso y las limitaciones existentes del modelo Kokoro en detalle.
En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo una atención cada vez mayor. Recientemente, el último modelo de síntesis de voz llamado Kokoro se lanzó oficialmente en la plataforma de abrazadera.
Kokoro V0.19 En las primeras semanas, se clasificó primero en la clasificación de TTS (texto a voz), y su rendimiento incluso excedió más modelos con otros parámetros. En la configuración de un solo canal, este modelo solo usa menos de 100 horas de datos de audio para lograr los efectos comparables a modelos como los parámetros XTTS V2 y 1.2B con parámetros de 467m. Este logro muestra que la relación entre el rendimiento y los parámetros del modelo de síntesis de voz tradicional, la cantidad de cálculo y la cantidad de datos puede ser más significativa que antes.
En términos de uso, los usuarios solo necesitan ejecutar algunas líneas de código en Google Colab para cargar modelos y paquetes de voz para generar audio de alta calidad. Actualmente, Kokoro es compatible con el inglés estadounidense y el inglés británico, y ofrece múltiples paquetes de voz para que los usuarios elijan.
El proceso de capacitación de Kokoro utiliza la instancia VRAM A10080GB de A10080GB, y el costo de alquiler es relativamente bajo, asegurando el proceso de capacitación eficiente. La capacitación de todo el modelo solo utiliza menos de 20 ciclos de entrenamiento y menos de 100 horas de datos de audio. El modelo Kokoro utiliza datos de audio en el campo público y otro audio de licencias abiertas en capacitación para garantizar el cumplimiento de los datos.
Aunque Kokoro ha tenido un buen desempeño en términos de síntesis de voz, debido a sus datos de entrenamiento y restricciones de arquitectura, el clon de sonido aún no está compatible, y los principales datos de entrenamiento se concentran en una larga lectura y narrativa, no al diálogo.
Modelo: https://huggingface.co/hexgrad/kokoro-82m
Experiencia: https://huggingface.co/spaces/hexgrad/kokoro-tts
Agujas:
Kokoro-82M es un modelo de síntesis de voz recientemente lanzado con 82 millones de parámetros y admite una variedad de paquetes de voz.
Este modelo se ha desempeñado bien en el campo TTS y se clasificó primero en las clasificaciones.
La capacitación del modelo Kokoro adopta los datos de una licencia abierta para garantizar el cumplimiento, pero todavía hay algunas restricciones funcionales.
En general, el modelo Kokoro muestra el potencial de notable en el campo de la síntesis de voz, y su entrenamiento eficiente y su excelente rendimiento son dignos de atención. Aunque todavía existen algunas limitaciones en la actualidad, creo que con el desarrollo continuo de la tecnología, Kokoro tendrá una gama más amplia de escenarios de aplicación en el futuro.