Recentemente, um novo modelo de síntese de voz chamado Kokoro foi lançado na plataforma Hugging Face, atraindo ampla atenção. Este modelo utiliza apenas 82 milhões de parâmetros e menos de 100 horas de dados de áudio para alcançar resultados comparáveis a modelos com muito mais parâmetros do que ele próprio, classificando-se entre os melhores na área de TTS. Seu processo de treinamento eficiente e uso conveniente fazem dele um avanço no campo da síntese de fala. Este artigo apresentará detalhadamente o desempenho, processo de treinamento, uso e limitações do modelo Kokoro.
No rápido desenvolvimento da inteligência artificial, a tecnologia de síntese de voz está recebendo cada vez mais atenção. Recentemente, o mais recente modelo de síntese de voz denominado Kokoro foi lançado oficialmente na plataforma Hugging Face. O modelo possui 82 milhões de parâmetros, marcando um marco importante no campo da síntese de fala.
O Kokoro v0.19 ficou em primeiro lugar na tabela de classificação TTS (texto para fala) nas semanas que antecederam seu lançamento, superando até mesmo outros modelos com mais parâmetros. Em uma configuração mono, este modelo alcançou resultados comparáveis a modelos como o parâmetro 467M XTTS v2 e o parâmetro 1.2B MetaVoice usando menos de 100 horas de dados de áudio. Esta conquista mostra que a relação entre o desempenho dos modelos tradicionais de síntese de voz e a quantidade de parâmetros, computação e dados pode ser mais significativa do que o esperado anteriormente.
Em termos de uso, os usuários só precisam executar algumas linhas de código no Google Colab para carregar o modelo e o pacote de voz e gerar áudio de alta qualidade. Kokoro atualmente oferece suporte a inglês dos EUA e inglês britânico e oferece vários pacotes de voz para os usuários escolherem.
O processo de treinamento de Kokoro usa a instância vRAM A10080GB da Vast.ai e o custo do aluguel é relativamente baixo, garantindo um processo de treinamento eficiente. Todo o modelo foi treinado usando menos de 20 épocas de treinamento e menos de 100 horas de dados de áudio. Os modelos Kokoro usam dados de áudio de domínio público, bem como áudio de outras licenças abertas no treinamento, garantindo a conformidade dos dados.
Embora o Kokoro tenha um bom desempenho na síntese de fala, atualmente não é capaz de suportar a clonagem de voz devido a limitações em seus dados e arquitetura de treinamento, e os principais dados de treinamento concentram-se em leituras e narrativas longas, em vez de diálogos.
Modelo: https://huggingface.co/hexgrad/Kokoro-82M
Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Destaque:
Kokoro-82M é um modelo de síntese de voz recém-lançado com 82 milhões de parâmetros e suporta uma variedade de pacotes de voz.
Este modelo tem excelente desempenho na área de TTS e já ficou em primeiro lugar no ranking, utilizou apenas menos de 100 horas de dados de áudio para treinamento.
Os modelos Kokoro são treinados usando dados de licença aberta para garantir a conformidade, mas atualmente existem algumas limitações funcionais.
Em suma, o modelo Kokoro apresenta um potencial impressionante na área de síntese de fala, e seu treinamento eficiente e excelente desempenho merecem atenção. Embora ainda existam algumas limitações no momento, acredito que com o desenvolvimento contínuo da tecnologia, Kokoro terá cenários de aplicação mais amplos no futuro.