Недавно на платформе Hugging Face была выпущена новая модель синтеза речи под названием Kokoro, которая привлекла всеобщее внимание. Эта модель использует всего 82 миллиона параметров и менее 100 часов аудиоданных для достижения результатов, сравнимых с моделями с гораздо большим количеством параметров, чем она сама, и входит в число лучших в области TTS. Эффективный процесс обучения и удобное использование делают его прорывом в области синтеза речи. В этой статье подробно представлены производительность, процесс обучения, использование и ограничения модели Кокоро.
В условиях быстрого развития искусственного интеллекта технологиям синтеза речи уделяется все больше внимания. Недавно на платформе Hugging Face была официально выпущена новейшая модель синтеза речи под названием Kokoro. Модель имеет 82 миллиона параметров, что является важной вехой в области синтеза речи.
Kokoro v0.19 занимал первое место в таблице лидеров TTS (преобразование текста в речь) за несколько недель до его выпуска, опережая даже другие модели с большим количеством параметров. В монофоническом режиме эта модель достигла результатов, сравнимых с такими моделями, как параметр 467M XTTS v2 и параметр 1.2B MetaVoice, используя менее 100 часов аудиоданных. Это достижение показывает, что взаимосвязь между производительностью традиционных моделей синтеза речи и количеством параметров, вычислений и данных может быть более значимой, чем ожидалось ранее.
С точки зрения использования пользователям нужно всего лишь запустить несколько строк кода в Google Colab, чтобы загрузить модель и голосовой пакет и создать высококачественный звук. Kokoro в настоящее время поддерживает американский английский и британский английский и предоставляет пользователям на выбор несколько голосовых пакетов.
В процессе обучения Кокоро используется экземпляр Vast.ai A10080GB vRAM, а стоимость аренды относительно низкая, что обеспечивает эффективный процесс обучения. Вся модель была обучена с использованием менее 20 эпох обучения и менее 100 часов аудиоданных. Модели Kokoro при обучении используют общедоступные аудиоданные, а также аудио из других открытых лицензий, обеспечивая соответствие данных.
Хотя Kokoro хорошо справляется с синтезом речи, в настоящее время он не может поддерживать клонирование голоса из-за ограничений в обучающих данных и архитектуре, а основные обучающие данные сосредоточены на длинном чтении и повествованиях, а не на диалогах.
Модель: https://huggingface.co/hexgrad/Kokoro-82M
Опыт: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Выделять:
Kokoro-82M — это недавно выпущенная модель синтеза речи с 82 миллионами параметров и поддержкой различных речевых пакетов.
Эта модель имеет отличные показатели в области TTS и когда-то занимала первое место в рейтинге. Для обучения она использовала всего менее 100 часов аудиоданных.
Модели Kokoro обучаются с использованием данных открытой лицензии для обеспечения соответствия требованиям, но в настоящее время существуют некоторые функциональные ограничения.
В целом модель Кокоро демонстрирует впечатляющий потенциал в области синтеза речи, а ее эффективная тренировка и отличные характеристики достойны внимания. Хотя в настоящее время все еще существуют некоторые ограничения, я считаю, что благодаря постоянному развитию технологий у Kokoro в будущем появятся более широкие сценарии применения.