OuteTTS-0.1-350M: новый метод синтеза речи с клонированием речи с нулевой выборкой.

Автор：Eve Cole Время обновления：2024-11-29 14:40:33

Редактор Downcodes сообщает: Oute AI недавно выпустила свой новый метод синтеза речи — OuteTTS-0.1-350M. Эта модель TTS, основанная на архитектуре LLaMa, с ее простой архитектурой и эффективным WavTokenizer, обеспечивает высококачественный синтез речи без необходимости использования внешних адаптеров. Он не только обладает возможностями клонирования голоса с нулевой выборкой, но также совместим с llama.cpp, что делает его идеальным для приложений реального времени. Выпуск OuteTTS-0.1-350M, несомненно, несет в себе новые прорывы в развитии технологии преобразования текста в речь.

Недавно Oute AI выпустила новый метод синтеза речи под названием OuteTTS-0.1-350M. Этот подход использует чистое языковое моделирование без необходимости использования внешних адаптеров или сложных архитектур, обеспечивая упрощенный подход к TTS. OuteTTS-0.1-350M основан на архитектуре LLaMa и использует WavTokenizer для прямой генерации аудиотокенов, что делает процесс более эффективным.

Модель оснащена функцией клонирования голоса с нулевой выборкой, которая требует всего несколько секунд эталонного звука для репликации нового голоса. OuteTTS-0.1-350M разработан с учетом производительности устройства и совместим с llama.cpp, что делает его идеальным для приложений реального времени. Хотя модель имеет относительно небольшой размер параметров (350 миллионов), ее производительность сравнима с более крупными и сложными системами TTS.

Доступность и эффективность OuteTTS-0.1-350M делают его пригодным для широкого спектра приложений, включая персонализированных помощников, аудиокниги и локализацию контента. Oute AI выпускается под лицензией CC-BY, которая поощряет дальнейшие эксперименты и интеграцию в различные проекты, демократизируя передовую технологию TTS.

Выпуск OuteTTS-0.1-350M знаменует собой ключевой шаг вперед в технологии преобразования текста в речь, используя упрощенную архитектуру для обеспечения высококачественного синтеза речи с минимальными вычислительными требованиями. Он интегрирует архитектуру LLaMa, использует WavTokenizer и способен выполнять клонирование речи с нулевой выборкой без сложных адаптеров, что отличает его от традиционных моделей TTS.

Адрес: https://www.outeai.com/blog/OuteTTS-0.1-350M

В целом, OuteTTS-0.1-350M открывает новые возможности в области преобразования текста в речь благодаря своей эффективности, простоте и доступности, и стоит рассчитывать на его производительность в будущих приложениях. Редактор Downcodes продолжит уделять внимание дальнейшему развитию этой модели.