В последние годы технология преобразования текста в аудио быстро развивалась, придавая новую жизнь области искусственного интеллекта. В этой статье основное внимание будет уделено новой модели под названием TANGOFLUX, которая демонстрирует впечатляющие преимущества в скорости и эффективности и приносит новые прорывы в исследованиях и применении технологии генерации текстового аудио. Модель TANGOFLUX не только быстро генерируется, но также хорошо работает с точки зрения качества звука и разнообразия звуковых эффектов. Ее функция открытого исходного кода более способствует совместному развитию научных кругов и промышленности.
В области искусственного интеллекта технология генерации текстового аудио постепенно становится горячей точкой исследований. Недавно исследователи выпустили новую модель под названием TANGOFLUX, которая обладает превосходными характеристиками и эффективностью.
TANGOFLUX — это эффективная модель преобразования текста в аудио с 515 миллионами параметров, которая может генерировать до 30 секунд звука с частотой 44,1 кГц всего за 3,7 секунды. Такая скорость делает ее производительность на одном графическом процессоре A40 очень хорошей.
Основная особенность TANGOFLUX заключается в том, что он может генерировать различные звуковые эффекты, такие как крики птиц, свист, взрывы и т. д. Он также поддерживает создание музыки, но эффект не такой идеальный.
Основная проблема в генеративных моделях преобразования текста в аудио заключается в том, как создать предпочтительные пары. В отличие от больших языковых моделей (LLM), в моделях преобразования текста в аудио отсутствуют поддающиеся проверке механизмы вознаграждения или ответы золотого стандарта. Чтобы решить эту проблему, исследовательская группа предложила новую структуру под названием CLAP-Ranked Preference Optimization (CRPO). Платформа улучшает производительность согласования моделей генерации текста в аудио за счет итеративной генерации и оптимизации данных о предпочтениях. Исследования показывают, что данные о предпочтениях звука, генерируемые с помощью CRPO, превосходят существующие альтернативы.
Благодаря этой системе TANGOFLUX достигает лидирующих показателей по множеству объективных и субъективных показателей. Кроме того, исследовательская группа также решила открыть исходный код всех кодов и моделей, чтобы поддержать исследования большего числа людей в области генерации текстового аудио. Для сценариев приложений, требующих генерации звука, TANGOFLUX, несомненно, является важным технологическим достижением.
С точки зрения практических эффектов, TANGOFLUX превосходит другие модели по качеству генерации звука, демонстрируя более четкие звуки событий, лучшее воспроизведение последовательности событий и более высокое качество звука. Сравнивая несколько примеров, пользователи могут интуитивно почувствовать преимущества TANGOFLUX при генерации звука.
Слово-подсказка: Мелодичные человеческие свистки и естественное пение птиц гармонично сосуществуют, и в результате получается следующий эффект:
С появлением этой новой технологии перспективы применения преобразования текста в аудио становятся все более широкими, и в будущем это может сыграть важную роль в производстве фильмов и телепередач, звуковых эффектах в играх и других областях.
Вход в проект: https://tangoflux.github.io/
Основные моменты:
TANGOFLUX — это эффективная модель генерации текстового аудио, которая может генерировать 30 секунд высококачественного звука за 3,7 секунды.
Система оптимизации предпочтений по рейтингу CLAP (CRPO) предлагается для оптимизации производительности модели и данных о предпочтениях звука.
Все коды и модели имеют открытый исходный код, что призвано способствовать исследованиям и применению генерации текстового аудио.
В целом, появление модели TANGOFLUX знаменует собой значительный прогресс в технологии преобразования текста в аудио. Ее эффективность, высокое качество и функции с открытым исходным кодом будут способствовать дальнейшему развитию в этой области и принесут больше инновационных приложений в различные отрасли. Мы надеемся на более широкое применение, а также на постоянную оптимизацию и модернизацию TANGOFLUX в будущем.