TTS Generation Webui / Harmonica
Скачать установщик || Установка || Настройка Docker || Отчеты отзывов / ошибок

Модели
Текст в речь | Аудио/поколение музыки | Аудио преобразование/инструменты |
---|
Лаять | MusicGen | RVC |
Черепаха | Магнит | Demucs |
Маха ттс | Стабильный звук | Вока |
Ммс | (Расширение) Риффузия | Шепот |
Vall-e x | (Расширение) Audiocraft Mac | |
Styletts2 | (Расширение) Audiocraft Plus | |
Seamlessm4t | | |
(Расширение) XTTSV2 | | |
(Расширение) Mars5 | | |
(Расширение) F5-TTS | | |
(Расширение) Парлер Ттс | | |
Bark.narration.mp4 | Bark.japanese.mp4 | MusicGen.mp4 |
---|
Изменение
23 ноября:
- Добавьте колесо Linux Fairseq для лучшей совместимости PIP.
22 ноября:
- Переключитесь на колеса, добавьте одну выстрел.
15 ноября:
- Обновите до Gradio 5.5.0, добавьте напоминание Enhance (#420)
14 ноября:
- Добавьте экспериментальное колесо Windows Deepspeed.
- Добавьте больше языков в клон «Кора голоса».
11 ноября:
- Переключитесь на фиксированную версию Fairseq для Windows, уменьшая конфликты установки и ускоряя обновления.
Октябрь 2024 г.
28 октября:
- Добавлены тесты установщика, модель загрузчика и опция CPU только PIP для Torch.
24 октября:
- Понизил Gradio до 5.1.0 из -за ошибки.
- Добавлены тестовые рабочие процессы и фиксированные незначительные ошибки.
22 октября:
- Исправлены проблемы с DockerFile для более плавного развертывания.
21 октября:
- Перепроектированный Readme: улучшенное расширение шепота, добавленные изменчивы в августе, сентябрь и октябрь, обновленные снимки экрана и реорганизованный контент.
19 октября:
- Фиксированные журналы расширения и добавлены новые расширения.
18 октября:
- Усовершенствования системы: форматированный проект, фиксированные
xformers+cuda
, добавленная система журнала, кнопка расширения удаления и расширение F5 TTS.
16 октября:
- Первая установка теперь использует
pip
вместо uv
. - Удлиняется крупная версия и фиксированная Google Colab.
- Добавлен запасной запас до стабильного звука.
- Исправлены Demucs, измененный порт Postgres.
- Установка
huggingface_hub
и загрузчик коры. - Основные обновления: переключается на Gradio 5, ленивая загрузка для вкладок, фиксации Docker, оптимизированная скорость пользовательского интерфейса, добавленная функция .env.user, улучшенные журналы и обновленные расширения пользовательского интерфейса React.
3 октября:
- Исправлена вкладка «Информация о графическом процессоре» и добавлена
nvidia-ml-py
. - Создан обходной путь для AudioCraft Установить ошибку.
- Исправлена автоматическая установка MSVC и установить сервер на
127.0.0.1
. - Фиксированный путь
.git_version
и удаление iconv
для устранения требования node-gyp
. - Улучшенная обработка ошибок установщика с добавлением хэш -ведома с добавлением обновления.
- Обновленный node.js до 22.9.0, добавлена поддержка PostgreSQL, сгруппированные вкладки в react UI.
Сентябрь 2024 года
Нажмите, чтобы расширить
23 сентября:
- Автоматически используйте CUDA для MMS.
22 сентября:
- Добавлено расширение метаданных FFMPEG для реагирования пользовательского интерфейса.
- Добавлено моно-только уведомление для маха.
- Hotfix, чтобы избежать узела 20.17.0. Ошибка установки.
21 сентября:
- Добавлена стабильная демонстрация звука для реагирования пользовательского интерфейса.
- Улучшенная компоновка пользовательского интерфейса.
19 сентября:
- Обновленный визуальный вид react ui с новыми ползунками и лучшим макетом.
- Оптимизированный пользовательский интерфейс RVC, фиксированный колаб и добавил командное поле поиска.
- Обновление Node.js до 20.17.0.
2 сентября:
- Исправлен Dockerfile и обновлен Docker-compose.yml.
- Исправлена ошибка при загрузке NPZ.
Август 2024
Нажмите, чтобы расширить
31 августа:
- Обновление модели модели структуры декораторов.
- Переносили файлы Python из
src
в папку tts_webui
. - Переписать вкладку MusicGen и исправленные связанные ошибки.
20 августа:
- Модернизировано до Gradio 4 и добавили тему.
- Добавлена модель загрузки сообщений для черепахи.
- Фиксированный RVC REACTUI.
- Рефакторированные гиперпараметры.
- Добавлено управление в список расширений, XTTS-Simple расширение.
5 августа:
- Исправьте кору в react ui, добавьте максимальную продолжительность генерации.
- Изменить каталог AudioCraft Plus Extension Models на ./data/models/audiocraft_plus/
- Улучшить модель разгрузки для MusicGen и AudioGen. Добавить кнопку моделей Unload в MusicGen и AudioGen.
- Добавить расширение Mangerceface Cache Manager.
4 августа:
- Добавить расширение XTTS-RVC-UI, XTTS Fine-Muning Demo Extension.
3 августа:
- Добавить расширение рифузии, расширение Audiocraft Mac, расширение Legacy Bark.
2 августа:
- Добавьте предупреждение об искоренении старому установщику.
- Объедините обработку ошибок и упростите загрузку вкладки.
1 августа:
- Добавьте кнопку «Обновление попытки» для внешних расширений.
- Пропустить переустановку пакетов, когда версия PIP_Packages не изменяется.
- Синхронизируйте порт Gradio с помощью react ui.
- Изменить порт по умолчанию на 7770 с 7860.
Июль 2024 г.
Нажмите, чтобы расширить
31 июля:
- Исправить React In UI MusicGen после изменения градио.
- Добавьте кнопку выгрузки, чтобы прошептать расширение.
29 июля:
- Измените ffmpeg на 4.4.2 от Conda-Forge, чтобы поддержать больше платформ, включая Mac M1.
- Отключить CVVP черепахи.
26 июля:
- Прозрачное расширение
- Экспериментальная поддержка AMD ROCM Установка. (Только Linux)
25 июля:
- Добавьте диагностические сценарии для MacOS и Linux.
- Добавьте лучшие данные ошибки для вкладок.
- Исправлена разрешения на выполнение сценариев для установщиков на Linux и MacOS.
21 июля:
- Добавить расширение истории галереи (адаптировано из старой вида галереи)
- Преобразовать простой ремиксер в расширение
- Исправить update.py для использования более новых версий Torch (Update.py предназначен только для устаревших целей и, вероятно, сломается)
- Добавьте сценарии диагностического сценария и принудительно переустановить сценарии для Windows.
20 июля:
- Исправлена ссылка на Discord Join
- Упростить кору дальше, удалив чрезмерную сложность в коде.
- Добавить UI/модульные расширения, эти расширения позволяют устанавливать новые модели и функции в пользовательский интерфейс. В будущем модели начнутся как расширения, прежде чем будут добавлены постоянно.
- Отключить представление галереи в выходе
- Известная проблема: Firefox не удается, показывая выходы в Gradio, он не удается при извлечении их из бэкэнда. В рамках React UI это работает нормально.
15 июля:
- Комментарий. Поскольку пользовательский интерфейс React уже давно вышел, пользователь Gradio будет иметь роль в обслуживании только функций пользователю без чрезвычайно сложного пользовательского интерфейса, с которым он не может справиться. Существует реальная нехватка времени разработки, чтобы добавить новые модели и функции, но старый стиль интеграции не был жизнеспособным. Поскольку определяются новые API и «роль модели», можно будет иметь расширения для целых моделей, что обеспечивает гораздо большую гибкость и более легкие установки.
- Начните масштабировать сложность пользовательского интерфейса Gradio - удаленная отправить в кнопки RVC/Demucs/Voice . (Удалите внутренний компонент joutai).
- Добавьте version.json для лучших обновлений в будущем.
- Уменьшите максимальное количество выходов коры Gradio до 1.
- Добавьте кнопку модели Unload в Tortoise, также выгрузите модель перед загрузкой следующей/изменяющие параметры, поэтому черепаха больше не использует память 2x модели во время изменения настроек.
14 июля:
- Перегруппировать вкладки Gradio в группы - текст в речь, преобразование звука, генерация музыки, выходы и настройки
- Очистите заголовок, добавьте ссылку для обратной связи
- Добавить контроль семян в стабильный звук
- Исправьте стабильную ошибку имени аудио -файла с новыми линиями
- Отключить вкладку «простой ремиксер» Gradio
- Исправить кори -голос клон и RVC еще раз
- Добавить вкладку «Установленные пакеты» для отладки
13 июля:
- Основное обновление до Torch 2.3.1 и Xformers 0,0,27
- Все пользователи, включая Mac и CPU, теперь будут иметь одинаковую версию Pytorch.
- Обновить CUDA до 11,8
- Force Python будет 3.10.11
- Измените установщик, чтобы разрешить модернизацию Python и Torch без переустановки (в настоящее время основная версия 2)
- Исправить магнитные параметры по умолчанию для лучшего качества
- Улучшить проверки сценариев установщика, чтобы избежать ошибок
- Обновление Styletts2
11 июля:
- Улучшить стабильные имена файлов генерации звука
- Добавить силу переустановить в ремонт факела
- Сделайте установщик автоматическим обновлением перед запуском
9 июля:
- Исправьте новые инструкции по установке и установку благодаря https://github.com/xeraster!
8 июля:
- Измените процесс установки, чтобы уменьшить столкновения с пакетами и включить гибкость версии Torch.
6 июля:
- Первоначальный выпуск нового установщика на базе Мамба.
- Сохраните стабильные результаты аудио в папке Outputs-RVC/StableAudio.
- Добавьте отказ от ответственности в стабильный выбор звуковой модели и покажите лучшие сообщения об ошибках, когда файлы отсутствуют.
1 июля:
- Оптимизировать стабильное использование аудио памяти после генерации.
- Откройте пользовательский интерфейс React автоматически, только если Gradio также открывается автоматически.
- Удалите ненужную переустановку Conda Git.
- Обновление до последнего стабильного звука, которое имеет поддержку MPS (требует более новых версий Torch).
Июнь 2024 года
Нажмите, чтобы расширить
22 июня: * Добавить стабильный звук в Грейо. 21 июня:
- Добавьте демо Vall-Ex, чтобы отреагировать пользовательский интерфейс.
- Откройте пользовательский интерфейс React автоматически в браузере, снова исправьте ссылку.
- Добавьте раскол по длине, чтобы отреагировать/черепаха.
- Исправьте демо -папки UVR5.
- Установите версию Fairseq на 0,12,2 для Linux и Mac. (#323)
- Улучшить историю поколения для всех вкладок React UI.
17 мая:
- Исправить пресеты черепахи в react ui.
9 мая:
- Добавьте MMS, чтобы отреагировать пользовательский интерфейс.
- Улучшить пользовательский интерфейс React и Codebase.
4 мая:
- Group Changelog по месяцу
Апрель 2024 г.
Нажмите, чтобы расширить
28 апреля: * Добавьте маха -ттс, чтобы отреагировать пользовательский интерфейс. * Добавьте информацию GPU, чтобы отреагировать пользовательский интерфейс. 6 апреля:
- Добавить вкладку демо-версии Vall-EX.
- Добавить вкладку Demo MMS.
- Добавить вкладку Demo TTS.
- Добавить Demo вкладку Styletts2.
5 апреля:
- Исправьте ошибку установки RVC.
- Добавьте базовую демо -вкладку UVR5.
4 апреля:
- Обновите RVC, чтобы включить RVMPE и FCPE. Удалите прямой вход файла для моделей и индексов из -за дублирования файла. Улучшение интерфейса пользовательского интерфейса React для RVC.
Март 2024 г.
Нажмите, чтобы расширить
28 марта:
- Добавить вкладку GPU Info
27 марта:
- Добавить информацию о клонировании голоса в клон в TAB Voice
26 марта:
- Добавить демо -блокнот Maha TTS
22 марта:
- Vall-e x demo через ноутбук (#292)
- Добавить React UI в Docker Image
- Добавьте установить отказ от ответственности
16 марта:
- Обновление Vocos до 0,1,0
14 марта:
- DEMO DEMO NOTEPBOOта СТИЛТС2
13 марта:
- Добавьте экспериментальный трубопровод (кора / черепаха / MusicGen / Audiogen / Magnet -> RVC / Demucs / Vocos) (#287)
- Исправьте ошибку RVC с перезагрузкой модели на каждом поколении. Для коротких входов, которые приводят к видимому ускорению.
11 марта:
- Добавьте воспроизведение как звук и сохранить в голосах в кору (#286)
- Измените UX, чтобы показать, что файлы удалены из фаворитов
- Исправить изображения для голосов коры, не показывающих
- Исправить воспроизведение звука в любимые
10 марта:
- Добавить пакетирование, чтобы отреагировать магнит пользовательского интерфейса (#283)
- Добавить звук в перевод аудио в SeamlessM4T (#284)
5 марта:
- Добавьте пакет, чтобы отреагировать UI MusicGen (#281), благодаря https://github.com/aamir3d за запрос об этом и предоставил обратную связь.
3 марта:
- Добавить демо MMS в качестве ноутбука
- Добавить Multibanddiffusion High VRAM Отказ от ответственности
Февраль 2024 г.
Нажмите, чтобы расширить
21 февраля:
- Исправить контейнер Docker и ошибка с Docker-Audiocraft
8 февраля:
- Исправить мультизанддиффузии для стерео -моделей MusicGen, спасибо https://github.com/mykeehu
- Fix Node.js Шаги установки в Google Colab, код по https://github.com/miaohf
6 февраля:
- Добавить расширение генерации файлов FLAC на https://github.com/joachip
Январь 2024 года
Нажмите, чтобы расширить
21 января:
- Добавьте сценарий автоматического обновления CPU/M1 с каждым обновлением. Чтобы отключить, редактировать check_cuda.py и изменить force_no_repair = true
16 января:
- Обновление MusicGen, добавление поддержки для моделей стерео и больших мелодий
- Добавить магнит
15 января:
- Обновление Gradio до 3,48,0
- Появилось несколько визуальных ошибок, если они имеют решающее значение, сообщите о них или понизите Gradio.
- GREDIO: подавлять бесполезные предупреждения
- SUPRESS TRITON предупреждения
- Gradio-Bark: исправить «Использовать поведение последнего поколения в качестве истории», пустой выбор больше не ошибок
- Улучшить дисплей для погрузчиков расширений
- Обновление трансформаторов до 4.36.1 с 4.31.0
- Добавить демонстрацию SeamlessM4T
14 января:
- React UI: исправить ошибки пропущенных каталогов
13 января:
- React UI: Исправьте отсутствие шага сборки NPM из автоматической установки
12 января:
- React UI: Исправлены имена для аудио -действий
- Gradio: исправить несколько предупреждений API
- Интеграция - React UI Now запускается вместе с Gradio, со ссылкой, чтобы открыть его
11 января:
- React UI: Сделайте сборку без каких -либо ошибок
9 января:
- React UI
- Исправить 404 обработчик для Wavesurfer
- Групповая кора вместе
8 января:
2023
Нажмите, чтобы расширить
Октябрь 2023 года
26 октября:
- Улучшить выбор модели UX для MusicGen
24 октября:
- Добавить начальный пользовательский интерфейс React для MusicGen и DeMucs (#202)
- Исправить кору дрифтинг семян длинного поколения (спасибо https://github.com/520pig520)
Сентябрь 2023 года
21 сентября:
- Кора: Добавить продолжайте как кнопку семантической истории
- Переключитесь на хранение изображений GitHub Docker, новое изображение Docker:
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- Исправить опцию Server_port в конфигурации #168, благодаря https://github.com/dartvauder
9 сентября:
- Исправлена командная строка XDG-OPEN, спасибо https://github.com/jfronny
- Исправить многослойные поколения коры, спасибо https://github.com/slack-t и https://github.com/bkutasi
- Добавить кнопку модели Unload в Bark, как запрошено https://github.com/aamir3d
- Добавить подробности коры в readme_bark.md по запросу https://github.com/maki9009
- Добавить «необязательно», чтобы сгореть в приглашении, благодаря https://github.com/maki9009
5 сентября:
- Добавить микширование голоса в кору
- Добавьте v1 сжигать в приглашении к кору (Burn in подсказок предназначена для руководства семантической моделью, не тратя время на создание звука. V1 работает, генерируя семантические токены, а затем используя ее в качестве подсказки для семантической модели.)
- Добавить ограничитель длины поколения в кору
Август 2023 года
27 августа:
- Исправить музыку, игнорируя мелодию #153
26 августа:
- Добавить отправить в RVC, Demucs, кнопки Vocos to Bark и Vocos
24 августа:
- Добавить дату в выходы RVC, чтобы исправить #147
- Исправить Safetensors отсутствует колесо
- Добавить отправить в Demucs кнопку в MusicGen
21 августа:
- Добавить установку Torchvision в Colab для MusicGen Issues Fix
- Удалить регистрацию файлов RVC_TAB
20 августа:
- Исправить MBD путем переустановки Hydra-Core в конце обновления
18 августа:
- CI: Добавьте действие GitHub для автоматической публикации изображения Docker.
16 августа:
- Добавить «имя» в параметры генерации черепахи
15 августа:
- Приколоть факел до 2.0.0 во всех файлах требований.txt
- Убить версии аудиокрафта и коры
- Удалить фиксацию трансформаторов черепахи из Colab
- Обновление черепахи до 2.8.0
13 августа:
- Потенциально большое исправление для новых пользовательских установок, у которых были проблемы с не поддержанным графическим процессором.
11 августа:
- Tortoise Hotfix спасибо Манмей-Нахаши
- Добавить опцию черепахи, чтобы изменить токенизатор
8 августа:
- Обновление аудиокрафта, улучшение производительности мультибанддифузии
- Исправить параметр черепахи «cond_free» несоответствие с помощью Preset 'ultra_fast'
7 августа:
- Добавить пояснение DeepSpeed черепах в колаб
6 августа:
- Исправить ошибку AudioGen + MBD, добавьте исправление черепахи для colab
4 августа:
- Добавить опцию Multibanddiffusion в MusicGen #109
- MusicGen/Audiogen Save Tokens на генерации в качестве файлов .npz.
3 августа:
2 августа:
- Исправьте модель местоположения, не отображаемые после перезапуска
Июль 2023 г.
26 июля:
- Голосовая галерея
- Голосовая обрезка
- Исправить голос переименование, также переименовать изображение, добавить хэш -текстовое поле
- Простая загрузка голосов (#98)
24 июля:
- Изменить формат файла коры, чтобы включить историю хэш: ... продолжение
23 июля:
- Docker Image Спасибо https://github.com/jonfairbanks
- Улучшения именования пользовательского интерфейса RVC
21 июля:
- Исправить Хьюберт не работает только с процессором (#87)
- Добавить демо -версию Google Colab (#88)
- Вкладка «Новые настройки» и «Местоположения моделей» (для продвинутых пользователей) (#90)
19 июля:
- Добавьте оптимизации черепахи, спасибо https://github.com/manmay-nakhashi #79 (реализация № 18)
16 июля:
- Голосовое фото демонстрация
- Добавьте каталог для хранения моделей/индексов RVC и выпадающих
- Обходной путь RVC Не уважая is_half для процессора № 74
- Улучшения выбора черепахи и голоса #73
10 июля:
9 июля:
- RVC Demo + Tortoise, V6 -установщик с скриптом обновлений и автоматическими попытками установить дополнительные модули #66
5 июля:
- Улучшенный установщик V5 - быстрее и более надежно #63
2 июля:
- Обновите настройки коры № 59
1 июля:
Июнь 2023 года
29 июня:
- Черепаха Новые Парамы № 54
27 июня:
- Исправить жесткие ошибки загрузки, Refactor #50
20 июня
- Tortoise: правильные файлы генерации длинных форм № 46
19 июня
18 июня:
- Обновление до новейшего аудиократа, добавьте более длинные поколения
14 июня:
- Добавить Vocos Wav Tab #42
5 июня:
- Исправить кнопку «Сохранить в фаворитах» на странице генерации коры, очистите консоль (v4.1.1)
- Добавьте вкладку «Коллекции» для управления несколькими различными наборами данных и более легким вареньем.
4 июня:
- Обновление до V4.1 - Улучшенная хэш -функция, улучшения кода
3 июня:
- Обновление до V4 - Новая структура вывода, улучшенное представление истории, реорганизация кодовой базы, улучшенные метаданные, поддержка выходных расширений
Май 2023 г.
21 мая:
- Обновление до V3 - демонстрация голосового клона
17 мая:
- Обновление до V2 - генерируйте результаты по мере их появления, предварительно просмотрите длинные приглашения. Производители по частям, включите до 9 выходов, настройки пользовательского интерфейса
16 мая:
- Добавить вкладку «Настройки Gradio», исправить ошибки Gradio в консоли, улучшить ведение журнала.
- Обновление истории и фаворитов с кнопками «Использовать как голос» и «Сохранить голос»
- Добавить вкладку «Голоса»
- Вкладка коры: удалить "или использовать последнее поколение в качестве истории"
- Улучшить организацию кода
13 мая:
- Включить детерминированную генерацию и улучшить сгенерированные журналы. Кредиты Suno-AI/BARK#175.
10 мая:
- Обеспечить возможность повторного использования подсказок истории от старших поколений. Сохранить поколения в виде файлов NPZ. Добавьте удобный метод повторного использования любого из последних 3 поколений для следующих подсказок. Добавьте кнопку для сохранения и сбора подсказок истории под /голоса. #10
4 мая:
- Поколение длинной формы (кредиты на https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb и suno-ai/bark#161)
- Адаптироваться к фиксированной ошибке env var
3 мая:
- Улучшенный пользовательский интерфейс черепахи: настройки голоса, предустановки и CVVP, а также способность генерировать 3 результата (#6)
2 мая:
- Добавлена поддержка рециплиунга истории, чтобы продолжить более длительные подсказки вручную
- Добавлена поддержка подсказок V2
До:
- Добавлена поддержка Tortoise TTS
Обновление (для старых установков)
В случае проблем не стесняйтесь обращаться к разработчикам .
Нажмите, чтобы расширить
Обновление с V6 до нового установщика
Рекомендуется: свежая установка
- Загрузите новую версию и запустите start_tts_webui.bat (windows) или start_tts_webui.sh (macos, linux)
- Как только он будет закончен, закройте сервер.
- Рекомендуется: скопируйте старые поколения в новый каталог, такой как фавориты/ выходы/ выходы-RVC/ Models/ Collections/ config.json
- С осторожностью: вы можете скопировать весь новый каталог TTS-Generation-Webui над старым, но могут быть утерянные старые файлы.
Обновление на месте, может удалить некоторые файлы, настройки
- Обновите существующую установку, используя скрипт платформы Update_
- После обновления запустить новый start_tts_webui.bat (windows) или start_tts_webui.sh (macos, linux) внутри каталога TTS-Generation-Webui
- Как только сервер запускается, проверьте, работает ли он.
- С осторожностью: если новый сервер работает, в каталоге с одним клик-инсталлерами, удалите Old Installer_files.
Есть ли более оптимальный способ сделать это?
Не совсем, зависимости сталкиваются, особенно между Conda и Python (и зависимости уже находятся в критическом состоянии, перемещение их в Conda - это путь). Поэтому, хотя можно было бы просто заменить старый установщик на новое и запустив обновление, проблемы непредсказуемы и нефиксируемы . Создание обновления для установщика требует много тестирования, так что это не было сделано легкомысленно.
Установка
- Загрузите последнюю версию и извлеките ее.
- Запустите start_tts_webui.bat или start_tts_webui.sh, чтобы запустить сервер. Он попросит вас выбрать используемый GPU/чип. Как только все будет установлено, он запустит сервер Gradio по адресу http: // localhost: 7770 и react ui по адресу http: // localhost: 3000.
- Выходной журнал будет доступен в файле Installer_scripts/output.log.
Ручная установка (не рекомендуется)
Эти инструкции могут не отражать все последние исправления и корректировки, но могут быть полезны в качестве ссылки для отладки или понимания того, что делает установщик. Надеемся, что они могут стать основой для поддержки новых платформ, таких как AMD/Intel.
Установить Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Установите Visual Studio Compiler/Visual Studio Build In Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Установите среду: conda create -n venv
Установите git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
а) либо продолжить сценарий установщика
- активируйте окружающую среду:
conda activate venv
и -
(venv) node installer_scriptsinit_app.js
- Затем запустите сервер с
(venv) python server.py
б) или установить требования вручную
- Установите Pytorch с CUDA или CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
ЦП/Mac -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
для cuda
- Clone the Repo:
git clone https://github.com/rsxdalv/tts-generation-webui.git
- Установите требования:
- Установите все требования*.txt (этот список может быть обновлен, проверьте https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- Построить приложение React:
(venv) cd react-ui && npm install && npm run build
- (Необязательно) Настройка базы данных:
(venv) node installer_scripts/js/applyDatabaseConfig.js
- Запустите сервер:
(venv) python server.py
React UI
- Установите Nodejs (если еще не установлен с Conda)
- Установить зависимости React:
npm install
- Build React:
npm run build
- Запустить React:
npm start
- Также запустите Server Python:
python server.py
или с помощью скрипта start_tts_webui
Настройка Docker
TTS-Generation-Webui также может быть проведен внутри контейнера Docker. Чтобы начать, вытащите изображение из реестра контейнеров GitHub:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
После того, как изображение было вытянуто, его можно запустить с Docker Compose:
Контейнер займет некоторое время для создания первого вывода, когда модели загружаются в фоновом режиме. Статус этой загрузки можно проверить, проверив журналы контейнеров:
docker logs tts-generation-webui
Создание изображения самостоятельно
Если вы хотите построить свой собственный контейнер Docker, вы можете использовать прилагаемый Dockerfile:
docker build -t tts-generation-webui .
Обратите внимание, что докер-компонат необходимо отредактировать для использования только что созданного изображения.
Дополнительные голоса за кору, приглашенные образцы
Кора Ридме
Readme_bark.md
Информация об управлении моделями, кэшами и системным пространством для проектов искусственного интеллекта
#186 (ответ в ветке)
Библиотеки с открытым исходным кодом
Этот проект использует следующие библиотеки с открытым исходным кодом:
Suno -Ai/Cark - MIT Лицензия
- Описание: код вывода для модели коры.
- Репозиторий: Суно/Кора
Tortoise-TTS -лицензия Apache-2.0
- Описание: Гибкая библиотека синтеза текста в речь для различных платформ.
- Репозиторий: Neonbjb/tortoise-tts
FFMPEG - лицензия LGPL
- Описание: полное и кроссплатформенное решение для обработки видео и аудио.
- Репозиторий: ffmpeg
- Использование: кодирование файлов vorbis ogg
FFMPEG -Python - Apache 2.0 Лицензия
- Описание: Привязки Python для библиотеки FFMPEG для обработки мультимедийных файлов.
- Репозиторий: Kkroening/ffmpeg-python
Аудидиокрафт - лицензия MIT
- Описание: библиотека для генерации аудио и MusicGen.
- Репозиторий: FacebookResearch/AudioCraft
Vocos - MIT Лицензия
- Описание: Улучшенный декодер для образцов ENCODEC
- Репозиторий: характер-платформ/Vocos
RVC - лицензия MIT
- Описание: Простая в использовании структуру преобразования голоса на основе VIT.
- Репозиторий: RVC-проект/поиск на основе Voice-Conversion-Webui
Этическое и ответственное использование
Эта технология предназначена для обеспечения и творчества, а не для вреда.
Взаимодействуя с этой моделью ИИ, вы признаете и соглашаетесь соблюдать эти руководящие принципы, используя модель ИИ ответственным, этическим и юридическим способом.
- Несоответствующее намерение: не используйте эту модель ИИ для вредоносных, вредных или незаконных действий. Его следует использовать только в законных и этических целях, которые способствуют позитивному вовлечению, обмену знаниями и конструктивным разговорам.
- Нет подражания: не используйте эту модель ИИ, чтобы выдать себя за себя или искажать себя как кто -то другой, включая отдельных лиц, организации или организации. Это не должно использоваться для обмана, обмана или манипулирования другим.
- Нет мошеннических действий: эта модель ИИ не должна использоваться для мошеннических целей, таких как финансовые мошенничества, попытки фишинга или любая форма обманчивых практик, направленных на получение конфиденциальной информации, денежно -кредитной выгоды или несанкционированного доступа к системам.
- Правовое соответствие: убедитесь, что использование вашей модели ИИ соответствует применимым законам, правилам и политикам, касающимся использования ИИ, защиты данных, конфиденциальности, интеллектуальной собственности и любых других соответствующих юридических обязательств в вашей юрисдикции.
- Благодарность: в взаимодействии с этой моделью ИИ вы признаете и соглашаетесь соблюдать эти руководящие принципы, используя модель ИИ ответственным, этическим и юридическим способом.
Лицензия
Кодовая база и зависимости
Кодовая база лицензирована в соответствии с MIT. Тем не менее, важно отметить, что при установке зависимостей вы также будете подвергаться их соответствующим лицензиям. Хотя большинство из этих лицензий разрешают, могут быть некоторые, которые не так. Поэтому важно понимать, что разрешительная лицензия применяется только к самой кодовой базе, а не на весь проект.
При этом цель состоит в том, чтобы поддерживать совместимость с MIT на протяжении всего проекта. Если вы сталкиваетесь с зависимостью, которая не совместима с лицензией MIT, пожалуйста, не стесняйтесь открывать проблему и довести ее до нашего внимания.
Известные непермиссивные зависимости:
Библиотека | Лицензия | Примечания |
---|
encodec | CC BY-NC 4.0 | Новые версии - это MIT, но их необходимо установить вручную |
Diffq | CC BY-NC 4.0 | Необязательно в будущем, не обязательно для запуска, может быть удален, должен быть обновлен с помощью Demucs |
хромат | Лицензия GPL | Будущие версии сделают его LGPL, но должны быть установлены вручную |
Unidecode | Лицензия GPL | Не критическая миссия, может быть заменена другой библиотекой, выпуск: Neonbjb/tortoise-tts#494 |
Веса модели
Веса модели имеют разные лицензии, пожалуйста, обратите внимание на лицензию модели, которую вы используете.
В частности:
- Кора: MIT
- Tortoise: неизвестно (Apache-2.0 в соответствии с репо, но нет лицензионного файла в Huggingface)
- MusicGen: CC By-NC 4.0
- Audiogen: CC By-NC 4.0
Совместимость / ошибки
Аудидиократ в настоящее время совместим только с Linux и Windows. Поддержка MacOS все еще не прибыла, хотя можно было бы установить вручную.
Факел переустановлен
Из -за ограничений диспетчера пакетов Python (PIP) факел может быть переустановлен несколько раз. Это широкая проблема PIP и TORCH.
Красные сообщения в консоли
Эти сообщения:
---- requires ----, but you have ---- which is incompatible.
Совершенно нормальные. Это как ограничение PIP, так и потому, что этот веб -интерфейс объединяет множество различных проектов искусственного интеллекта. Поскольку проекты не всегда совместимы друг с другом, они будут жаловаться на другие проекты. Это нормально и ожидается. И, в конце концов, несмотря на предупреждения/ошибки, проекты будут работать вместе. Не ясно, будет ли эта ситуация когда -либо разрешаемой, но это надежда.