tts generation webui 다운로드 -TTS tts generation webui 소스 코드 다운로드

tts generation webui

기타 소스코드

1.0.0

다운로드

TTS Generation Webui / Harmonica

Installer || 다운로드 설치 || 도커 설정 || 피드백 / 버그 보고서

비디오

모델

텍스트 음성	오디오/음악 생성	오디오 변환/도구
짖다	MusicGen	RVC
남생이	자석	demucs
마하 tts	안정적인 오디오	직업
MMS	(확장) Riffusion	속삭임
Vall-e x	(확장) Audiocraft Mac
Styletts2	(확장) Audiocraft Plus
Seamlessm4t
(확장) XTTSV2
(확장) Mars5
(확장) f5-tts
(확장) Parler tts

예

Bark.narration.mp4	Bark.japanese.mp4	musicgen.mp4

스크린 샷

changelog

Nov 23:

더 나은 PIP 호환성을 위해 Linux FairSeq 휠을 추가하십시오.

Nov 22:

바퀴로 전환하고 원샷 설치 프롬프트를 추가하십시오.

Nov 15:

Gradio 5.5.0으로 업그레이드, Edd Enhance (#420)

Nov 14:

실험 Windows Deepspeed Wheel을 추가하십시오.
음성 복제를 짖는 언어를 더 추가하십시오.

Nov 11:

설치 충돌을 줄이고 업데이트 속도를 높이기 위해 Windows의 고정 된 FairSeQ 버전으로 전환하십시오.

2024 년 10 월

10 월 28 일 :

토치 용 설치 프로그램 테스트, 모델 다운로더 및 PIP CPU 전용 옵션이 추가되었습니다.

Oct 24:

버그로 인해 Gradio를 5.1.0으로 다운 그레이드했습니다.
테스트 워크 플로 및 고정 사소한 버그가 추가되었습니다.

Oct 22:

더 부드러운 배포를 위해 Dockerfile 문제를 수정했습니다.

Oct 21:

재 설계된 readme : 개선 된 Whisper Extension, 8 월, 9 월 및 10 월의 Changelogs, 업데이트 된 스크린 샷 및 재구성 된 컨텐츠를 추가했습니다.

Oct 19:

확장 로그 고정 및 새로운 확장 기능이 추가되었습니다.

Oct 18:

시스템 개선 : 포맷 된 프로젝트, 고정 xformers+cuda 설치, 추가 로그 시스템, 확장 확장 버튼을 제거 및 F5 TTS 확장.

Oct 16:

첫 번째 설치는 이제 uv 대신 pip 사용합니다.
주요 버전을 부딪 히고 Google Colab을 고정했습니다.
안정적인 오디오에 PIP 폴백이 추가되었습니다.
고정 Demucs, 변경된 Postgres 포트.
huggingface_hub 설치 및 껍질 모델 로더를 고정했습니다.
주요 업그레이드 : Gradio 5로 전환, 탭 용 게으른로드, Docker 수정, 최적화 UI 속도, 추가 .env.user 기능, 개선 된 로그 및 업그레이드 된 React UI 확장 기능.

Oct 3:

GPU 정보 탭을 수정하고 nvidia-ml-py 추가했습니다.
Audiocraft 설치 버그를위한 해결 방법을 만들었습니다.
자동 MSVC를 수정하여 서버를 127.0.0.1 로 설치하고 설정했습니다.
.git_version 경로 고정 및 iconv 제거하여 node-gyp 요구 사항을 제거했습니다.
설치자 오류 처리가 향상되고 추가 업그레이드 해시 로깅이 추가되었습니다.
Node.js를 22.9.0으로 업그레이드하고 PostgreSQL 지원이 추가되고 React UI의 그룹화 된 탭.

2024 년 9 월

확장하려면 클릭하십시오

9 월 23 일 :

MMS 용 Cuda를 자동으로 사용하십시오.

9 월 22 일 :

반응 UI에 FFMPEG 메타 데이터 확장을 추가했습니다.
Maha TTS에 대한 단일 전용 통지가 추가되었습니다.
노드 20.17.0 설치 실패를 피하기위한 핫픽스.

9 월 21 일 :

UI에 반응하기 위해 안정적인 오디오 데모를 추가했습니다.
UI 레이아웃이 향상되었습니다.

9 월 19 일 :

새로운 슬라이더와 더 나은 레이아웃으로 업그레이드 된 React UI Visual Look.
RVC UI, 고정 Colab 및 검색 명령 상자를 추가했습니다.
Node.js를 20.17.0으로 업그레이드하십시오.

9 월 2 일 :

Dockerfile 및 업데이트 된 Docker-Compose.yml을 수정했습니다.
NPZ 로딩에서 버그가 수정되었습니다.

2024 년 8 월

확장하려면 클릭하십시오

Aug 31:

데코레이터에 대한 모델 추론 프레임 워크 업그레이드.
Python 파일을 src 에서 tts_webui 폴더로 이동했습니다.
MusicGen 탭과 고정 관련 버그를 다시 작성하십시오.

Aug 20:

Gradio 4로 업그레이드하고 테마가 추가되었습니다.
거북이에 대한 모델 로딩 메시지가 추가되었습니다.
고정 Reactui의 RVC.
하이퍼 파라미터를 재 활성화합니다.
확장 목록에 관리가 추가되었습니다.

Aug 5:

React UI에서 껍질을 고정하고 최대 생성 기간을 추가하십시오.
Audiocraft Plus Extension Model Directory를 ./data/models/audiocraft_plus/로 변경하십시오.
Musicgen 및 Audiogen의 모델 언 로딩을 향상시킵니다. MusicGen 및 Audiogen에 언로드 모델 버튼을 추가하십시오.
Huggingface Cache Manager Extension을 추가하십시오.

Aug 4:

XTTS-RVC-UI Extension, XTTS 미세 조정 데모 확장을 추가하십시오.

Aug 3:

Riffusion Extension, Audiocraft Mac 확장, 껍질 레거시 확장을 추가하십시오.

Aug 2:

이전 설치 프로그램에 감가 상각 경고를 추가하십시오.
오류 처리를 통합하고 탭로드를 단순화하십시오.

Aug 1:

외부 확장에 대한 "업데이트 시도"버튼을 추가하십시오.
PIP_PACKAGES 버전이 변경되지 않으면 패키지 재설치를 건너 뜁니다.
Gradio 포트를 React UI와 동기화합니다.
기본 Gradio 포트를 7860에서 7770으로 변경하십시오.

2024 년 7 월

확장하려면 클릭하십시오

July 31:

Gradio가 변경된 후 UI의 MusicGen을 수정하십시오.
속삭임 확장에 언로드 버튼을 추가하십시오.

7 월 29 일 :

Mac M1을 포함한 더 많은 플랫폼을 지원하기 위해 Conda-Forge에서 FFMPEG를 4.4.2로 변경하십시오.
거북이 CVVP를 비활성화합니다.

July 26:

속삭임 확장
실험 AMD ROCM 설치 지원. (Linux 만 해당)

July 25:

MacOS 및 Linux에 대한 진단 스크립트를 추가하십시오.
탭에 더 나은 오류 세부 정보를 추가하십시오.
Linux 및 MacOS의 설치 자에 대한 .sh 스크립트 실행 권한을 수정하십시오.

July 21:

갤러리 기록 확장 추가 (오래된 갤러리보기에서 조정)
간단한 리믹스를 확장으로 변환하십시오
최신 토치 버전을 사용하려면 update.py를 수정하십시오 (update.py
진단 스크립트를 추가하고 Windows 용 스크립트를 다시 설치하십시오.

July 20:

Discord Join 링크를 수정하십시오
코드의 과도한 복잡성을 제거하여 껍질을 더욱 단순화합니다.
UI/Modular Extensions를 추가하면 이러한 확장 기능을 사용하면 새로운 모델과 기능을 UI에 설치할 수 있습니다. 앞으로 모델은 permamly를 추가하기 전에 확장으로 시작할 것입니다.
출력에서 갤러리보기를 비활성화합니다
알려진 문제 : Firefox는 Gradio에 출력을 표시하는 데 실패하며 백엔드에서 가져 오는 데 실패합니다. React UI 내에서 이것은 제대로 작동합니다.

July 15:

의견 - 반응 UI가 오랫동안 나왔기 때문에 Gradio UI는 처리 할 수없는 매우 복잡한 UI없이 사용자에게 기능 만 제공하는 역할을 할 것입니다. 새로운 모델과 기능을 추가하기위한 개발 시간이 실제로 부족하지만 구식 통합은 실용적이지 않았습니다. 새로운 API와 '모델의 역할'이 정의되므로 전체 모델에 대한 확장 기능을 갖추어 더 많은 유연성과 가벼운 설치를 가능하게합니다.
gradio ui 복잡성을 스케일링 시작 - rvc/demucs/음성 버튼으로 보내기 . (내부 구성 요소 Joutai 제거).
향후 더 나은 업데이트를 위해 version.json을 추가하십시오.
Gradio 껍질을 최대 출력 수를 1로 줄입니다.
언로드 모델 버튼을 거북이에 추가하고 다음 매개 변수를로드하기 전에 모델을 언로드하므로 Tortoise는 더 이상 설정 변경 중에 2x 모델 메모리를 사용하지 않습니다.

July 14:

Gradio 탭을 그룹으로 재배치 - 음성, 오디오 변환, 음악 생성, 출력 및 설정
헤더를 정리하고 피드백을 위해 링크를 추가하십시오
안정적인 오디오에 종자 컨트롤을 추가하십시오
Newlines로 안정적인 오디오 파일 이름 버그를 수정하십시오
"Simple Remixer"Gradio 탭을 비활성화하십시오
Bark Voice Clone & RVC를 다시 한 번 수정하십시오
디버깅을 위해 "설치된 패키지"탭을 추가하십시오

July 13:

Torch 2.3.1 및 Xformers 0.0.27로의 주요 업그레이드
- Mac 및 CPU를 포함한 모든 사용자는 이제 동일한 Pytorch 버전을 갖습니다.
CUDA를 11.8로 업그레이드하십시오
파이썬이 3.10.11로 강제
다시 설치하지 않고 Python 및 Torch를 업그레이드 할 수 있도록 설치 프로그램을 수정하십시오 (현재 주요 버전 2)
더 나은 품질을 위해 Magnet Default Params를 수정하십시오
버그를 피하기 위해 설치 프로그램 스크립트 점검을 개선하십시오
Styletts2를 업데이트하십시오

July 11:

안정적인 오디오 생성 파일 이름을 향상시킵니다
토치 수리에 힘을 다시 설치하십시오
실행하기 전에 설치 프로그램을 자동 업데이트하십시오

July 9:

https://github.com/xeraster 덕분에 새로운 설치 프로그램 및 설치 지침을 수정하십시오!

7 월 8 일 :

설치 프로세스를 변경하여 패키지 충돌을 줄이고 토치 버전의 유연성을 활성화하십시오.

7 월 6 일 : : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일

New Mamba 기반 설치 프로그램의 초기 릴리스.
안정적인 오디오 결과를 outputs-RVC/StableAudio 폴더에 저장하십시오.
안정적인 오디오 모델 선택에 면책 조항을 추가하고 파일이 없을 때 더 나은 오류 메시지를 표시하십시오.

July 1:

세대 후 안정적인 오디오 메모리 사용을 최적화하십시오.
Gradio도 자동으로 열리는 경우에만 반응 UI를 자동으로 열 수 있습니다.
불필요한 콘다 git 재설치를 제거하십시오.
MPS가 지원하는 최신 안정 오디오로 업데이트하십시오 (새로운 토치 버전이 필요).

2024 년 6 월

확장하려면 클릭하십시오

6 월 22 일 : * Gradio에 안정적인 오디오를 추가하십시오.

June 21:

Vall-Ex 데모를 추가하여 UI에 반응하십시오.
브라우저에서 자동으로 반응 UI를 열고 링크를 다시 수정하십시오.
반응/거북이에 길이로 분할을 추가하십시오.
UVR5 데모 폴더를 수정하십시오.
Linux 및 Mac의 경우 FairSeQ 버전을 0.12.2로 설정하십시오. (#323)
모든 반응 UI 탭의 세대 기록을 향상시킵니다.

May 17:

React UI에서 거북이 사전 설정을 수정하십시오.

May 9:

UI에 반응하기 위해 MMS를 추가하십시오.
반응 UI 및 코드베이스를 향상시킵니다.

May 4:

월별 그룹 변경

2024 년 4 월

확장하려면 클릭하십시오

4 월 28 일 : * Maha TTS를 추가하여 UI를 반응합니다. * UI에 반응하기 위해 GPU 정보를 추가하십시오.

4 월 6 일 :

Vall-Ex Generation 데모 탭을 추가하십시오.
MMS 데모 탭을 추가하십시오.
Maha TTS 데모 탭을 추가하십시오.
Styletts2 데모 탭을 추가하십시오.

4 월 5 일 :

RVC 설치 버그를 수정하십시오.
기본 UVR5 데모 탭을 추가하십시오.

4 월 4 일 :

RVMPE 및 FCPE를 포함하도록 RVC를 업그레이드하십시오. 파일 복제로 인해 모델 및 인덱스에 대한 직접 파일 입력을 제거하십시오. RVC의 반응 UI 인터페이스를 향상시킵니다.

2024 년 3 월

확장하려면 클릭하십시오

3 월 28 일 :

GPU 정보 탭을 추가하십시오

Mar 27:

음성 복제에 음성 클로닝에 대한 정보를 추가하십시오. 음성 클론

Mar 26:

Maha TTS 데모 노트북을 추가하십시오

Mar 22:

노트북을 통한 Vall-e x 데모 (#292)
반응 UI를 Docker 이미지에 추가하십시오
면책 조항 설치를 추가하십시오

Mar 16:

Vocos를 0.1.0으로 업그레이드하십시오

Mar 14:

Styletts2 데모 노트북

Mar 13:

실험 파이프 라인 추가 (Bark / Tortoise / Musicgen / Audiogen / Magnet-> rvc / demucs / vocos) (#287)
각 생성에서 모델 재 장전으로 RVC 버그를 수정하십시오. 짧은 입력의 경우 눈에 띄는 속도가 향상됩니다.

Mar 11:

오디오로 플레이를 추가하고 목소리로 짖는 소리 (#286)
파일이 즐겨 찾기에서 삭제되었음을 보여주기 위해 UX를 변경합니다.
껍질 음성이 표시되지 않는 이미지를 수정하십시오
즐겨 찾기에서 오디오 재생을 수정하십시오

Mar 10:

UI 자석을 반응하기 위해 배치 추가 (#283)
SeamlessM4T에 오디오 번역에 오디오 추가 (#284)

Mar 5:

https://github.com/aamir3d 덕분 에이 요청을 요청하고 피드백을 제공하는 덕분에 반응 UI MusicGen (#281)에 배치를 추가하십시오.

3 월 3 일 :

노트북으로 MMS 데모를 추가하십시오
MultibDivivence High VRAM 면책 조항을 추가하십시오

2024 년 2 월

확장하려면 클릭하십시오

2 월 21 일 :

Docker-Audiocraft로 Docker 컨테이너 빌드 및 버그를 수정하십시오

2 월 8 일 :

MusicGen의 스테레오 모델에 대한 MultibDiviflusion을 수정하십시오. 감사합니다 https://github.com/mykeehu
Google Colab의 Node.js 설치 단계, https://github.com/miaohf의 코드 수정

2 월 6 일 :

https://github.com/joachip의 FLAC 파일 생성 확장을 추가하십시오

2024 년 1 월

확장하려면 클릭하십시오

Jan 21:

각 업데이트마다 CPU/M1 Torch Auto-Repair 스크립트를 추가하십시오. 비활성화하려면 check_cuda.py를 편집하고 change force_no_repair = true

Jan 16:

MusicGen 업그레이드, 스테레오 및 대형 멜로디 모델에 대한 지원 추가
자석을 추가하십시오

Jan 15:

Gradio를 3.48.0으로 업그레이드했습니다
- 몇 가지 시각적 버그가 나타 났으며, 중요하다면, 그것들을보고하거나 다운 그레이드 그라디오를 신고하십시오.
- Gradio : 쓸모없는 경고를 억제하십시오
트리톤 경고
Gradio-Bark : 수정 "마지막 세대 사용 히스토리로 사용"동작, 빈 선택이 더 이상 오류가 아닙니다.
확장자 로더 디스플레이를 향상시킵니다
변압기를 4.31.0에서 4.36.1로 업그레이드하십시오
SeamlessM4T 데모를 추가하십시오

Jan 14:

반응 UI : 누락 된 디렉토리 오류 수정

Jan 13:

반응 UI : 자동 설치에서 누락 된 NPM 빌드 단계 수정

Jan 12:

반응 UI : 오디오 작업의 이름을 수정하십시오
Gradio : 여러 API 경고를 수정하십시오
통합 -React UI Now는 Gradio와 함께 시작하여 열 수있는 링크가 있습니다.

Jan 11:

반응 UI : 오류없이 빌드 작업을 수행하십시오

Jan 9:

반응 UI
- Wavesurfer의 404 핸들러를 수정하십시오
- 그룹 껍질 탭을 함께 그룹화하십시오

1 월 8 일

릴리스 반응 UI

2023

확장하려면 클릭하십시오

2023 년 10 월

Oct 26:

MusicGen의 모델 선택 UX를 향상시킵니다

Oct 24:

MusicGen 및 Demucs에 대한 초기 React UI 추가 (#202)
수정 껍질 롱 세대 종자 표류 (https://github.com/520pig520 덕분에)

2023 년 9 월

9 월 21 일 :

나무 껍질 : 시맨틱 히스토리 버튼으로 계속 추가하십시오
Github Docker Image Storage, New Docker 이미지로 전환 :
- docker pull ghcr.io/rsxdalv/tts-generation-webui:main
config #168에서 https://github.com/dartvauder 덕분에 Server_port 옵션 수정

9 월 9 일 :

https://github.com/jfronny 덕분에 xdg-open 명령 줄을 수정하십시오
https://github.com/slack-t 및 https://github.com/bkutasi 덕분에 멀티 라인 껍질 세대를 수정하십시오
https://github.com/aamir3d에 의해 요청 된대로 껍질을 껍질을 bark에 하역 버튼 추가
https://github.com/maki9009에서 요청한대로 readme_bark.md에 껍질 세부 사항을 추가하십시오
https://github.com/maki9009 덕분에 "옵션"을 프롬프트로 태우십시오

9 월 5 일 :

껍질에 음성 믹싱을 추가하십시오
v1 화상을 껍질을 벗기기 위해 v1 화상을 추가합니다 (Prompts In Prompts는 오디오를 생성하는 데 시간을 소비하지 않고 의미 론적 모델을 지시하는 것입니다. V1은 시맨틱 토큰을 생성 한 다음 시맨틱 모델의 프롬프트로 사용하여 작동합니다.)
껍질에 생성 길이 리미터를 추가하십시오

2023 년 8 월

Aug 27:

Melody #153을 무시하는 Musicgen을 수정하십시오

Aug 26:

RVC, DEMUCS, VOCOS 버튼에 껍질 및 VOCOS에 보내기

Aug 24:

RVC 출력에 날짜를 추가하여 #147을 수정하십시오
SAFETENSORS 누락 된 휠을 수정하십시오
Demucs 버튼에 MusicGen에 보내기를 추가하십시오

Aug 21:

MusicGen 문제 수정을 위해 Colab에 TorchVision 설치를 추가하십시오
RVC_TAB 파일 로깅을 제거하십시오

Aug 20:

업데이트 끝에 Hydra-Core를 다시 설치하여 MBD 수정

Aug 18:

CI : Docker 이미지를 자동으로 게시하려면 GitHub 작업을 추가하십시오.

Aug 16:

거북이 생성 매개 변수에 "이름"을 추가하십시오

Aug 15:

모든 요구 사항에서 2.0.0으로 토치를 핀으로 핀 .txt 파일
오디오 크래프트 및 껍질 버전
Colab에서 Tortoise Transformers Fix를 제거하십시오
거북이를 2.8.0으로 업데이트하십시오

Aug 13:

GPU가 지원되지 않는 새로운 사용자 설치에 대한 잠재적으로 큰 수정

Aug 11:

Manmay-Nakhashi에게 감사합니다
Tokenizer를 변경하려면 거북이 옵션을 추가하십시오

8 월 8 일

오디오 크래프트를 업데이트하여 멀티 분류 성능을 향상시킵니다
'ultra_fast'사전 설정을 사용하여 거북이 매개 변수 'cond_free'불일치를 수정하십시오

Aug 7:

Colab에 거북이 딥 스피드 수정을 추가하십시오

Aug 6:

Audiogen + MBD 오류 수정, Colab에 대한 Tortoise Fix 추가

Aug 4:

MusicGen #109에 MultibDiviverfusion 옵션을 추가하십시오
MusicGen/Audiogen 세대의 토큰을 .NPZ 파일로 저장합니다.

Aug 3:

Audiogen #105를 추가하십시오

Aug 2:

재시작 후 표시되지 않은 모델 위치를 수정하십시오

2023 년 7 월

July 26:

음성 갤러리
음성 자르기
Voice Voice Bug 이름 이름 바꾸기, 그림 이름도 이름 바꾸기, 해시 텍스트 상자 추가
더 쉬운 음성 다운로드 (#98)

July 24:

히스토리 해시를 포함하도록 껍질 파일 형식을 변경 : ... 계속 _generation ...-> ... From_3EA0D063 ...

July 23:

https://github.com/jonfairbanks 덕분에 Docker Image
RVC UI 이름 지정 개선

July 21:

Hubert 수정 CPU 만 작동하지 않음 (#87)
Google Colab 데모 추가 (#88)
새 설정 탭 및 모델 위치 (고급 사용자의 경우) (#90)

July 19:

거북이 최적화 추가, 감사합니다 https://github.com/manmay-nakhashi #79 (implements #18)

July 16:

음성 사진 데모
RVC 모델/인덱스를 저장하려면 디렉토리 추가 및 드롭 다운
CPU #74에 대한 IS_HALF를 존중하지 않는 해결 방법 RVC
거북이 모델 및 음성 선택 개선 #73

July 10:

Demucs Demo #67

July 9:

RVC Demo + Tortoise, V6 업데이트 스크립트 및 추가 모듈을 설치하려는 자동 시도 #66

July 5:

개선 된 V5 설치 프로그램 - 더 빠르고 신뢰할 수있는 #63

July 2:

껍질 설정 #59 업그레이드

July 1:

스튜디오 탭 #58

2023 년 6 월

6 월 29 일 :

Tortoise New Params #54

6 월 27 일 : 6 월 27 : : 6 월 27 : : 6 월 27 : : : : 6 월 27 : : 6 월 27 : : 6 월 27 : : 6 월 27 : : 6 월 27 : 6 월 27 : 6 월 27 : 6 월 27 : 6 월

열망하는 로딩 오류, 리팩터 #50을 수정하십시오

6 월 20 일

거북이 : 적절한 긴 양식 생성 파일 #46

6 월 19 일

거북이 업그레이드 #45

June 18:

최신 오디오 크래프트로 업데이트하고 더 긴 세대를 추가하십시오

Jun 14:

Vocos Wav Tab #42를 추가하십시오

June 5:

Bark Generation 페이지에서 "즐겨 찾기에 저장"버튼을 수정하고 콘솔 정리 (v4.1.1)
여러 다른 데이터 세트와 더 쉬운 카레지를 관리하기 위해 "컬렉션"탭을 추가하십시오.

June 4:

v4.1로 업데이트 - 개선 된 해시 기능, 코드 개선

6 월 3 일 : : 6 월 3 일 : : 6 월 3 일 : : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일

V4에 대한 업데이트 - 새로운 출력 구조, 개선 된 기록보기, 코드베이스 재구성, 개선 된 메타 데이터, 출력 확장 지원

2023 년 5 월

May 21:

V3- 음성 클론 데모에 대한 업데이트

May 17:

v2에 대한 업데이트 - 결과가 나타나고, 미리보기 긴 프롬프트 세대를 조각으로, 최대 9 개의 출력을 활성화, UI 조정

May 16:

Gradio 설정 탭을 추가하고 콘솔에서 Gradio 오류를 수정하고 로깅을 향상시킵니다.
"음성 사용"및 "음성 저장"버튼으로 기록 및 즐겨 찾기 업데이트
음성 탭을 추가하십시오
껍질 탭 : "마지막 세대를 역사로 사용하거나"제거하십시오.
코드 조직을 향상시킵니다

May 13:

결정 론적 생성을 활성화하고 생성 된 로그를 향상시킵니다. Suno-IA/Bark#175에 대한 크레딧.

May 10:

나이가 많은 세대의 역사 프롬프트를 재사용 할 가능성을 가능하게합니다. 세대를 NPZ 파일로 저장하십시오. 다음 프롬프트에 대해 지난 3 세대를 재사용하는 편리한 방법을 추가하십시오. /음성 아래 /음성을 저장하고 수집하기위한 버튼을 추가하십시오. #10

May 4:

긴 양식 생성 (https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb 및 suno-ai/bark#161에 대한 크레딧)
고정 ENV VAR 버그에 적응하십시오

5 월 3 일

개선 된 거북이 UI : 음성, 사전 설정 및 CVVP 설정뿐만 아니라 3 가지 결과를 생성하는 기능 (#6)

May 2:

수동으로 더 긴 프롬프트를 계속하기 위해 히스토리 리클 리실링에 대한 지원이 추가되었습니다.
V2 프롬프트에 대한 지원이 추가되었습니다

전에:

거북이 TT에 대한 지원이 추가되었습니다

업그레이드 (오래된 설치)

문제가 발생하면 개발자에게 문의하십시오 .

확장하려면 클릭하십시오

V6에서 새로운 설치자로 업그레이드

권장 : 신선한 설치

새 버전을 다운로드하고 start_tts_webui.bat (windows) 또는 start_tts_webui.sh (macos, linux)를 실행하십시오.
완료되면 서버를 닫으십시오.
권장 : 기존 세대를 즐겨 찾기/ 출력/ 출력 RVC/ Models/ Collections/ Config.json과 같은 새 디렉토리에 복사하십시오.
주의해서 : 완전히 새로운 TTS-Generation-Webui 디렉토리를 이전 디렉토리 위에 복사 할 수 있지만 오래된 파일이 손실 될 수 있습니다.

내 업그레이드는 일부 파일을 삭제하고 조정할 수 있습니다

Update_ 플랫폼 스크립트를 사용하여 기존 설치를 업데이트하십시오
업데이트 후 새로운 start_tts_webui.bat (wind
서버가 시작되면 작동하는지 확인하십시오.
주의해서 : 새 서버가 작동하는 경우 원 클릭 인스턴더 디렉토리 내에서 이전 installer_files를 삭제하십시오.

이 작업을 수행하는 더 최적의 방법이 있습니까?

정확히 의존성은 특히 콘다와 파이썬 사이의 의존성 충돌이 아닙니다 (종속성은 이미 중요한 상태에 있으며 콘다로 옮기는 것이 방법입니다). 따라서 이전 설치 프로그램을 새 설치 프로그램으로 바꾸고 업데이트를 실행하는 것이 가능할 수 있지만 문제는 예측할 수없고 고정 할 수 없습니다 . 설치 프로그램을 업데이트하려면 많은 테스트가 필요하므로 가볍게 수행되지 않습니다.

설치

최신 버전을 다운로드하여 추출하십시오.
start_tts_webui.bat 또는 start_tts_webui.sh를 실행하여 서버를 시작하십시오. 사용중인 GPU/칩을 선택하라는 요청을받습니다. 모든 것이 설치되면 http : // localhost : 7770에서 gradio 서버를 시작하고 http : // localhost : 3000에서 react ui를 시작합니다.
출력 로그는 installer_scripts/output.log 파일에서 사용할 수 있습니다.

수동 설치 (권장되지 않음)

이 지침은 모든 최신 수정 및 조정을 반영하지 않을 수 있지만 설치자가하는 일을 디버깅하거나 이해하기위한 참조로 유용 할 수 있습니다. 바라건대 그들은 AMD/Intel과 같은 새로운 플랫폼을 지원하기위한 기초가 될 수 있기를 바랍니다.
Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)를 설치하십시오.
- (Windows) Visual Studio Compiler/Visual Studio 빌드 도구 설치 https://visualstudio.microsoft.com/visual-cpp-build-tools/
환경 설정 : conda create -n venv
설치, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) 설치 프로그램 스크립트를 계속하십시오
- 환경 활성화 : conda activate venv 및
- (venv) node installer_scriptsinit_app.js
- 그런 다음 (venv) python server.py 로 서버를 실행하십시오
b) 또는 요구 사항을 수동으로 설치하십시오
- CUDA 또는 CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch)로 Pytorch를 설정하십시오.
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch for CPU/MAC
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
- 레포를 복제하십시오 : git clone https://github.com/rsxdalv/tts-generation-webui.git
- 요구 사항 설치 :
  - 모든 요구 사항을 설치*.txt (이 목록은 최신 상태가 아닐 수 있습니다. https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40을 확인하십시오) :
    - (venv) pip install -r requirements.txt
    - (venv) pip install -r requirements_audiocraft.txt
    - (venv) pip install -r requirements_bark_hubert_quantizer.txt
    - (venv) pip install -r requirements_rvc.txt
    - (venv) pip install hydra-core==1.3.2
    - (venv) pip install -r requirements_styletts2.txt
    - (venv) pip install -r requirements_vall_e.txt
    - (venv) pip install -r requirements_maha_tts.txt
    - (venv) pip install -r requirements_stable_audio.txt
    - (venv) pip install soundfile==0.12.1
    - (venv) pip install nvidia-ml-py
  - React App 빌드 : (venv) cd react-ui && npm install && npm run build
- (선택 사항) 데이터베이스 설정 : (venv) node installer_scripts/js/applyDatabaseConfig.js
- 서버를 실행하십시오 : (venv) python server.py

반응 UI

Nodejs 설치 (Conda로 아직 설치되지 않은 경우)
React 종속성 설치 : npm install
React 빌드 : npm run build
반응 : npm start
또한 Python Server : python server.py 또는 start_tts_webui 스크립트를 실행합니다.

도커 설정

TTS-Generation-Webui는 Docker 컨테이너 내부에서 도망 칠 수 있습니다. 시작하려면 GitHub 컨테이너 레지스트리에서 이미지를 가져옵니다.

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

이미지가 가져 오면 Docker Compose로 시작할 수 있습니다.

 docker compose up -d

컨테이너는 첫 번째 출력을 생성하는 데 약간의 시간이 걸리고 모델은 백그라운드에서 다운로드됩니다. 이 다운로드의 상태는 컨테이너 로그를 확인하여 확인할 수 있습니다.

 docker logs tts-generation-webui

이미지를 직접 구축합니다

자신의 Docker 컨테이너를 만들려면 포함 된 dockerfile을 사용할 수 있습니다.

 docker build -t tts-generation-webui .

방금 만든 이미지를 사용하려면 Docker-Compose를 편집해야합니다.

껍질을위한 추가 목소리, 프롬프트 샘플

프롬프트

껍질 스피커 디렉토리

껍질 readme

readme_bark.md

AI 프로젝트를위한 모델, 캐시 및 시스템 공간 관리에 대한 정보

#186 (스레드에서 답장)

오픈 소스 라이브러리

이 프로젝트는 다음과 같은 오픈 소스 라이브러리를 사용합니다.

SUNO -IA/BARK -MIT 라이센스
- 설명 : 껍질 모델에 대한 추론 코드.
- 저장소 : Suno/Bark
거북이 -Tts -Apache-2.0 라이센스
- 설명 : 다양한 플랫폼을위한 유연한 텍스트 음성 음성 합성 라이브러리.
- 저장소 : NeonBJB/Tortoise-TTS
FFMPEG -LGPL 라이센스
- 설명 : 비디오 및 오디오 처리를위한 완전하고 크로스 플랫폼 솔루션.
- 저장소 : FFMPEG
- 사용 : Vorbis OGG 파일 인코딩
FFMPEG -PYSTHON -APACHE 2.0 라이센스
- 설명 : 멀티미디어 파일을 처리하기위한 FFMPEG 라이브러리의 파이썬 바인딩.
- 저장소 : kkroening/ffmpeg-python
오디오 크래프트 - MIT 라이센스
- 설명 : 오디오 생성 및 MusicGen을위한 라이브러리.
- 저장소 : FacebookResearch/AudioCraft
VOCOS- MIT 라이센스
- 설명 : Encodec 샘플의 개선 된 디코더
- 저장소 : Charact-Platform/Vocos
RVC- MIT 라이센스
- 설명 : VITS 기반 사용하기 쉬운 음성 변환 프레임 워크.
- 저장소 : rvc-project/검색 기반-보이스-수정-부비

윤리적이고 책임감있는 용도

이 기술은 해를 입히지 않고 활성화와 창의성을위한 것입니다.

이 AI 모델에 참여함으로써 귀하는 AI 모델을 책임감 있고 윤리적이며 법적 방식으로 사용하는이 지침을 준수하는 것을 인정하고 동의합니다.

비 악의적 인 의도 :이 AI 모델을 악의적이거나 유해하거나 불법적 인 활동에 사용하지 마십시오. 그것은 긍정적 인 참여, 지식 공유 및 건설적인 대화를 촉진하는 합법적이고 윤리적 인 목적으로 만 사용되어야합니다.
가장 한 사람 :이 AI 모델을 사용하여 개인, 조직 또는 단체를 포함한 다른 사람으로 자신을 가장하거나 허위 진술하지 마십시오. 다른 사람들을 속이거나 사기 또는 조작하는 데 사용해서는 안됩니다.
사기 활동 없음 :이 AI 모델은 재무 사기, 피싱 시도 또는 민감한 정보, 금전적 이익 또는 시스템에 대한 무단 액세스를 목표로하는 모든 형태의기만적인 관행과 같은 사기 목적으로 사용해서는 안됩니다.
법적 준수 :이 AI 모델의 사용이 AI 사용, 데이터 보호, 개인 정보 보호, 지적 재산 및 관할 구역의 기타 관련 법적 의무에 관한 해당 법률, 규정 및 정책을 준수하는지 확인하십시오.
승인 :이 AI 모델에 참여함으로써 귀하는 책임감 있고 윤리적이며 법적 방식으로 AI 모델을 사용 하여이 지침을 준수하고 준수하는 것을 인정하고 동의합니다.

특허

코드베이스 및 종속성

코드베이스는 MIT에 따라 라이센스가 부여됩니다. 그러나 종속성을 설치할 때 해당 라이센스의 적용을 받게됩니다. 이러한 라이센스의 대부분은 허용되지만 일부 라이센스가있을 수 있습니다. 따라서 허용 라이센스는 전체 프로젝트가 아니라 코드베이스 자체에만 적용된다는 것을 이해해야합니다.

즉, 목표는 프로젝트 전체에서 MIT 호환성을 유지하는 것입니다. MIT 라이센스와 호환되지 않는 종속성을 발견 한 경우, 문제를 열고주의를 기울이십시오.

알려진 비 용도 의존성 :

도서관	특허	메모
encodec	CC By-NC 4.0	최신 버전은 MIT이지만 수동으로 설치해야합니다.
diffq	CC By-NC 4.0	실행할 필요가없는 미래의 선택 사항은 제거 할 수 있으며 DEMUCS로 업데이트해야합니다.
절름발이	GPL 라이센스	향후 버전은 LGPL로 만들 것이지만 수동으로 설치해야합니다.
불일치	GPL 라이센스	미션 크리티컬이 아닌 다른 라이브러리로 교체 할 수 있습니다.

모델 가중치

모델 가중치에는 라이센스가 다릅니다. 사용중인 모델의 라이센스에주의를 기울이십시오.

가장 주목할만한 :

껍질 : MIT
거북이 : 알 수없는 (REPO에 따르면 Apache-2.0이지만 HuggingFace의 라이센스 파일은 없음)
MusicGen : CC By-NC 4.0
오디오겐 : CC By-NC 4.0

호환성 / 오류

Audiocraft는 현재 Linux 및 Windows 와만 호환됩니다. 수동으로 설치할 수는 있지만 MacOS 지원은 여전히 도착하지 않았습니다.

토치가 다시 설치되고 있습니다

PIP (Python Package Manager) 제한으로 인해 Torch는 여러 번 다시 설치할 수 있습니다. 이것은 PIP와 Torch의 광범위한 문제입니다.

콘솔에서 빨간 메시지

이 메시지 :

 ---- requires ----, but you have ---- which is incompatible.

완전히 정상입니다. 그것은 PIP의 한계 이며이 웹 UI는 많은 다른 AI 프로젝트를 결합하기 때문입니다. 프로젝트가 항상 서로 호환되는 것은 아니므로 다른 프로젝트가 설치된 것에 대해 불평 할 것입니다. 이것은 정상이며 예상됩니다. 그리고 결국, 경고/오류에도 불구하고 프로젝트는 함께 작동 할 것입니다. 이 상황이 해결 될 수 있을지는 확실하지 않지만 이것이 희망입니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-02-27
크기 4.13MB
출처 Github