TTS Generation Webui / Harmonica
Installer || 다운로드 설치 || 도커 설정 || 피드백 / 버그 보고서

모델
텍스트 음성 | 오디오/음악 생성 | 오디오 변환/도구 |
---|
짖다 | MusicGen | RVC |
남생이 | 자석 | demucs |
마하 tts | 안정적인 오디오 | 직업 |
MMS | (확장) Riffusion | 속삭임 |
Vall-e x | (확장) Audiocraft Mac | |
Styletts2 | (확장) Audiocraft Plus | |
Seamlessm4t | | |
(확장) XTTSV2 | | |
(확장) Mars5 | | |
(확장) f5-tts | | |
(확장) Parler tts | | |
Bark.narration.mp4 | Bark.japanese.mp4 | musicgen.mp4 |
---|
changelog
Nov 23:
- 더 나은 PIP 호환성을 위해 Linux FairSeq 휠을 추가하십시오.
Nov 22:
- 바퀴로 전환하고 원샷 설치 프롬프트를 추가하십시오.
Nov 15:
- Gradio 5.5.0으로 업그레이드, Edd Enhance (#420)
Nov 14:
- 실험 Windows Deepspeed Wheel을 추가하십시오.
- 음성 복제를 짖는 언어를 더 추가하십시오.
Nov 11:
- 설치 충돌을 줄이고 업데이트 속도를 높이기 위해 Windows의 고정 된 FairSeQ 버전으로 전환하십시오.
2024 년 10 월
10 월 28 일 :
- 토치 용 설치 프로그램 테스트, 모델 다운로더 및 PIP CPU 전용 옵션이 추가되었습니다.
Oct 24:
- 버그로 인해 Gradio를 5.1.0으로 다운 그레이드했습니다.
- 테스트 워크 플로 및 고정 사소한 버그가 추가되었습니다.
Oct 22:
- 더 부드러운 배포를 위해 Dockerfile 문제를 수정했습니다.
Oct 21:
- 재 설계된 readme : 개선 된 Whisper Extension, 8 월, 9 월 및 10 월의 Changelogs, 업데이트 된 스크린 샷 및 재구성 된 컨텐츠를 추가했습니다.
Oct 19:
- 확장 로그 고정 및 새로운 확장 기능이 추가되었습니다.
Oct 18:
- 시스템 개선 : 포맷 된 프로젝트, 고정
xformers+cuda
설치, 추가 로그 시스템, 확장 확장 버튼을 제거 및 F5 TTS 확장.
Oct 16:
- 첫 번째 설치는 이제
uv
대신 pip
사용합니다. - 주요 버전을 부딪 히고 Google Colab을 고정했습니다.
- 안정적인 오디오에 PIP 폴백이 추가되었습니다.
- 고정 Demucs, 변경된 Postgres 포트.
-
huggingface_hub
설치 및 껍질 모델 로더를 고정했습니다. - 주요 업그레이드 : Gradio 5로 전환, 탭 용 게으른로드, Docker 수정, 최적화 UI 속도, 추가 .env.user 기능, 개선 된 로그 및 업그레이드 된 React UI 확장 기능.
Oct 3:
- GPU 정보 탭을 수정하고
nvidia-ml-py
추가했습니다. - Audiocraft 설치 버그를위한 해결 방법을 만들었습니다.
- 자동 MSVC를 수정하여 서버를
127.0.0.1
로 설치하고 설정했습니다. -
.git_version
경로 고정 및 iconv
제거하여 node-gyp
요구 사항을 제거했습니다. - 설치자 오류 처리가 향상되고 추가 업그레이드 해시 로깅이 추가되었습니다.
- Node.js를 22.9.0으로 업그레이드하고 PostgreSQL 지원이 추가되고 React UI의 그룹화 된 탭.
2024 년 9 월
확장하려면 클릭하십시오
9 월 23 일 :
9 월 22 일 :
- 반응 UI에 FFMPEG 메타 데이터 확장을 추가했습니다.
- Maha TTS에 대한 단일 전용 통지가 추가되었습니다.
- 노드 20.17.0 설치 실패를 피하기위한 핫픽스.
9 월 21 일 :
- UI에 반응하기 위해 안정적인 오디오 데모를 추가했습니다.
- UI 레이아웃이 향상되었습니다.
9 월 19 일 :
- 새로운 슬라이더와 더 나은 레이아웃으로 업그레이드 된 React UI Visual Look.
- RVC UI, 고정 Colab 및 검색 명령 상자를 추가했습니다.
- Node.js를 20.17.0으로 업그레이드하십시오.
9 월 2 일 :
- Dockerfile 및 업데이트 된 Docker-Compose.yml을 수정했습니다.
- NPZ 로딩에서 버그가 수정되었습니다.
2024 년 8 월
확장하려면 클릭하십시오
Aug 31:
- 데코레이터에 대한 모델 추론 프레임 워크 업그레이드.
- Python 파일을
src
에서 tts_webui
폴더로 이동했습니다. - MusicGen 탭과 고정 관련 버그를 다시 작성하십시오.
Aug 20:
- Gradio 4로 업그레이드하고 테마가 추가되었습니다.
- 거북이에 대한 모델 로딩 메시지가 추가되었습니다.
- 고정 Reactui의 RVC.
- 하이퍼 파라미터를 재 활성화합니다.
- 확장 목록에 관리가 추가되었습니다.
Aug 5:
- React UI에서 껍질을 고정하고 최대 생성 기간을 추가하십시오.
- Audiocraft Plus Extension Model Directory를 ./data/models/audiocraft_plus/로 변경하십시오.
- Musicgen 및 Audiogen의 모델 언 로딩을 향상시킵니다. MusicGen 및 Audiogen에 언로드 모델 버튼을 추가하십시오.
- Huggingface Cache Manager Extension을 추가하십시오.
Aug 4:
- XTTS-RVC-UI Extension, XTTS 미세 조정 데모 확장을 추가하십시오.
Aug 3:
- Riffusion Extension, Audiocraft Mac 확장, 껍질 레거시 확장을 추가하십시오.
Aug 2:
- 이전 설치 프로그램에 감가 상각 경고를 추가하십시오.
- 오류 처리를 통합하고 탭로드를 단순화하십시오.
Aug 1:
- 외부 확장에 대한 "업데이트 시도"버튼을 추가하십시오.
- PIP_PACKAGES 버전이 변경되지 않으면 패키지 재설치를 건너 뜁니다.
- Gradio 포트를 React UI와 동기화합니다.
- 기본 Gradio 포트를 7860에서 7770으로 변경하십시오.
2024 년 7 월
확장하려면 클릭하십시오
July 31:
- Gradio가 변경된 후 UI의 MusicGen을 수정하십시오.
- 속삭임 확장에 언로드 버튼을 추가하십시오.
7 월 29 일 :
- Mac M1을 포함한 더 많은 플랫폼을 지원하기 위해 Conda-Forge에서 FFMPEG를 4.4.2로 변경하십시오.
- 거북이 CVVP를 비활성화합니다.
July 26:
- 속삭임 확장
- 실험 AMD ROCM 설치 지원. (Linux 만 해당)
July 25:
- MacOS 및 Linux에 대한 진단 스크립트를 추가하십시오.
- 탭에 더 나은 오류 세부 정보를 추가하십시오.
- Linux 및 MacOS의 설치 자에 대한 .sh 스크립트 실행 권한을 수정하십시오.
July 21:
- 갤러리 기록 확장 추가 (오래된 갤러리보기에서 조정)
- 간단한 리믹스를 확장으로 변환하십시오
- 최신 토치 버전을 사용하려면 update.py를 수정하십시오 (update.py
- 진단 스크립트를 추가하고 Windows 용 스크립트를 다시 설치하십시오.
July 20:
- Discord Join 링크를 수정하십시오
- 코드의 과도한 복잡성을 제거하여 껍질을 더욱 단순화합니다.
- UI/Modular Extensions를 추가하면 이러한 확장 기능을 사용하면 새로운 모델과 기능을 UI에 설치할 수 있습니다. 앞으로 모델은 permamly를 추가하기 전에 확장으로 시작할 것입니다.
- 출력에서 갤러리보기를 비활성화합니다
- 알려진 문제 : Firefox는 Gradio에 출력을 표시하는 데 실패하며 백엔드에서 가져 오는 데 실패합니다. React UI 내에서 이것은 제대로 작동합니다.
July 15:
- 의견 - 반응 UI가 오랫동안 나왔기 때문에 Gradio UI는 처리 할 수없는 매우 복잡한 UI없이 사용자에게 기능 만 제공하는 역할을 할 것입니다. 새로운 모델과 기능을 추가하기위한 개발 시간이 실제로 부족하지만 구식 통합은 실용적이지 않았습니다. 새로운 API와 '모델의 역할'이 정의되므로 전체 모델에 대한 확장 기능을 갖추어 더 많은 유연성과 가벼운 설치를 가능하게합니다.
- gradio ui 복잡성을 스케일링 시작 - rvc/demucs/음성 버튼으로 보내기 . (내부 구성 요소 Joutai 제거).
- 향후 더 나은 업데이트를 위해 version.json을 추가하십시오.
- Gradio 껍질을 최대 출력 수를 1로 줄입니다.
- 언로드 모델 버튼을 거북이에 추가하고 다음 매개 변수를로드하기 전에 모델을 언로드하므로 Tortoise는 더 이상 설정 변경 중에 2x 모델 메모리를 사용하지 않습니다.
July 14:
- Gradio 탭을 그룹으로 재배치 - 음성, 오디오 변환, 음악 생성, 출력 및 설정
- 헤더를 정리하고 피드백을 위해 링크를 추가하십시오
- 안정적인 오디오에 종자 컨트롤을 추가하십시오
- Newlines로 안정적인 오디오 파일 이름 버그를 수정하십시오
- "Simple Remixer"Gradio 탭을 비활성화하십시오
- Bark Voice Clone & RVC를 다시 한 번 수정하십시오
- 디버깅을 위해 "설치된 패키지"탭을 추가하십시오
July 13:
- Torch 2.3.1 및 Xformers 0.0.27로의 주요 업그레이드
- Mac 및 CPU를 포함한 모든 사용자는 이제 동일한 Pytorch 버전을 갖습니다.
- CUDA를 11.8로 업그레이드하십시오
- 파이썬이 3.10.11로 강제
- 다시 설치하지 않고 Python 및 Torch를 업그레이드 할 수 있도록 설치 프로그램을 수정하십시오 (현재 주요 버전 2)
- 더 나은 품질을 위해 Magnet Default Params를 수정하십시오
- 버그를 피하기 위해 설치 프로그램 스크립트 점검을 개선하십시오
- Styletts2를 업데이트하십시오
July 11:
- 안정적인 오디오 생성 파일 이름을 향상시킵니다
- 토치 수리에 힘을 다시 설치하십시오
- 실행하기 전에 설치 프로그램을 자동 업데이트하십시오
July 9:
- https://github.com/xeraster 덕분에 새로운 설치 프로그램 및 설치 지침을 수정하십시오!
7 월 8 일 :
- 설치 프로세스를 변경하여 패키지 충돌을 줄이고 토치 버전의 유연성을 활성화하십시오.
7 월 6 일 : : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일 : 7 월 6 일
- New Mamba 기반 설치 프로그램의 초기 릴리스.
- 안정적인 오디오 결과를 outputs-RVC/StableAudio 폴더에 저장하십시오.
- 안정적인 오디오 모델 선택에 면책 조항을 추가하고 파일이 없을 때 더 나은 오류 메시지를 표시하십시오.
July 1:
- 세대 후 안정적인 오디오 메모리 사용을 최적화하십시오.
- Gradio도 자동으로 열리는 경우에만 반응 UI를 자동으로 열 수 있습니다.
- 불필요한 콘다 git 재설치를 제거하십시오.
- MPS가 지원하는 최신 안정 오디오로 업데이트하십시오 (새로운 토치 버전이 필요).
2024 년 6 월
확장하려면 클릭하십시오
6 월 22 일 : * Gradio에 안정적인 오디오를 추가하십시오. June 21:
- Vall-Ex 데모를 추가하여 UI에 반응하십시오.
- 브라우저에서 자동으로 반응 UI를 열고 링크를 다시 수정하십시오.
- 반응/거북이에 길이로 분할을 추가하십시오.
- UVR5 데모 폴더를 수정하십시오.
- Linux 및 Mac의 경우 FairSeQ 버전을 0.12.2로 설정하십시오. (#323)
- 모든 반응 UI 탭의 세대 기록을 향상시킵니다.
May 17:
- React UI에서 거북이 사전 설정을 수정하십시오.
May 9:
- UI에 반응하기 위해 MMS를 추가하십시오.
- 반응 UI 및 코드베이스를 향상시킵니다.
May 4:
2024 년 4 월
확장하려면 클릭하십시오
4 월 28 일 : * Maha TTS를 추가하여 UI를 반응합니다. * UI에 반응하기 위해 GPU 정보를 추가하십시오. 4 월 6 일 :
- Vall-Ex Generation 데모 탭을 추가하십시오.
- MMS 데모 탭을 추가하십시오.
- Maha TTS 데모 탭을 추가하십시오.
- Styletts2 데모 탭을 추가하십시오.
4 월 5 일 :
- RVC 설치 버그를 수정하십시오.
- 기본 UVR5 데모 탭을 추가하십시오.
4 월 4 일 :
- RVMPE 및 FCPE를 포함하도록 RVC를 업그레이드하십시오. 파일 복제로 인해 모델 및 인덱스에 대한 직접 파일 입력을 제거하십시오. RVC의 반응 UI 인터페이스를 향상시킵니다.
2024 년 3 월
확장하려면 클릭하십시오
3 월 28 일 :
Mar 27:
- 음성 복제에 음성 클로닝에 대한 정보를 추가하십시오. 음성 클론
Mar 26:
Mar 22:
- 노트북을 통한 Vall-e x 데모 (#292)
- 반응 UI를 Docker 이미지에 추가하십시오
- 면책 조항 설치를 추가하십시오
Mar 16:
Mar 14:
Mar 13:
- 실험 파이프 라인 추가 (Bark / Tortoise / Musicgen / Audiogen / Magnet-> rvc / demucs / vocos) (#287)
- 각 생성에서 모델 재 장전으로 RVC 버그를 수정하십시오. 짧은 입력의 경우 눈에 띄는 속도가 향상됩니다.
Mar 11:
- 오디오로 플레이를 추가하고 목소리로 짖는 소리 (#286)
- 파일이 즐겨 찾기에서 삭제되었음을 보여주기 위해 UX를 변경합니다.
- 껍질 음성이 표시되지 않는 이미지를 수정하십시오
- 즐겨 찾기에서 오디오 재생을 수정하십시오
Mar 10:
- UI 자석을 반응하기 위해 배치 추가 (#283)
- SeamlessM4T에 오디오 번역에 오디오 추가 (#284)
Mar 5:
- https://github.com/aamir3d 덕분 에이 요청을 요청하고 피드백을 제공하는 덕분에 반응 UI MusicGen (#281)에 배치를 추가하십시오.
3 월 3 일 :
- 노트북으로 MMS 데모를 추가하십시오
- MultibDivivence High VRAM 면책 조항을 추가하십시오
2024 년 2 월
확장하려면 클릭하십시오
2 월 21 일 :
- Docker-Audiocraft로 Docker 컨테이너 빌드 및 버그를 수정하십시오
2 월 8 일 :
- MusicGen의 스테레오 모델에 대한 MultibDiviflusion을 수정하십시오. 감사합니다 https://github.com/mykeehu
- Google Colab의 Node.js 설치 단계, https://github.com/miaohf의 코드 수정
2 월 6 일 :
- https://github.com/joachip의 FLAC 파일 생성 확장을 추가하십시오
2024 년 1 월
확장하려면 클릭하십시오
Jan 21:
- 각 업데이트마다 CPU/M1 Torch Auto-Repair 스크립트를 추가하십시오. 비활성화하려면 check_cuda.py를 편집하고 change force_no_repair = true
Jan 16:
- MusicGen 업그레이드, 스테레오 및 대형 멜로디 모델에 대한 지원 추가
- 자석을 추가하십시오
Jan 15:
- Gradio를 3.48.0으로 업그레이드했습니다
- 몇 가지 시각적 버그가 나타 났으며, 중요하다면, 그것들을보고하거나 다운 그레이드 그라디오를 신고하십시오.
- Gradio : 쓸모없는 경고를 억제하십시오
- 트리톤 경고
- Gradio-Bark : 수정 "마지막 세대 사용 히스토리로 사용"동작, 빈 선택이 더 이상 오류가 아닙니다.
- 확장자 로더 디스플레이를 향상시킵니다
- 변압기를 4.31.0에서 4.36.1로 업그레이드하십시오
- SeamlessM4T 데모를 추가하십시오
Jan 14:
Jan 13:
- 반응 UI : 자동 설치에서 누락 된 NPM 빌드 단계 수정
Jan 12:
- 반응 UI : 오디오 작업의 이름을 수정하십시오
- Gradio : 여러 API 경고를 수정하십시오
- 통합 -React UI Now는 Gradio와 함께 시작하여 열 수있는 링크가 있습니다.
Jan 11:
- 반응 UI : 오류없이 빌드 작업을 수행하십시오
Jan 9:
- 반응 UI
- Wavesurfer의 404 핸들러를 수정하십시오
- 그룹 껍질 탭을 함께 그룹화하십시오
1 월 8 일
2023
확장하려면 클릭하십시오
2023 년 10 월
Oct 26:
- MusicGen의 모델 선택 UX를 향상시킵니다
Oct 24:
- MusicGen 및 Demucs에 대한 초기 React UI 추가 (#202)
- 수정 껍질 롱 세대 종자 표류 (https://github.com/520pig520 덕분에)
2023 년 9 월
9 월 21 일 :
- 나무 껍질 : 시맨틱 히스토리 버튼으로 계속 추가하십시오
- Github Docker Image Storage, New Docker 이미지로 전환 :
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- config #168에서 https://github.com/dartvauder 덕분에 Server_port 옵션 수정
9 월 9 일 :
- https://github.com/jfronny 덕분에 xdg-open 명령 줄을 수정하십시오
- https://github.com/slack-t 및 https://github.com/bkutasi 덕분에 멀티 라인 껍질 세대를 수정하십시오
- https://github.com/aamir3d에 의해 요청 된대로 껍질을 껍질을 bark에 하역 버튼 추가
- https://github.com/maki9009에서 요청한대로 readme_bark.md에 껍질 세부 사항을 추가하십시오
- https://github.com/maki9009 덕분에 "옵션"을 프롬프트로 태우십시오
9 월 5 일 :
- 껍질에 음성 믹싱을 추가하십시오
- v1 화상을 껍질을 벗기기 위해 v1 화상을 추가합니다 (Prompts In Prompts는 오디오를 생성하는 데 시간을 소비하지 않고 의미 론적 모델을 지시하는 것입니다. V1은 시맨틱 토큰을 생성 한 다음 시맨틱 모델의 프롬프트로 사용하여 작동합니다.)
- 껍질에 생성 길이 리미터를 추가하십시오
2023 년 8 월
Aug 27:
- Melody #153을 무시하는 Musicgen을 수정하십시오
Aug 26:
- RVC, DEMUCS, VOCOS 버튼에 껍질 및 VOCOS에 보내기
Aug 24:
- RVC 출력에 날짜를 추가하여 #147을 수정하십시오
- SAFETENSORS 누락 된 휠을 수정하십시오
- Demucs 버튼에 MusicGen에 보내기를 추가하십시오
Aug 21:
- MusicGen 문제 수정을 위해 Colab에 TorchVision 설치를 추가하십시오
- RVC_TAB 파일 로깅을 제거하십시오
Aug 20:
- 업데이트 끝에 Hydra-Core를 다시 설치하여 MBD 수정
Aug 18:
- CI : Docker 이미지를 자동으로 게시하려면 GitHub 작업을 추가하십시오.
Aug 16:
- 거북이 생성 매개 변수에 "이름"을 추가하십시오
Aug 15:
- 모든 요구 사항에서 2.0.0으로 토치를 핀으로 핀 .txt 파일
- 오디오 크래프트 및 껍질 버전
- Colab에서 Tortoise Transformers Fix를 제거하십시오
- 거북이를 2.8.0으로 업데이트하십시오
Aug 13:
- GPU가 지원되지 않는 새로운 사용자 설치에 대한 잠재적으로 큰 수정
Aug 11:
- Manmay-Nakhashi에게 감사합니다
- Tokenizer를 변경하려면 거북이 옵션을 추가하십시오
8 월 8 일
- 오디오 크래프트를 업데이트하여 멀티 분류 성능을 향상시킵니다
- 'ultra_fast'사전 설정을 사용하여 거북이 매개 변수 'cond_free'불일치를 수정하십시오
Aug 7:
- Colab에 거북이 딥 스피드 수정을 추가하십시오
Aug 6:
- Audiogen + MBD 오류 수정, Colab에 대한 Tortoise Fix 추가
Aug 4:
- MusicGen #109에 MultibDiviverfusion 옵션을 추가하십시오
- MusicGen/Audiogen 세대의 토큰을 .NPZ 파일로 저장합니다.
Aug 3:
Aug 2:
- 재시작 후 표시되지 않은 모델 위치를 수정하십시오
2023 년 7 월
July 26:
- 음성 갤러리
- 음성 자르기
- Voice Voice Bug 이름 이름 바꾸기, 그림 이름도 이름 바꾸기, 해시 텍스트 상자 추가
- 더 쉬운 음성 다운로드 (#98)
July 24:
- 히스토리 해시를 포함하도록 껍질 파일 형식을 변경 : ... 계속 _generation ...-> ... From_3EA0D063 ...
July 23:
- https://github.com/jonfairbanks 덕분에 Docker Image
- RVC UI 이름 지정 개선
July 21:
- Hubert 수정 CPU 만 작동하지 않음 (#87)
- Google Colab 데모 추가 (#88)
- 새 설정 탭 및 모델 위치 (고급 사용자의 경우) (#90)
July 19:
- 거북이 최적화 추가, 감사합니다 https://github.com/manmay-nakhashi #79 (implements #18)
July 16:
- 음성 사진 데모
- RVC 모델/인덱스를 저장하려면 디렉토리 추가 및 드롭 다운
- CPU #74에 대한 IS_HALF를 존중하지 않는 해결 방법 RVC
- 거북이 모델 및 음성 선택 개선 #73
July 10:
July 9:
- RVC Demo + Tortoise, V6 업데이트 스크립트 및 추가 모듈을 설치하려는 자동 시도 #66
July 5:
- 개선 된 V5 설치 프로그램 - 더 빠르고 신뢰할 수있는 #63
July 2:
July 1:
2023 년 6 월
6 월 29 일 :
6 월 27 일 : 6 월 27 : : 6 월 27 : : 6 월 27 : : : : 6 월 27 : : 6 월 27 : : 6 월 27 : : 6 월 27 : : 6 월 27 : 6 월 27 : 6 월 27 : 6 월 27 : 6 월
- 열망하는 로딩 오류, 리팩터 #50을 수정하십시오
6 월 20 일
6 월 19 일
June 18:
- 최신 오디오 크래프트로 업데이트하고 더 긴 세대를 추가하십시오
Jun 14:
- Vocos Wav Tab #42를 추가하십시오
June 5:
- Bark Generation 페이지에서 "즐겨 찾기에 저장"버튼을 수정하고 콘솔 정리 (v4.1.1)
- 여러 다른 데이터 세트와 더 쉬운 카레지를 관리하기 위해 "컬렉션"탭을 추가하십시오.
June 4:
- v4.1로 업데이트 - 개선 된 해시 기능, 코드 개선
6 월 3 일 : : 6 월 3 일 : : 6 월 3 일 : : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일 : 6 월 3 일
- V4에 대한 업데이트 - 새로운 출력 구조, 개선 된 기록보기, 코드베이스 재구성, 개선 된 메타 데이터, 출력 확장 지원
2023 년 5 월
May 21:
May 17:
- v2에 대한 업데이트 - 결과가 나타나고, 미리보기 긴 프롬프트 세대를 조각으로, 최대 9 개의 출력을 활성화, UI 조정
May 16:
- Gradio 설정 탭을 추가하고 콘솔에서 Gradio 오류를 수정하고 로깅을 향상시킵니다.
- "음성 사용"및 "음성 저장"버튼으로 기록 및 즐겨 찾기 업데이트
- 음성 탭을 추가하십시오
- 껍질 탭 : "마지막 세대를 역사로 사용하거나"제거하십시오.
- 코드 조직을 향상시킵니다
May 13:
- 결정 론적 생성을 활성화하고 생성 된 로그를 향상시킵니다. Suno-IA/Bark#175에 대한 크레딧.
May 10:
- 나이가 많은 세대의 역사 프롬프트를 재사용 할 가능성을 가능하게합니다. 세대를 NPZ 파일로 저장하십시오. 다음 프롬프트에 대해 지난 3 세대를 재사용하는 편리한 방법을 추가하십시오. /음성 아래 /음성을 저장하고 수집하기위한 버튼을 추가하십시오. #10
May 4:
- 긴 양식 생성 (https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb 및 suno-ai/bark#161에 대한 크레딧)
- 고정 ENV VAR 버그에 적응하십시오
5 월 3 일
- 개선 된 거북이 UI : 음성, 사전 설정 및 CVVP 설정뿐만 아니라 3 가지 결과를 생성하는 기능 (#6)
May 2:
- 수동으로 더 긴 프롬프트를 계속하기 위해 히스토리 리클 리실링에 대한 지원이 추가되었습니다.
- V2 프롬프트에 대한 지원이 추가되었습니다
전에:
업그레이드 (오래된 설치)
문제가 발생하면 개발자에게 문의하십시오 .
확장하려면 클릭하십시오
V6에서 새로운 설치자로 업그레이드
권장 : 신선한 설치
- 새 버전을 다운로드하고 start_tts_webui.bat (windows) 또는 start_tts_webui.sh (macos, linux)를 실행하십시오.
- 완료되면 서버를 닫으십시오.
- 권장 : 기존 세대를 즐겨 찾기/ 출력/ 출력 RVC/ Models/ Collections/ Config.json과 같은 새 디렉토리에 복사하십시오.
- 주의해서 : 완전히 새로운 TTS-Generation-Webui 디렉토리를 이전 디렉토리 위에 복사 할 수 있지만 오래된 파일이 손실 될 수 있습니다.
내 업그레이드는 일부 파일을 삭제하고 조정할 수 있습니다
- Update_ 플랫폼 스크립트를 사용하여 기존 설치를 업데이트하십시오
- 업데이트 후 새로운 start_tts_webui.bat (wind
- 서버가 시작되면 작동하는지 확인하십시오.
- 주의해서 : 새 서버가 작동하는 경우 원 클릭 인스턴더 디렉토리 내에서 이전 installer_files를 삭제하십시오.
이 작업을 수행하는 더 최적의 방법이 있습니까?
정확히 의존성은 특히 콘다와 파이썬 사이의 의존성 충돌이 아닙니다 (종속성은 이미 중요한 상태에 있으며 콘다로 옮기는 것이 방법입니다). 따라서 이전 설치 프로그램을 새 설치 프로그램으로 바꾸고 업데이트를 실행하는 것이 가능할 수 있지만 문제는 예측할 수없고 고정 할 수 없습니다 . 설치 프로그램을 업데이트하려면 많은 테스트가 필요하므로 가볍게 수행되지 않습니다.
설치
- 최신 버전을 다운로드하여 추출하십시오.
- start_tts_webui.bat 또는 start_tts_webui.sh를 실행하여 서버를 시작하십시오. 사용중인 GPU/칩을 선택하라는 요청을받습니다. 모든 것이 설치되면 http : // localhost : 7770에서 gradio 서버를 시작하고 http : // localhost : 3000에서 react ui를 시작합니다.
- 출력 로그는 installer_scripts/output.log 파일에서 사용할 수 있습니다.
수동 설치 (권장되지 않음)
이 지침은 모든 최신 수정 및 조정을 반영하지 않을 수 있지만 설치자가하는 일을 디버깅하거나 이해하기위한 참조로 유용 할 수 있습니다. 바라건대 그들은 AMD/Intel과 같은 새로운 플랫폼을 지원하기위한 기초가 될 수 있기를 바랍니다.
Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)를 설치하십시오.
- (Windows) Visual Studio Compiler/Visual Studio 빌드 도구 설치 https://visualstudio.microsoft.com/visual-cpp-build-tools/
환경 설정 : conda create -n venv
설치, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) 설치 프로그램 스크립트를 계속하십시오
- 환경 활성화 :
conda activate venv
및 -
(venv) node installer_scriptsinit_app.js
- 그런 다음
(venv) python server.py
로 서버를 실행하십시오
b) 또는 요구 사항을 수동으로 설치하십시오
- CUDA 또는 CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch)로 Pytorch를 설정하십시오.
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
for CPU/MAC -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
- 레포를 복제하십시오 :
git clone https://github.com/rsxdalv/tts-generation-webui.git
- 요구 사항 설치 :
- 모든 요구 사항을 설치*.txt (이 목록은 최신 상태가 아닐 수 있습니다. https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40을 확인하십시오) :
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- React App 빌드 :
(venv) cd react-ui && npm install && npm run build
- (선택 사항) 데이터베이스 설정 :
(venv) node installer_scripts/js/applyDatabaseConfig.js
- 서버를 실행하십시오 :
(venv) python server.py
반응 UI
- Nodejs 설치 (Conda로 아직 설치되지 않은 경우)
- React 종속성 설치 :
npm install
- React 빌드 :
npm run build
- 반응 :
npm start
- 또한 Python Server :
python server.py
또는 start_tts_webui
스크립트를 실행합니다.
도커 설정
TTS-Generation-Webui는 Docker 컨테이너 내부에서 도망 칠 수 있습니다. 시작하려면 GitHub 컨테이너 레지스트리에서 이미지를 가져옵니다.
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
이미지가 가져 오면 Docker Compose로 시작할 수 있습니다.
컨테이너는 첫 번째 출력을 생성하는 데 약간의 시간이 걸리고 모델은 백그라운드에서 다운로드됩니다. 이 다운로드의 상태는 컨테이너 로그를 확인하여 확인할 수 있습니다.
docker logs tts-generation-webui
이미지를 직접 구축합니다
자신의 Docker 컨테이너를 만들려면 포함 된 dockerfile을 사용할 수 있습니다.
docker build -t tts-generation-webui .
방금 만든 이미지를 사용하려면 Docker-Compose를 편집해야합니다.
껍질을위한 추가 목소리, 프롬프트 샘플
껍질 readme
readme_bark.md
AI 프로젝트를위한 모델, 캐시 및 시스템 공간 관리에 대한 정보
#186 (스레드에서 답장)
오픈 소스 라이브러리
이 프로젝트는 다음과 같은 오픈 소스 라이브러리를 사용합니다.
윤리적이고 책임감있는 용도
이 기술은 해를 입히지 않고 활성화와 창의성을위한 것입니다.
이 AI 모델에 참여함으로써 귀하는 AI 모델을 책임감 있고 윤리적이며 법적 방식으로 사용하는이 지침을 준수하는 것을 인정하고 동의합니다.
- 비 악의적 인 의도 :이 AI 모델을 악의적이거나 유해하거나 불법적 인 활동에 사용하지 마십시오. 그것은 긍정적 인 참여, 지식 공유 및 건설적인 대화를 촉진하는 합법적이고 윤리적 인 목적으로 만 사용되어야합니다.
- 가장 한 사람 :이 AI 모델을 사용하여 개인, 조직 또는 단체를 포함한 다른 사람으로 자신을 가장하거나 허위 진술하지 마십시오. 다른 사람들을 속이거나 사기 또는 조작하는 데 사용해서는 안됩니다.
- 사기 활동 없음 :이 AI 모델은 재무 사기, 피싱 시도 또는 민감한 정보, 금전적 이익 또는 시스템에 대한 무단 액세스를 목표로하는 모든 형태의기만적인 관행과 같은 사기 목적으로 사용해서는 안됩니다.
- 법적 준수 :이 AI 모델의 사용이 AI 사용, 데이터 보호, 개인 정보 보호, 지적 재산 및 관할 구역의 기타 관련 법적 의무에 관한 해당 법률, 규정 및 정책을 준수하는지 확인하십시오.
- 승인 :이 AI 모델에 참여함으로써 귀하는 책임감 있고 윤리적이며 법적 방식으로 AI 모델을 사용 하여이 지침을 준수하고 준수하는 것을 인정하고 동의합니다.
특허
코드베이스 및 종속성
코드베이스는 MIT에 따라 라이센스가 부여됩니다. 그러나 종속성을 설치할 때 해당 라이센스의 적용을 받게됩니다. 이러한 라이센스의 대부분은 허용되지만 일부 라이센스가있을 수 있습니다. 따라서 허용 라이센스는 전체 프로젝트가 아니라 코드베이스 자체에만 적용된다는 것을 이해해야합니다.
즉, 목표는 프로젝트 전체에서 MIT 호환성을 유지하는 것입니다. MIT 라이센스와 호환되지 않는 종속성을 발견 한 경우, 문제를 열고주의를 기울이십시오.
알려진 비 용도 의존성 :
도서관 | 특허 | 메모 |
---|
encodec | CC By-NC 4.0 | 최신 버전은 MIT이지만 수동으로 설치해야합니다. |
diffq | CC By-NC 4.0 | 실행할 필요가없는 미래의 선택 사항은 제거 할 수 있으며 DEMUCS로 업데이트해야합니다. |
절름발이 | GPL 라이센스 | 향후 버전은 LGPL로 만들 것이지만 수동으로 설치해야합니다. |
불일치 | GPL 라이센스 | 미션 크리티컬이 아닌 다른 라이브러리로 교체 할 수 있습니다. |
모델 가중치
모델 가중치에는 라이센스가 다릅니다. 사용중인 모델의 라이센스에주의를 기울이십시오.
가장 주목할만한 :
- 껍질 : MIT
- 거북이 : 알 수없는 (REPO에 따르면 Apache-2.0이지만 HuggingFace의 라이센스 파일은 없음)
- MusicGen : CC By-NC 4.0
- 오디오겐 : CC By-NC 4.0
호환성 / 오류
Audiocraft는 현재 Linux 및 Windows 와만 호환됩니다. 수동으로 설치할 수는 있지만 MacOS 지원은 여전히 도착하지 않았습니다.
토치가 다시 설치되고 있습니다
PIP (Python Package Manager) 제한으로 인해 Torch는 여러 번 다시 설치할 수 있습니다. 이것은 PIP와 Torch의 광범위한 문제입니다.
콘솔에서 빨간 메시지
이 메시지 :
---- requires ----, but you have ---- which is incompatible.
완전히 정상입니다. 그것은 PIP의 한계 이며이 웹 UI는 많은 다른 AI 프로젝트를 결합하기 때문입니다. 프로젝트가 항상 서로 호환되는 것은 아니므로 다른 프로젝트가 설치된 것에 대해 불평 할 것입니다. 이것은 정상이며 예상됩니다. 그리고 결국, 경고/오류에도 불구하고 프로젝트는 함께 작동 할 것입니다. 이 상황이 해결 될 수 있을지는 확실하지 않지만 이것이 희망입니다.