영어 읽어보기 팁 프로젝트 |
ChatTTS를 사용하여 텍스트를 음성으로 합성하고 중국어, 영어 및 혼합 숫자를 지원하며 API 인터페이스를 제공하는 간단한 로컬 웹 인터페이스입니다.
원본 ChatTTS 프로젝트는 0.96 버전부터 먼저 ffmpeg를 설치해야 합니다. 이전 음색 파일 csv 및 pt는 더 이상 사용할 수 없습니다. 음색 값을 입력하고 다시 생성하십시오.
[스폰서]
302.AI는 종량제, 월 수수료 0, 다양한 유형의 AI 사용에 대한 임계값이 없는 세계 최고의 브랜드를 하나로 모은 AI 슈퍼마켓입니다.
포괄적인 기능, 간단하고 사용하기 쉬움, 온디맨드 결제 기준점 제로, 관리자와 사용자 분리
인터페이스 미리보기
영숫자 기호 제어 문자 혼합 효과
릴리스에서 압축된 패키지를 다운로드하고 압축을 푼 후 app.exe를 두 번 클릭하여 사용하세요.
일부 보안 소프트웨어는 바이러스를 보고할 수 있습니다. 종료하거나 소스 코드 배포를 사용하십시오.
NVIDIA 그래픽 카드가 4G 비디오 메모리보다 크고 CUDA11.8+가 설치된 경우 GPU 가속이 활성화됩니다.
처음으로 Huggingface.co 또는 github에서 에셋 디렉터리로 모델을 다운로드하세요. 네트워크가 불안정할 경우 다운로드에 실패할 수 있으므로 별도로 다운로드하시기 바랍니다.
다운로드하고 압축을 풀면 이 폴더에 여러 개의 pt 파일이 있습니다. 모든 pt 파일을 자산 디렉터리에 복사한 다음 소프트웨어를 다시 시작하세요.
GitHub 다운로드 주소: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/all-models.7z
바이두 넷디스크 다운로드 주소: https://pan.baidu.com/s/1yGDZM9YNN7kW9e7SFo8lLw?pwd=ct5x
프로젝트 저장소 가져오기
다음과 같은 경로에서 프로젝트를 복제합니다.
자식 클론 https://github.com/jianchang512/ChatTTS-ui.git chat-tts-ui
러너 시작
프로젝트 디렉터리를 입력하세요.
CD 채팅-tts-ui
컨테이너를 시작하고 초기화 로그를 확인합니다.
GPU 버전 docker compose -f docker-compose.gpu.yaml up -d CPU 버전 docker compose -f docker-compose.cpu.yaml up -d docker compose 로그 -f --no-log-prefix
ChatTTS WebUI 방문
启动:['0.0.0.0', '9966']
즉, 배포 장치의 IP:9966
에 액세스합니다. 예:
이 기계: http://127.0.0.1:9966
서버: http://192.168.1.100:9966
메인 브랜치에서 최신 코드를 받으세요:
자식 체크아웃 메인 git pull 원본 메인
다음 단계로 이동하여 최신 이미지로 업데이트하세요.
도커 작성 GPU 버전 docker compose -f docker-compose.gpu.yaml up -d --build CPU 버전 docker compose -f docker-compose.cpu.yaml up -d --build docker compose 로그 -f --no-log-prefix
python3.9-3.11 환경을 구성하고 ffmpeg를 설치합니다. yum install ffmpeg
또는 apt-get install ffmpeg
등
빈 디렉터리 /data/chattts
만들고 cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
가상 환경 만들기 python3 -m venv venv
가상 환경 source ./venv/bin/activate
종속성 설치 pip3 install -r requirements.txt
CUDA 가속이 필요하지 않은 경우 다음을 실행합니다.
pip3 install torch==2.2.0 torchaudio==2.2.0
CUDA 가속이 필요한 경우 다음을 실행하십시오.
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118 pip install nvidia-cublas-cu11 nvidia-cudnn-cu11
CUDA11.8+ ToolKit도 설치해야 합니다. 설치 방법을 직접 검색하거나 https://juejin.cn/post/7318704408727519270을 참조하세요.
CUDA 외에도 AMD GPU를 가속에 사용할 수 있으며 이를 위해서는 ROCm 및 PyTorch_ROCm 버전 설치가 필요합니다. AMG GPU는 추가 코드 수정 없이 PyTorch에서 바로 ROCm을 사용합니다.
pip3 install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/rocm6.0
설치가 완료된 후 rocm-smi 명령을 사용하여 시스템에서 AMD GPU를 볼 수 있습니다. 다음 Torch 코드(query_gpu.py)를 사용하여 현재 AMD GPU 장치를 쿼리할 수도 있습니다.
import torch print(torch.__version__) if torch.cuda.is_available(): device = torch.device("cuda") # a CUDA device object print('Using GPU:', torch.cuda.get_device_name(0)) else: device = torch.device("cpu") print('Using CPU') torch.cuda.get_device_properties(0)
위의 코드를 사용하여 AMD Radeon Pro W7900을 예로 들어 다음과 같이 장치를 쿼리합니다.
$ python ~/query_gpu.py 2.4.0.dev20240401+rocm6.0 Using GPU: AMD Radeon PRO W7900
AMD GPU 드라이버 및 ROCm을 설치하려면 https://rocm.docs.amd.com/projects/install-on-linux/en/latest/tutorial/quick-start.html을 참조하십시오.
그런 다음 https://pytorch.org/를 통해 PyTorch_ROCm 버전을 설치하세요.
python3 app.py
실행하여 시작하면 브라우저 창이 자동으로 기본 주소인 http://127.0.0.1:9966
으로 열립니다. (참고: 모델은 기본적으로 modelscope 매직 타워에서 다운로드되며 프록시 다운로드는 사용할 수 없습니다. 프록시를 꺼주세요)
python3.9-3.11 환경을 구성하고, git을 설치하고, brew install libsndfile git [email protected]
명령을 실행하여 계속 실행하세요.
brew install ffmpeg export PATH="/usr/local/opt/[email protected]/bin:$PATH" source ~/.bash_profile source ~/.zshrc
빈 디렉터리 /data/chattts
만들고 cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
가상 환경 만들기 python3 -m venv venv
가상 환경 source ./venv/bin/activate
종속성 설치 pip3 install -r requirements.txt
토치 설치 pip3 install torch==2.2.0 torchaudio==2.2.0
python3 app.py
실행하여 시작하면 브라우저 창이 자동으로 기본 주소인 http://127.0.0.1:9966
으로 열립니다. (참고: 모델은 기본적으로 modelscope 매직 타워에서 다운로드되며 프록시 다운로드는 사용할 수 없습니다. 프록시를 꺼주세요)
python3.9-3.11을 다운로드하고, 설치 시 Add Python to environment variables
선택해야 합니다.
ffmpeg.exe를 다운로드하여 소프트웨어 디렉토리의 ffmpeg 폴더에 넣습니다.
Git(https://github.com/git-for-windows/git/releases/download/v2.45.1.windows.1/Git-2.45.1-64-bit.exe)을 다운로드하여 설치합니다.
빈 폴더 D:/chattts
를 만들고 주소 표시줄에 cmd
입력한 후 팝업 cmd 창에서 git clone https://github.com/jianchang512/chatTTS-ui .
가상 환경을 생성하고 python -m venv venv
명령을 실행합니다.
가상 환경을 활성화하려면 .venvscriptsactivate
를 실행하십시오.
종속성을 설치하려면 pip install -r requirements.txt
실행하세요.
CUDA 가속이 필요하지 않은 경우
pip install torch==2.2.0 torchaudio==2.2.0
CUDA 가속이 필요한 경우 다음을 실행하십시오.
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
CUDA11.8+ ToolKit도 설치해야 합니다. 설치 방법을 직접 검색하거나 https://juejin.cn/post/7318704408727519270을 참조하세요.
python app.py
실행하여 시작하면 브라우저 창이 자동으로 기본 주소 http://127.0.0.1:9966
으로 열립니다. (참고: 모델은 기본적으로 modelscope 매직 타워에서 다운로드되며 프록시 다운로드는 사용할 수 없습니다. 프록시를 꺼주세요)
GPU 메모리가 4G 미만이면 CPU를 강제로 사용해야 합니다.
Windows 또는 Linux에서 비디오 메모리가 4G보다 크고 NVIDIA 그래픽 카드이지만 소스 코드 배포 후에도 CPU가 계속 사용되는 경우 먼저 Torch를 제거한 다음 Uninstall pip uninstall -y torch torchaudio
다시 설치해 볼 수 있습니다. pip uninstall -y torch torchaudio
실행하고 Cuda 버전의 torch를 다시 설치하세요. pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
. CUDA11.8+가 설치되어 있어야 합니다.
기본적으로 modelscope를 연결할 수 있는지 여부를 감지합니다. 연결이 가능하면 modelscope에서 모델을 다운로드하고, 그렇지 않으면 Huggingface.co에서 모델을 다운로드합니다.
0.96 버전 이후에는 ChatTTS 커널 업그레이드로 인해 본 사이트(https://modelscope.cn/studios/ttwwaaa/ChatTTS_Speaker)에서 다운로드한 pt 파일을 더 이상 직접 사용할 수 없습니다.
따라서 변환 스크립트 Cover-pt.py를 추가하면 Win 통합 패키지에서 Cover-pt.exe 파일을 직접 다운로드하여 app.exe와 동일한 디렉터리에 배치하고 두 번 클릭하여 실행할 수 있습니다.
python cover-pt.py
실행하면 speaker
디렉터리에서 seed_
로 시작하고 _emb.pt
로 끝나는 파일, 즉 다운로드 후 기본 파일명 pt가 사용 가능한 인코딩 형식으로 변환됩니다. _emb-covert.pt
로 끝나는 이름으로 변경되었습니다.
예:
이 파일이 speaker/seed_2155_restored_emb.pt
에 존재한다면 speaker/seed_2155_restored_emb-cover.pt
로 변환되며, 원본 pt 파일은 삭제되고 변환된 파일만 남게 됩니다.
기본 주소는 http://127.0.0.1:9966
입니다. 수정하려면 디렉터리에서 .env
파일을 열고 WEB_ADDRESS=127.0.0.1:9966
WEB_ADDRESS=192.168.0.10:9966
와 같은 적절한 IP 및 포트로 변경하면 됩니다. WEB_ADDRESS=192.168.0.10:9966
LAN으로 접근 가능
요청 방법: POST
요청 주소: http://127.0.0.1:9966/tts
요청 매개변수:
text: str| 필수, 음성으로 합성할 텍스트
voice: 선택사항, 기본값은 2222, 음성을 결정하는 숫자, 2222 | 6653 | 4099 | 5099 중 하나를 선택할 수 있으며, 임의의 음성을 전달하면 음성이 무작위로 사용됩니다.
프롬프트: str| 선택 사항, 기본값은 비어 있음, 웃음 및 일시 정지 설정(예: [oral_2][laugh_0][break_6]
온도: 부동|선택 사항, 기본값 0.3
top_p: float|선택 사항, 기본값 0.7
top_k: int| 선택사항, 기본값 20
Skip_refine: int| 선택 사항, 기본값 0, 1=정의 텍스트 건너뛰기, 0=건너뛰지 않음
custom_voice: int| 선택 사항, 기본값 0, 음색 값을 얻을 때 사용자 정의 시드 값, 0보다 큰 정수가 필요합니다. 설정하면 이것이 우선하며 voice
무시됩니다.
반환: json 데이터
반환 성공: {code:0,msg:ok,audio_files:[dict1,dict2]}
其中 audio_files 是字典数组,每个元素dict为 {filename:wav文件绝对路径,url:可下载的wav网址}
실패 시 복귀:
{code:1,msg:错误原因}
# API调用代码 import requests res = requests.post('http://127.0.0.1:9966/tts', data={ "text": "若不懂无需填写", "prompt": "", "voice": "3333", "temperature": 0.3, "top_p": 0.7, "top_k": 20, "skip_refine": 0, "custom_voice": 0 }) print(res.json()) #ok {code:0, msg:'ok', audio_files:[{filename: E:/python/chattts/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav, url: http://127.0.0.1:9966/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav}]} #error {code:1, msg:"error"}
pyVideoTrans를 1.82 이상으로 업그레이드 https://github.com/jianchang512/pyvideotrans
메뉴-설정-ChatTTS를 클릭하고 요청 주소를 입력하세요. 기본값은 http://127.0.0.1:9966입니다.
테스트에 문제가 없으면 기본 인터페이스에서 ChatTTS
선택하세요.