README |. Tip Project |. กลุ่มสนทนา Discord
เว็บอินเทอร์เฟซภายในแบบธรรมดาที่ใช้ ChatTTS เพื่อสังเคราะห์ข้อความเป็นคำพูด รองรับภาษาจีน อังกฤษ และตัวเลขคละ และจัดเตรียมอินเทอร์เฟซ API
โครงการ ChatTTS ดั้งเดิม เริ่มต้นจากเวอร์ชัน 0.96 การปรับใช้ซอร์สโค้ดจะต้องติดตั้ง ffmpeg ก่อน ไฟล์ timbre และ pt จะไม่สามารถใช้งานได้อีกต่อไป
[สปอนเซอร์]
302.AI คือซุปเปอร์มาร์เก็ต AI ที่รวบรวมแบรนด์ชั้นนำของโลกมาไว้ด้วยกัน โดยมาพร้อมการจ่ายตามที่ใช้งาน ไม่มีค่าธรรมเนียมรายเดือน และไม่มีเกณฑ์ขั้นต่ำสำหรับการใช้ AI ประเภทต่างๆ
ฟังก์ชั่นที่ครอบคลุม เรียบง่ายและใช้งานง่าย ไม่มีเกณฑ์สำหรับการชำระเงินตามความต้องการ การแยกผู้จัดการและผู้ใช้
การแสดงตัวอย่างอินเทอร์เฟซ
เอฟเฟกต์ผสมอักขระควบคุมสัญลักษณ์ตัวอักษรและตัวเลข
ดาวน์โหลดแพ็คเกจบีบอัดจาก Releases แตกไฟล์แล้วดับเบิลคลิก app.exe เพื่อใช้งาน
ซอฟต์แวร์ความปลอดภัยบางตัวอาจรายงานไวรัส โปรดออกหรือใช้ซอร์สโค้ด
หากการ์ดกราฟิก NVIDIA มีขนาดใหญ่กว่าหน่วยความจำวิดีโอ 4G และติดตั้ง CUDA11.8+ การเร่งความเร็ว GPU จะถูกเปิดใช้งาน
เป็นครั้งแรก ให้ดาวน์โหลดโมเดลจาก Huggingface.co หรือ github ไปยังไดเร็กทอรีสินทรัพย์ หากเครือข่ายไม่เสถียร การดาวน์โหลดอาจล้มเหลว หากล้มเหลว โปรดดาวน์โหลดแยกต่างหาก
หลังจากดาวน์โหลดและขยายขนาด คุณจะเห็นโฟลเดอร์เนื้อหา มีไฟล์ pt หลายไฟล์ในโฟลเดอร์นี้ คัดลอกไฟล์ pt ทั้งหมดไปยังไดเร็กทอรีสินทรัพย์ จากนั้นรีสตาร์ทซอฟต์แวร์
ที่อยู่ดาวน์โหลด GitHub: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/all-models.7z
ที่อยู่การดาวน์โหลด Baidu Netdisk: https://pan.baidu.com/s/1yGDZM9YNN7kW9e7SFo8lLw?pwd=ct5x
ดึงที่เก็บโปรเจ็กต์
โคลนโปรเจ็กต์ในพาธใดก็ได้ เช่น:
โคลนคอมไพล์ https://github.com/jianchang512/ChatTTS-ui.git chat-tts-ui
เริ่มนักวิ่ง
ป้อนไดเร็กทอรีโครงการ:
ซีดีแชท-tts-ui
เริ่มต้นคอนเทนเนอร์และดูบันทึกการเริ่มต้น:
เวอร์ชัน gpu นักเทียบท่าเขียน -f docker-compose.gpu.yaml ขึ้น -d รุ่นซีพียู นักเทียบท่าเขียน -f นักเทียบท่า-compose.cpu.yaml ขึ้น -d นักเทียบท่าเขียนบันทึก -f --no-log-prefix
เยี่ยมชม ChatTTS WebUI
启动:['0.0.0.0', '9966']
นั่นคือ เข้าถึง IP:9966
ของอุปกรณ์การปรับใช้ ตัวอย่างเช่น:
เครื่องนี้: http://127.0.0.1:9966
เซิร์ฟเวอร์: http://192.168.1.100:9966
รับรหัสล่าสุดจากสาขาหลัก:
git ชำระเงินหลัก git pull ต้นกำเนิดหลัก
ไปที่ขั้นตอนถัดไปและอัปเดตเป็นรูปภาพล่าสุด:
นักเทียบท่าเขียนลง นักเทียบท่าเวอร์ชัน gpu เขียน -f docker-compose.gpu.yaml up -d --build เวอร์ชัน cpu นักเทียบท่าเขียน -f docker-compose.cpu.yaml up -d --build นักเทียบท่าเขียนบันทึก -f --no-log-prefix
กำหนดค่าสภาพแวดล้อม python3.9-3.11 และติดตั้ง ffmpeg yum install ffmpeg
หรือ apt-get install ffmpeg
ฯลฯ
สร้างไดเรกทอรีว่าง /data/chattts
และดำเนินการคำสั่ง cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
สร้างสภาพแวดล้อมเสมือน python3 -m venv venv
เปิดใช้งาน source ./venv/bin/activate
activate
ติดตั้งการพึ่งพา pip3 install -r requirements.txt
หากไม่จำเป็นต้องเร่งความเร็ว CUDA ให้ดำเนินการ
pip3 install torch==2.2.0 torchaudio==2.2.0
หากจำเป็นต้องเร่งความเร็ว CUDA ให้ดำเนินการ
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118 pip install nvidia-cublas-cu11 nvidia-cudnn-cu11
คุณต้องติดตั้ง CUDA11.8+ ToolKit ด้วย โปรดค้นหาวิธีการติดตั้งด้วยตัวเองหรืออ้างถึง https://juejin.cn/post/7318704408727519270
นอกจาก CUDA แล้ว AMD GPU ยังสามารถใช้เพื่อเร่งความเร็วได้ ซึ่งจำเป็นต้องติดตั้งเวอร์ชัน ROCm และ PyTorch_ROCm AMG GPU ใช้ ROCm ทันทีใน PyTorch โดยไม่มีการแก้ไขโค้ดเพิ่มเติม
pip3 install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/rocm6.0
หลังจากการติดตั้งเสร็จสมบูรณ์ คุณสามารถใช้คำสั่ง rocm-smi เพื่อดู AMD GPU ในระบบได้ คุณยังสามารถใช้รหัส Torch ต่อไปนี้ (query_gpu.py) เพื่อสอบถามอุปกรณ์ AMD GPU ปัจจุบัน
import torch print(torch.__version__) if torch.cuda.is_available(): device = torch.device("cuda") # a CUDA device object print('Using GPU:', torch.cuda.get_device_name(0)) else: device = torch.device("cpu") print('Using CPU') torch.cuda.get_device_properties(0)
โดยใช้โค้ดข้างต้น โดยใช้ตัวอย่าง AMD Radeon Pro W7900 ค้นหาอุปกรณ์ดังต่อไปนี้
$ python ~/query_gpu.py 2.4.0.dev20240401+rocm6.0 Using GPU: AMD Radeon PRO W7900
โปรดดูที่ https://rocm.docs.amd.com/projects/install-on-linux/en/latest/tutorial/quick-start.html เพื่อติดตั้ง AMD GPU Driver และ ROCm
จากนั้นติดตั้งเวอร์ชัน PyTorch_ROCm ผ่าน https://pytorch.org/
ดำเนินการ python3 app.py
เพื่อเริ่มต้น จากนั้นหน้าต่างเบราว์เซอร์จะเปิดขึ้นโดยอัตโนมัติพร้อมที่อยู่เริ่มต้น http://127.0.0.1:9966
(หมายเหตุ: โมเดลจะถูกดาวน์โหลดจาก modelscope magic tower ตามค่าเริ่มต้น และการดาวน์โหลดพร็อกซีไม่สามารถใช้งานได้ กรุณาปิดพรอกซี)
กำหนดค่าสภาพแวดล้อม python3.9-3.11 ติดตั้ง git และดำเนินการคำสั่ง brew install libsndfile git [email protected]
เพื่อดำเนินการต่อไป
brew install ffmpeg export PATH="/usr/local/opt/[email protected]/bin:$PATH" source ~/.bash_profile source ~/.zshrc
สร้างไดเรกทอรีว่าง /data/chattts
และดำเนินการคำสั่ง cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
สร้างสภาพแวดล้อมเสมือน python3 -m venv venv
เปิดใช้งาน source ./venv/bin/activate
activate
ติดตั้งการพึ่งพา pip3 install -r requirements.txt
ติดตั้ง torch pip3 install torch==2.2.0 torchaudio==2.2.0
ดำเนินการ python3 app.py
เพื่อเริ่มต้น จากนั้นหน้าต่างเบราว์เซอร์จะเปิดขึ้นโดยอัตโนมัติพร้อมที่อยู่เริ่มต้น http://127.0.0.1:9966
(หมายเหตุ: โมเดลจะถูกดาวน์โหลดจาก modelscope magic tower ตามค่าเริ่มต้น และการดาวน์โหลดพร็อกซีไม่สามารถใช้งานได้ กรุณาปิดพรอกซี)
ดาวน์โหลด python3.9-3.11 อย่าลืมเลือก Add Python to environment variables
เมื่อทำการติดตั้ง
ดาวน์โหลด ffmpeg.exe และวางไว้ในโฟลเดอร์ ffmpeg ในไดเร็กทอรีซอฟต์แวร์
ดาวน์โหลดและติดตั้ง git https://github.com/git-for-windows/git/releases/download/v2.45.1.windows.1/Git-2.45.1-64-bit.exe
สร้างโฟลเดอร์ว่าง D:/chattts
แล้วป้อน ป้อน cmd
ในแถบที่อยู่แล้วกด Enter ในหน้าต่างป๊อปอัป cmd ดำเนินการคำสั่ง git clone https://github.com/jianchang512/chatTTS-ui .
สร้างสภาพแวดล้อมเสมือนและรันคำสั่ง python -m venv venv
หากต้องการเปิดใช้งานสภาพแวดล้อมเสมือน ให้ดำเนินการ .venvscriptsactivate
venvscriptsactivate
หากต้องการติดตั้งการขึ้นต่อกัน ให้ดำเนินการ pip install -r requirements.txt
หากไม่จำเป็นต้องเร่งความเร็ว CUDA
ดำเนินการ pip install torch==2.2.0 torchaudio==2.2.0
หากจำเป็นต้องเร่งความเร็ว CUDA ให้ดำเนินการ
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
คุณต้องติดตั้ง CUDA11.8+ ToolKit ด้วย โปรดค้นหาวิธีการติดตั้งด้วยตัวเองหรืออ้างถึง https://juejin.cn/post/7318704408727519270
ดำเนินการ python app.py
เพื่อเริ่มต้น จากนั้นหน้าต่างเบราว์เซอร์จะเปิดขึ้นโดยอัตโนมัติพร้อมที่อยู่เริ่มต้น http://127.0.0.1:9966
(หมายเหตุ: โมเดลจะถูกดาวน์โหลดจาก modelscope magic tower ตามค่าเริ่มต้น และการดาวน์โหลดพร็อกซีไม่สามารถใช้งานได้ กรุณาปิดพรอกซี)
หากหน่วยความจำ GPU น้อยกว่า 4G CPU จะถูกบังคับให้ใช้งาน
ใน Windows หรือ Linux หากหน่วยความจำวิดีโอมากกว่า 4G และเป็นการ์ดกราฟิก NVIDIA แต่ CPU ยังคงใช้อยู่หลังจากการปรับใช้ซอร์สโค้ด คุณสามารถลองถอนการติดตั้ง pip uninstall -y torch torchaudio
ก่อนแล้วจึงติดตั้งใหม่ pip uninstall -y torch torchaudio
และติดตั้งคบเพลิงเวอร์ชัน cuda ใหม่ pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
ต้องติดตั้ง CUDA11.8+
โดยค่าเริ่มต้น จะตรวจพบว่าสามารถเชื่อมต่อ modelscope ได้หรือไม่ หากทำได้ ให้ดาวน์โหลดโมเดลจาก modelscope หรือไม่ก็ดาวน์โหลดโมเดลจาก Huggingface.co
หลังจากเวอร์ชัน 0.96 เนื่องจากการอัปเกรดเคอร์เนล ChatTTS จึงไม่สามารถใช้ไฟล์ pt ที่ดาวน์โหลดจากไซต์นี้โดยตรงได้อีกต่อไป (https://modelscope.cn/studios/ttwwaaa/ChatTTS_Speaker)
ดังนั้น ด้วยการเพิ่มสคริปต์การแปลง cover-pt.py แพ็คเกจการรวม Win จึงสามารถดาวน์โหลดไฟล์ cover-pt.exe ได้โดยตรง และวางไว้ในไดเร็กทอรีเดียวกันกับ app.exe และดับเบิลคลิกเพื่อดำเนินการ
หลังจากดำเนินการ python cover-pt.py
ไฟล์ที่ขึ้นต้นด้วย seed_
และลงท้ายด้วย _emb.pt
ในไดเร็กทอรี speaker
ซึ่งก็คือชื่อไฟล์เริ่มต้น pt หลังจากดาวน์โหลด จะถูกแปลงเป็นรูปแบบการเข้ารหัสที่ใช้ได้ pt ที่แปลงแล้วจะเป็น เปลี่ยนชื่อลงท้ายด้วย _emb-covert.pt
ตัวอย่าง:
หากไฟล์นี้มีอยู่ใน speaker/seed_2155_restored_emb.pt
ไฟล์จะถูกแปลงเป็น speaker/seed_2155_restored_emb-cover.pt
จากนั้นไฟล์ pt ต้นฉบับจะถูกลบ เหลือเพียงไฟล์ที่แปลงแล้ว
ที่อยู่เริ่มต้นคือ http://127.0.0.1:9966
หากคุณต้องการแก้ไข คุณสามารถเปิดไฟล์ .env
ในไดเร็กทอรีและเปลี่ยน WEB_ADDRESS=127.0.0.1:9966
เป็น IP และพอร์ตที่เหมาะสม เช่น WEB_ADDRESS=192.168.0.10:9966
เพื่อให้ LAN เข้าถึงได้
วิธีการขอ: POST
ที่อยู่คำขอ: http://127.0.0.1:9966/tts
พารามิเตอร์คำขอ:
text: str| จำเป็น ข้อความที่จะสังเคราะห์เป็นคำพูด
เสียง: ไม่จำเป็น ค่าเริ่มต้นคือ 2222 | ตัวเลขที่กำหนดเสียง 2222 |. 6653 |. 5099 | คุณสามารถเลือกได้หนึ่งรายการ หรือหากคุณส่งเสียงใดเสียงหนึ่ง เสียงนั้นจะถูกสุ่มใช้
prompt: str| ไม่จำเป็น, ค่าเริ่มต้นว่างเปล่า, ตั้งค่าเสียงหัวเราะและหยุดชั่วคราว เช่น [oral_2][laugh_0][break_6]
อุณหภูมิ: ลอย| ไม่จำเป็น, ค่าเริ่มต้น 0.3
top_p: float| ไม่จำเป็น, ค่าเริ่มต้น 0.7
top_k: int| เป็นทางเลือก ค่าเริ่มต้น 20
skip_refine: int| ไม่บังคับ, ค่าเริ่มต้น 0, 1=ข้ามการปรับแต่งข้อความ, 0=ไม่ข้าม
custom_voice: int| ตัวเลือก ค่าเริ่มต้น 0 ค่าเริ่มต้นที่กำหนดเองเมื่อได้รับค่าเสียงต่ำ ต้องการจำนวนเต็มที่มากกว่า 0 หากตั้งค่าไว้ สิ่งนี้จะมีผลเหนือกว่า voice
จะถูกละเว้น
ส่งคืน: ข้อมูล json
ส่งคืนสำเร็จ: {code:0,msg:ok,audio_files:[dict1,dict2]}
其中 audio_files 是字典数组,每个元素dict为 {filename:wav文件绝对路径,url:可下载的wav网址}
ผลตอบแทนเมื่อล้มเหลว:
{code:1,msg:错误原因}
# API调用代码 import requests res = requests.post('http://127.0.0.1:9966/tts', data={ "text": "若不懂无需填写", "prompt": "", "voice": "3333", "temperature": 0.3, "top_p": 0.7, "top_k": 20, "skip_refine": 0, "custom_voice": 0 }) print(res.json()) #ok {code:0, msg:'ok', audio_files:[{filename: E:/python/chattts/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav, url: http://127.0.0.1:9966/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav}]} #error {code:1, msg:"error"}
อัปเกรด pyVideoTrans เป็น 1.82+ https://github.com/jianchang512/pyvideotrans
คลิก Menu-Settings-ChatTTS กรอกที่อยู่คำขอ โดยค่าเริ่มต้นควรเป็น http://127.0.0.1:9966
หลังจากการทดสอบไม่มีปัญหา ให้เลือก ChatTTS
ในอินเทอร์เฟซหลัก