مشروع README باللغة الإنجليزية |. مجموعة مناقشة Discord
واجهة ويب محلية بسيطة تستخدم ChatTTS لتجميع النص في كلام، وتدعم الأرقام الصينية والإنجليزية والأرقام المختلطة، وتوفر واجهة API.
مشروع ChatTTS الأصلي بدءًا من الإصدار 0.96، يجب أولاً تثبيت ffmpeg على نشر التعليمات البرمجية المصدر. لم تعد ملفات timbre السابقة متوفرة. يرجى ملء قيم timbre وإعادة إنشاءها
[راعي]
302.AI هو سوبر ماركت يعمل بالذكاء الاصطناعي يجمع أفضل العلامات التجارية في العالم، مع نظام الدفع أولاً بأول، ورسوم شهرية صفرية، وصفر عتبة لاستخدام أنواع مختلفة من الذكاء الاصطناعي.
وظائف شاملة، بسيطة وسهلة الاستخدام، حد الصفر للدفع عند الطلب، الفصل بين المديرين والمستخدمين
معاينة الواجهة
تأثير مختلط للرمز الأبجدي الرقمي
قم بتنزيل الحزمة المضغوطة من الإصدارات، وقم بفك ضغطها وانقر نقرًا مزدوجًا فوق app.exe لاستخدامها
قد تقوم بعض برامج الأمان بالإبلاغ عن الفيروسات، يرجى الخروج أو استخدام نشر التعليمات البرمجية المصدر
إذا كانت بطاقة الرسومات NVIDIA أكبر من ذاكرة فيديو 4G وتم تثبيت CUDA11.8+، فسيتم تمكين تسريع GPU.
لأول مرة، قم بتنزيل النموذج من Huggingface.co أو github إلى دليل الأصول. إذا كانت الشبكة غير مستقرة، فقد يفشل التنزيل. إذا فشل، فيرجى تنزيله بشكل منفصل.
بعد التنزيل وفك الضغط، سيظهر لك مجلد الأصول. يوجد العديد من ملفات pt في هذا المجلد. انسخ جميع ملفات pt إلى دليل الأصول، ثم أعد تشغيل البرنامج.
عنوان تنزيل GitHub: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/all-models.7z
عنوان تنزيل Baidu Netdisk: https://pan.baidu.com/s/1yGDZM9YNN7kW9e7SFo8lLw?pwd=ct5x
سحب مستودع المشروع
استنساخ المشروع في أي مسار، على سبيل المثال:
استنساخ بوابة https://github.com/jianchang512/ChatTTS-ui.git chat-tts-ui
ابدأ العداء
أدخل دليل المشروع:
مؤتمر نزع السلاح دردشة تحويل النص إلى كلام-واجهة المستخدم
ابدأ الحاوية واعرض سجل التهيئة:
إصدار وحدة معالجة الرسومات docker compose -f docker-compose.gpu.yaml up -d نسخة وحدة المعالجة المركزية docker compose -f docker-compose.cpu.yaml up -d يقوم عامل الإرساء بتأليف السجلات -f --no-log-prefix
قم بزيارة ChatTTS WebUI
启动:['0.0.0.0', '9966']
، أي الوصول إلى IP:9966
لجهاز النشر، على سبيل المثال:
هذا الجهاز: http://127.0.0.1:9966
الخادم: http://192.168.1.100:9966
احصل على أحدث كود من الفرع الرئيسي:
بوابة الخروج الرئيسية بوابة سحب الأصل الرئيسي
انتقل إلى الخطوة التالية وقم بالتحديث إلى أحدث صورة:
عامل ميناء يؤلف إصدار وحدة معالجة الرسومات docker compose -f docker-compose.gpu.yaml up -d --build إصدار وحدة المعالجة المركزية docker compose -f docker-compose.cpu.yaml up -d --build يقوم عامل الإرساء بتأليف السجلات -f --no-log-prefix
قم بتكوين بيئة python3.9-3.11 وتثبيت ffmpeg. yum install ffmpeg
أو apt-get install ffmpeg
الخ.
قم بإنشاء دليل فارغ /data/chattts
وقم بتنفيذ الأمر cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
إنشاء بيئة افتراضية python3 -m venv venv
تفعيل source ./venv/bin/activate
تثبيت التبعيات pip3 install -r requirements.txt
إذا لم يكن تسريع CUDA مطلوبًا، فقم بالتنفيذ
pip3 install torch==2.2.0 torchaudio==2.2.0
إذا كان تسريع CUDA مطلوبًا، فقم بالتنفيذ
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118 pip install nvidia-cublas-cu11 nvidia-cudnn-cu11
تحتاج أيضًا إلى تثبيت CUDA11.8+ ToolKit، يرجى البحث عن طريقة التثبيت بنفسك أو الرجوع إلى https://juejin.cn/post/7318704408727519270
بالإضافة إلى CUDA، يمكن أيضًا استخدام وحدات معالجة الرسومات AMD للتسريع، الأمر الذي يتطلب تثبيت إصدارات ROCm وPyTorch_ROCm. يستخدم AMG GPU ROCm خارج الصندوق في PyTorch دون تعديلات إضافية على التعليمات البرمجية.
pip3 install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/rocm6.0
بعد اكتمال التثبيت، يمكنك استخدام الأمر rocm-smi لعرض وحدة معالجة الرسومات AMD في النظام. يمكنك أيضًا استخدام رمز Torch التالي (query_gpu.py) للاستعلام عن جهاز AMD GPU الحالي.
import torch print(torch.__version__) if torch.cuda.is_available(): device = torch.device("cuda") # a CUDA device object print('Using GPU:', torch.cuda.get_device_name(0)) else: device = torch.device("cpu") print('Using CPU') torch.cuda.get_device_properties(0)
باستخدام الكود أعلاه، مع أخذ AMD Radeon Pro W7900 كمثال، قم بالاستعلام عن الجهاز على النحو التالي.
$ python ~/query_gpu.py 2.4.0.dev20240401+rocm6.0 Using GPU: AMD Radeon PRO W7900
يرجى الرجوع إلى https://rocm.docs.amd.com/projects/install-on-linux/en/latest/tutorial/quick-start.html لتثبيت برنامج تشغيل AMD GPU وROCm.
ثم قم بتثبيت إصدار PyTorch_ROCm من خلال https://pytorch.org/.
قم بتنفيذ python3 app.py
للبدء، وسيتم فتح نافذة المتصفح تلقائيًا بالعنوان الافتراضي http://127.0.0.1:9966
(ملاحظة: يتم تنزيل النموذج من البرج السحري modelscope بشكل افتراضي، ولا يمكن استخدام تنزيل الوكيل. يرجى إيقاف تشغيل الوكيل)
قم بتكوين بيئة python3.9-3.11، ثم قم بتثبيت git، ثم قم بتنفيذ الأمر brew install libsndfile git [email protected]
لمواصلة التنفيذ.
brew install ffmpeg export PATH="/usr/local/opt/[email protected]/bin:$PATH" source ~/.bash_profile source ~/.zshrc
قم بإنشاء دليل فارغ /data/chattts
وقم بتنفيذ الأمر cd /data/chattts && git clone https://github.com/jianchang512/chatTTS-ui .
إنشاء بيئة افتراضية python3 -m venv venv
تفعيل source ./venv/bin/activate
تثبيت التبعيات pip3 install -r requirements.txt
تثبيت الشعلة pip3 install torch==2.2.0 torchaudio==2.2.0
قم بتنفيذ python3 app.py
للبدء، وسيتم فتح نافذة المتصفح تلقائيًا بالعنوان الافتراضي http://127.0.0.1:9966
(ملاحظة: يتم تنزيل النموذج من البرج السحري modelscope بشكل افتراضي، ولا يمكن استخدام تنزيل الوكيل. يرجى إيقاف تشغيل الوكيل)
قم بتنزيل python3.9-3.11، وتأكد من تحديد Add Python to environment variables
عند التثبيت.
قم بتنزيل ffmpeg.exe وضعه في مجلد ffmpeg في دليل البرنامج
قم بتنزيل وتثبيت git، https://github.com/git-for-windows/git/releases/download/v2.45.1.windows.1/Git-2.45.1-64-bit.exe
أنشئ مجلدًا فارغًا D:/chattts
وأدخله، وأدخل cmd
في شريط العناوين واضغط على Enter في نافذة cmd المنبثقة، وقم بتنفيذ الأمر git clone https://github.com/jianchang512/chatTTS-ui .
قم بإنشاء بيئة افتراضية وقم بتنفيذ الأمر python -m venv venv
لتنشيط البيئة الافتراضية، قم بتنفيذ .venvscriptsactivate
لتثبيت التبعيات، قم بتنفيذ pip install -r requirements.txt
إذا لم يكن تسريع CUDA مطلوبًا،
تنفيذ pip install torch==2.2.0 torchaudio==2.2.0
إذا كان تسريع CUDA مطلوبًا، فقم بالتنفيذ
pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
تحتاج أيضًا إلى تثبيت CUDA11.8+ ToolKit، يرجى البحث عن طريقة التثبيت بنفسك أو الرجوع إلى https://juejin.cn/post/7318704408727519270
قم بتنفيذ python app.py
للبدء، وسيتم فتح نافذة المتصفح تلقائيًا بالعنوان الافتراضي http://127.0.0.1:9966
(ملاحظة: يتم تنزيل النموذج من البرج السحري modelscope افتراضيًا، ولا يمكن استخدام تنزيل الوكيل. يرجى إيقاف تشغيل الوكيل)
إذا كانت ذاكرة وحدة معالجة الرسومات أقل من 4G، فسيتم فرض استخدام وحدة المعالجة المركزية.
في نظام التشغيل Windows أو Linux، إذا كانت ذاكرة الفيديو أكبر من 4G وكانت عبارة عن بطاقة رسومات NVIDIA، ولكن وحدة المعالجة المركزية لا تزال مستخدمة بعد نشر التعليمات البرمجية المصدر، فيمكنك محاولة إلغاء تثبيت pip uninstall -y torch torchaudio
أولاً ثم إعادة تثبيته pip uninstall -y torch torchaudio
وأعد تثبيت إصدار cuda من الشعلة. pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
. يجب تثبيت CUDA11.8+
افتراضيًا، يكتشف ما إذا كان من الممكن توصيل Modelscope، إذا كان ذلك ممكنًا، قم بتنزيل النموذج من modelscope، وإلا قم بتنزيل النموذج من Huggingface.co.
بعد الإصدار 0.96، بسبب ترقية ChatTTS kernel، لم يعد من الممكن استخدام ملف pt الذي تم تنزيله من هذا الموقع مباشرة (https://modelscope.cn/studios/ttwwaaa/ChatTTS_Speaker)
لذلك، من خلال إضافة البرنامج النصي للتحويل Cover-pt.py، يمكن لحزمة التكامل Win تنزيل ملف Cover-pt.exe مباشرةً ووضعه في نفس الدليل مثل app.exe والنقر نقرًا مزدوجًا فوقه لتنفيذه.
بعد تنفيذ python cover-pt.py
، سيتم تحويل الملف الذي يبدأ بـ seed_
وينتهي بـ _emb.pt
في دليل speaker
، أي اسم الملف الافتراضي pt بعد التنزيل، إلى تنسيق ترميز متاح تمت إعادة تسميته وتنتهي بـ _emb-covert.pt
.
مثال:
إذا كان هذا الملف موجودًا في speaker/seed_2155_restored_emb.pt
، فسيتم تحويله إلى speaker/seed_2155_restored_emb-cover.pt
، ثم سيتم حذف ملف pt الأصلي، ولم يتبق سوى الملف المحول.
العنوان الافتراضي هو http://127.0.0.1:9966
إذا كنت تريد تعديله، فيمكنك فتح ملف .env
في الدليل وتغيير WEB_ADDRESS=127.0.0.1:9966
إلى عنوان IP والمنفذ المناسبين، مثل WEB_ADDRESS=192.168.0.10:9966
بحيث يمكن الوصول إليه عن طريق الشبكة المحلية
طريقة الطلب: نشر
عنوان الطلب: http://127.0.0.1:9966/tts
معلمات الطلب:
النص: str|. مطلوب، النص المراد تحويله إلى كلام
الصوت: اختياري، الافتراضي هو 2222، الرقم الذي يحدد الصوت، 2222 |. 7869 |. 4099 |
موجه: str|. اختياري، فارغ افتراضيًا، اضبط الضحك والإيقاف المؤقت، على سبيل المثال [oral_2] [laugh_0] [break_6]
درجة الحرارة: تعويم |. اختياري، الافتراضي 0.3
top_p: تعويم|. اختياري، الافتراضي 0.7
top_k: int| اختياري، الافتراضي 20
Skip_refine: int|. اختياري، الافتراضي 0، 1=تخطي تنقيح النص، 0=عدم التخطي
custom_voice: int|. اختياري، الافتراضي 0، القيمة الأولية المخصصة عند الحصول على قيمة الجرس، تحتاج إلى عدد صحيح أكبر من 0، إذا تم تعيينه، فسيسود هذا، وسيتم تجاهل voice
العودة: بيانات json
تم الإرجاع بنجاح: {code:0,msg:ok,audio_files:[dict1,dict2]}
其中 audio_files 是字典数组,每个元素dict为 {filename:wav文件绝对路径,url:可下载的wav网址}
العودة إلى الفشل:
{code:1,msg:错误原因}
# API调用代码 import requests res = requests.post('http://127.0.0.1:9966/tts', data={ "text": "若不懂无需填写", "prompt": "", "voice": "3333", "temperature": 0.3, "top_p": 0.7, "top_k": 20, "skip_refine": 0, "custom_voice": 0 }) print(res.json()) #ok {code:0, msg:'ok', audio_files:[{filename: E:/python/chattts/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav, url: http://127.0.0.1:9966/static/wavs/20240601-22_12_12-c7456293f7b5e4dfd3ff83bbd884a23e.wav}]} #error {code:1, msg:"error"}
ترقية pyVideoTrans إلى 1.82+ https://github.com/jianchang512/pyvideotrans
انقر على القائمة - الإعدادات - ChatTTS، املأ عنوان الطلب، يجب أن يكون الافتراضي http://127.0.0.1:9966
بعد عدم وجود مشاكل في الاختبار، حدد ChatTTS
في الواجهة الرئيسية