تنزيل LocalAIVoiceChat - تنزيل كود مصدر LocalAIVoiceChat

LocalAIVoiceChat

كود الذكاء الاصطناعي

Initial Release

تنزيل

الدردشة الصوتية المحلية بالذكاء الاصطناعي

يوفر التحدث في الوقت الفعلي باستخدام الذكاء الاصطناعي، محليًا بالكامل على جهاز الكمبيوتر الخاص بك، مع شخصية وصوت AI قابلين للتخصيص.

تلميح: أي شخص مهتم بأحدث الحلول الصوتية، يرجى أيضًا إلقاء نظرة على Linguflex . فهو يتيح لك التحكم في بيئتك من خلال التحدث، وهو أحد أكثر البرامج المساعدة مفتوحة المصدر قدرة وتطورًا المتاحة حاليًا.

ملاحظة: إذا واجهت خطأ "خطأ تركيبي عام: تلقى isin() خطأ مجموعة غير صالحة من الوسائط"، فهذا بسبب أن مكتبة المحولات الجديدة قدمت عدم توافق مع Coqui TTS (انظر هنا). يرجى الرجوع إلى إصدار محولات أقدم: pip install transformers==4.38.2 أو ترقية RealtimeTTS إلى الإصدار الأحدث pip install realtimetts==0.4.1 .

حول المشروع

يدمج نموذج اللغة Zephyr 7B القوي مع مكتبات تحويل الكلام إلى نص وتحويل النص إلى كلام في الوقت الفعلي لإنشاء روبوت دردشة محلي سريع وجذاب يعتمد على الصوت.

Local.AI.Talkbot.GithubClip.mov

تلميح: إذا واجهت مشكلات في تثبيت llama.cpp، فيرجى أيضًا إلقاء نظرة على مشروع LocalEmotionalAIVoiceChat الخاص بي. وهو يشتمل على إخراج تحويل النص إلى كلام في الوقت الفعلي مع مراعاة المشاعر ولديه خيارات متعددة لموفر LLM. يمكنك أيضًا استخدامه مع نماذج الذكاء الاصطناعي المختلفة.

مكدس التكنولوجيا

llama_cpp مع Zephyr 7B
- واجهة مكتبة لنماذج اللغة القائمة على اللاما
RealtimeSTT مع fast_whisper
- مكتبة النسخ من الكلام إلى النص في الوقت الحقيقي
RealtimeTTS مع Coqui XTTS
- مكتبة تركيب النص إلى كلام في الوقت الحقيقي

ملحوظات

هذا البرنامج في حالة ألفا تجريبية ولا يوفر استقرارًا جاهزًا للإنتاج. لا يزال نموذج XTTS الحالي المستخدم في التوليف به بعض الثغرات وكذلك Zephyr - رغم أنه جيد حقًا لنموذج 7B - بالطبع لا يمكنه التنافس مع جودة الإجابة لـ GPT 4 أو Claude أو Perplexity.

يرجى اعتبار هذه محاولة أولى لتوفير إصدار مبكر من برنامج الدردشة الآلي المحلي في الوقت الفعلي.

التحديثات

التحديث إلى طراز Coqui XTTS 2.0
Bugfix إلى RealtimeTTS (لم يعمل تنزيل نموذج Coqui بشكل صحيح)

المتطلبات الأساسية

ستحتاج إلى وحدة معالجة رسومات (GPU) بسعة حوالي 8 جيجابايت من VRAM لتشغيل هذا في الوقت الفعلي.

لمستخدمي نفيديا

مجموعة أدوات NVIDIA CUDA 11.8 :
- قم بالوصول إلى أرشيف مجموعة أدوات NVIDIA CUDA.
- اختر الإصدار 11.x واتبع تعليمات التنزيل والتثبيت.
NVIDIA cuDNN 8.7.0 لـ CUDA 11.x :
- انتقل إلى أرشيف NVIDIA cuDNN.
- حدد موقع "cuDNN v8.7.0 (28 نوفمبر 2022) وقم بتنزيله لـ CUDA 11.x".
- اتبع دليل التثبيت المقدم.

لمستخدمي AMD

قم بتثبيت ROCm v.5.7.1
- قم بتنزيل الإصدار 5.7.1 من ROCm SDK
- اتبع دليل التثبيت المقدم.
إف إف إم بي إي جي :
قم بتثبيت FFmpeg وفقًا لنظام التشغيل الخاص بك:
- أوبونتو/ديبيان :
```
sudo apt update && sudo apt install ffmpeg
```
- آرتش لينكس :
```
sudo pacman -S ffmpeg
```
- ماك (الجعة المنزلية) :
```
brew install ffmpeg
```
- ويندوز (الشوكولاته) :
```
choco install ffmpeg
```
- ويندوز (سكوب) :
```
scoop install ffmpeg
```

خطوات التثبيت

انسخ المستودع أو قم بتنزيل حزمة التعليمات البرمجية المصدر.
قم بتثبيت llama.cpp
- (لمستخدمي AMD) قبل الخطوة التالية، قم بتعيين قيمة LLAMA_HIPBLAS لمتغير env على on
- الطريقة الرسمية:
```
 pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
```
- إذا لم ينجح التثبيت الرسمي معك، فيرجى تثبيت text-Generation-webui، الذي يوفر بعض العجلات الممتازة للعديد من الأنظمة الأساسية والبيئات
تثبيت مكتبات الوقت الحقيقي
- تثبيت المكتبات الرئيسية:
```
 pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
```
قم بتحميل zephyr-7b-beta.Q5_K_M.gguf من هنا.
- افتح create_params.json وأدخل مسار الملف للنموذج الذي تم تنزيله في model_path .
- اضبط n_gpu_layers (0-35، ارفع إذا كان لديك المزيد من VRAM) وn_threads (عدد مؤشرات ترابط وحدة المعالجة المركزية، أوصي بعدم استخدام جميع النوى المتاحة ولكن اترك بعضها لتحويل النص إلى كلام)

في حالة حدوث تعارضات في التبعيات، قم بتثبيت إصدارات معينة من المكتبات المتعارضة:

 pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0

تشغيل التطبيق

 python ai_voicetalk_local.py

تخصيص

تغيير شخصية الذكاء الاصطناعي

افتح chat_params.json لتغيير سيناريو الحديث.

تغيير صوت الذكاء الاصطناعي

افتح ai_voicetalk_local.py.
ابحث عن هذا السطر: coqui_engine = CoquiEngine(cloning_reference_wav = "female.wav"، language = "en")
قم بتغيير "female.wav" إلى اسم ملف الموجة (44100 أو 22050 هرتز أحادي 16 بت) الذي يحتوي على الصوت المراد استنساخه

كشف نهاية الكلام

إذا تم نسخ الجملة الأولى قبل أن تصل إلى الجملة الثانية، فارفع post_speech_silence_duration على AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)