مشروع بايثون لإنشاء بيئات الواقع الافتراضي باستخدام الذكاء الاصطناعي التوليدي. يمكنك تشغيله كخادم TCP لربطه مع عميل Unity، للحصول على تطبيق AI/VR متكامل.
هذا أرشيف عام، ويستمر التطوير في HugoFara/speech-to-world-server!
هذه حالة استخدام للذكاء الاصطناعي التوليدي لبناء مشهد واقع افتراضي كامل. تم تطويره في مؤسسة Fondation Campus Biotech جنيف، بالتعاون مع مختبر العلوم المعرفية، على يد هوغو فرج الله.
تحتاج إلى الحصول على Python 3.10 وCUDA 12.1 (لم يتم اختبار الإصدارات الأخرى). بمجرد تثبيت المتطلبات، يجب أن يعمل المشروع.
فيما يلي إجراء التثبيت التفصيلي:
cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv # Creates the virtual environment under .venv
source .venv/bin/activate # Activates it
cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv # Creates the virtual environment under .venv
.venv S cripts a ctivate # Activates it
pip install -r requirements.txt
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
. يرجى إلقاء نظرة على https://pytorch.org/get-started/locally/ للحصول على التفاصيل.من الآن فصاعدا، يجب أن يكون المشروع وظيفيا. القسم التالي اختياري، لكنه يمكن أن يوفر لك الكثير من الوقت.
(اختياري) يمكنك تسريع عملية إنشاء الصور باستخدام التسريع. قم بتنزيله مع
pip install accelerate
.
.idea
لإضافة المجلد كمشروع.sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio
يمكن تنفيذ كل ملف بشكل مستقل، لذا فهي عبارة عن عدد من نقاط الإدخال مثل الملفات.
حالات الاستخدام الأكثر شيوعًا هي ما يلي:
python -m skybox.diffusion
.python -m utils.download_models
. إذا لم تقم بذلك، فسيتم تنزيل النماذج في وقت التشغيل الذي قد يكون بطيئًا للغاية.python -m server.run
.التالي هو التفاصيل للملفات الخاصة.
انتقل إلى مجلد skybox
.
skybox/legacy
مفيدًا. أحتفظ بها هناك لأغراض شخصية. الميزات ثلاثية الأبعاد موجودة في مجلد environment
. لا يزال قيد التطوير النشط حتى وقت كتابة هذا التقرير (يونيو 2024)، وبالتالي فإن ما يلي عرضة للتغيير.
للحصول على ميزات تحويل الكلام إلى نص، انتقل إلى asr
(التعرف التلقائي على الكلام)
إذا كنت تريد استخدام واجهة رسومية بدلاً من تعليمات Python البرمجية، فيمكنك استخدام مهام سير عمل ComfyUI المتوفرة في مجلد ComfyUI
.
تم تفصيل شرح كل سير عمل في ComfyUI/README.md.
مميزات السيرفر موجودة في server
. راجع البدء كخادم TCP للحصول على تفاصيل حول الاستخدام.
sound
على بعض التجارب في مجال توليد الصوت.utils
على وظائف مفيدة للمستخدم: تكوين الخادم الرئيسي موجود في api.json
. أهم بيانات التكوين هي "serverIp" و"serverPort" حيث تقومان بتعيين عنوان الخادم.
يمكن بدء تشغيل خادم TCP لإلغاء تحميل جزء الذكاء الاصطناعي من سلسلة رسائل التطبيق. فقط قم بتشغيل python -m server.run
. يتم تعريف تكوين الخادم في api.json
. يتم التعامل مع الاتصال بتنسيق JSON، بنمط HTTP قوي.
للاتصال بالخادم من كمبيوتر آخر على نفس الشبكة، تحتاج إلى فتح منفذ. في نظام التشغيل Windows، ما عليك سوى الانتقال إلى لوحة التحكم وإضافة قاعدة جديدة للمنفذ 9000
(مع التكوين الافتراضي). يبدو أن هذا البرنامج التعليمي How-To Geek موجه بما فيه الكفاية. على نظام التشغيل Linux، يعد فتح المنافذ أكثر متعة، وأنا شخصيًا أوصي باستخدام nginx مع إعادة توجيه المنفذ.
الوضع الحالي للمشروع من منظور بعيد جدًا.
skybox/panorama_creator.py
environment/renderer.py
غير مناسب للإنتاج الآن. يتضمن هذا المشروع العديد من نماذج الشبكات العصبية الاصطناعية. إذا كنت تريد استبدال نموذج بآخر، فيجب أن تكون لديك معرفة جيدة بما تفعله، وإلا فقد تنخفض جودة المنتج النهائي.
يرجى إلقاء نظرة على utils/download_models.py
لمعرفة المكان الذي يتم منه تحميل هذه النماذج.
يمكنك تنزيل عميل Unity الرسمي من VR-Environment-GenAI-Unity (GitHub). إذا كنت تبحث عن المستودع العام النشط لهذا المشروع، فانتقل إلى HugoFara/speech-to-world-server.