تنزيل VR Environment GenAI Server - تنزيل كود مصدر VR Environment GenAI Server

VR Environment GenAI Server

كود الذكاء الاصطناعي

1.0.0

تنزيل

إنشاء بيئة الواقع الافتراضي باستخدام الذكاء الاصطناعي التوليدي وخادم Python

مشروع بايثون لإنشاء بيئات الواقع الافتراضي باستخدام الذكاء الاصطناعي التوليدي. يمكنك تشغيله كخادم TCP لربطه مع عميل Unity، للحصول على تطبيق AI/VR متكامل.

هذا أرشيف عام، ويستمر التطوير في HugoFara/speech-to-world-server!

هذه حالة استخدام للذكاء الاصطناعي التوليدي لبناء مشهد واقع افتراضي كامل. تم تطويره في مؤسسة Fondation Campus Biotech جنيف، بالتعاون مع مختبر العلوم المعرفية، على يد هوغو فرج الله.

متطلبات

بايثون 3.10.12+
بطاقة رسومية متوافقة مع CUDA وما لا يقل عن 12 جيجابايت من VRAM.
سعة تخزين تصل إلى 15 جيجابايت للنماذج.

تثبيت

تحتاج إلى الحصول على Python 3.10 وCUDA 12.1 (لم يتم اختبار الإصدارات الأخرى). بمجرد تثبيت المتطلبات، يجب أن يعمل المشروع.

فيما يلي إجراء التثبيت التفصيلي:

قم بتثبيت CUDA 12.1، فهو يتيح الحساب على وحدة معالجة الرسومات.
قم بتثبيت Python 3.10 ، بالنسبة لنظام التشغيل Windows، يمكنك تنزيله باستخدام المثبت الرسمي.
استنسخ أو انسخ مستودع Git هذا: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

إنشاء بيئة بايثون الافتراضية. على الرغم من أن ذلك ليس ضروريًا تمامًا، إلا أنه يوصى به بشدة نظرًا لأن المشروع يحتوي على العديد من التبعيات. على سبيل المثال باستخدام venv:

على لينكس:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

على نظام التشغيل Windows:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

تثبيت متطلبات بايثون.
```
pip install -r requirements.txt
```
هام : في وقت كتابة هذا التقرير (29-07-2024) كان الإصدار الافتراضي من PyTorch متوافقًا مع CUDA 12.1، وقد لا تحتاج إلى أي خطوات إضافية. إذا تلقيت رسالة خطأ تخبرك بأن إصدار PyTorch الخاص بك غير متوافق مع CUDA، فقم بإلغاء تثبيت PyTorch بالكامل وأعد تثبيته عن طريق تشغيل pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 . يرجى إلقاء نظرة على https://pytorch.org/get-started/locally/ للحصول على التفاصيل.

من الآن فصاعدا، يجب أن يكون المشروع وظيفيا. القسم التالي اختياري، لكنه يمكن أن يوفر لك الكثير من الوقت.

(اختياري) يمكنك تسريع عملية إنشاء الصور باستخدام التسريع. قم بتنزيله مع pip install accelerate .

تفاصيل التثبيت

في المرة الأولى التي يتم فيها تشغيل النموذج، يلزم تنزيله، وقد تستغرق هذه العملية بعض الوقت، وتحتاج إلى اتصال بالإنترنت. يشرح قسم الاستخدام كيفية تنزيل كافة النماذج مرة واحدة.
بالنسبة لمستخدمي PyCharm، يتم تضمين مجلد .idea لإضافة المجلد كمشروع.
اختياري، تجريبي فقط: لالتقاط الصوت من الميكروفون في Python (ASR)، تحتاج إلى ffmpeg وportaudio وpyaudio:
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

الاستخدام

يمكن تنفيذ كل ملف بشكل مستقل، لذا فهي عبارة عن عدد من نقاط الإدخال مثل الملفات.

حالات الاستخدام الأكثر شيوعًا هي ما يلي:

قم بإنشاء صورة جديدة باستخدام python -m skybox.diffusion .
قم بتنزيل جميع النماذج باستخدام python -m utils.download_models . إذا لم تقم بذلك، فسيتم تنزيل النماذج في وقت التشغيل الذي قد يكون بطيئًا للغاية.
ابدأ تشغيل الخادم باستخدام python -m server.run .

التالي هو التفاصيل للملفات الخاصة.

توليد الصورة

انتقل إلى مجلد skybox .

diffusion.py - الوحدة الأساسية لإنشاء صورة من نموذج الانتشار.
inpainting.py - يطبق نموذج inpainting.
image_processing.py - يحدد ميزات معالجة الصور
Mask_editor.py - منطق التعليمات البرمجية لإنشاء قناع ملائم للصورة. عادة ما يتم تمرير النتيجة إلى وظائف inpainting.
panorama_creator.py - منطق التعليمات البرمجية لإنشاء بانوراما.
قد لا يكون الرمز الموجود في skybox/legacy مفيدًا. أحتفظ بها هناك لأغراض شخصية.

ميزات ثلاثية الأبعاد

الميزات ثلاثية الأبعاد موجودة في مجلد environment . لا يزال قيد التطوير النشط حتى وقت كتابة هذا التقرير (يونيو 2024)، وبالتالي فإن ما يلي عرضة للتغيير.

Deep_generation.py - يوفر نموذجًا يأتي من صورة RGB قياسية وإنشاء خريطة عمق.
point_cloud_pipeline.py - يستخدم RGBD لإنشاء سحابة نقطية، ويحولها إلى شبكة.
Mesh_pipeline.py - يستخدم صورة RGBD وميزات التمثيل لإنشاء شبكة تضاريس.
Mask_former.py - التقسيم الدلالي لصورة RGB.
image_segmentation.py - يستخدم صورة RGBD + الدلالية لعزل العناصر الرئيسية.
Deep_inpainting.py - يجمع بين الطلاء الداخلي الذي يتم التحكم فيه بواسطة بيانات العمق لإعادة إنشاء أجزاء من التضاريس. ومع ذلك لم يتم دمجها في قاعدة التعليمات البرمجية الرئيسية.
rendered.py - إنشاء عرض ثلاثي الأبعاد للتضاريس، لم ينته بعد.

تحويل الكلام إلى نص (ASR)

للحصول على ميزات تحويل الكلام إلى نص، انتقل إلى asr (التعرف التلقائي على الكلام)

الكلام_to_text.py - يطبق نموذج التعرف التلقائي على الكلام (ASR).
asr_demo.py - مجرد عرض توضيحي، يمكنك إما استخدام الميكروفون أو تحميل مجموعة البيانات

واجهة رسومية ComfyUI

إذا كنت تريد استخدام واجهة رسومية بدلاً من تعليمات Python البرمجية، فيمكنك استخدام مهام سير عمل ComfyUI المتوفرة في مجلد ComfyUI .

تم تفصيل شرح كل سير عمل في ComfyUI/README.md.

الخادم

مميزات السيرفر موجودة في server . راجع البدء كخادم TCP للحصول على تفاصيل حول الاستخدام.

run.py - يبدأ تشغيل خادم TCP، وهو قادر على تقديم الطلبات للنماذج المحددة مسبقًا.
Task_tracker.py - مجرد فصل دراسي يضيف السكر النحوي لتتبع المهمة بسهولة
utils.py - وظائف الأداة المساعدة للخادم.

ميزات أخرى

كاختبار، يحتوي مجلد sound على بعض التجارب في مجال توليد الصوت.
يحتوي مجلد utils على وظائف مفيدة للمستخدم:
- download_models.py - يقوم بتنزيل النماذج المفيدة للخادم. ولا يتم تنزيل جميع الموديلات.

إعدادات

تكوين الخادم الرئيسي موجود في api.json . أهم بيانات التكوين هي "serverIp" و"serverPort" حيث تقومان بتعيين عنوان الخادم.

ابدأ كخادم TCP

يمكن بدء تشغيل خادم TCP لإلغاء تحميل جزء الذكاء الاصطناعي من سلسلة رسائل التطبيق. فقط قم بتشغيل python -m server.run . يتم تعريف تكوين الخادم في api.json . يتم التعامل مع الاتصال بتنسيق JSON، بنمط HTTP قوي.

للاتصال بالخادم من كمبيوتر آخر على نفس الشبكة، تحتاج إلى فتح منفذ. في نظام التشغيل Windows، ما عليك سوى الانتقال إلى لوحة التحكم وإضافة قاعدة جديدة للمنفذ 9000 (مع التكوين الافتراضي). يبدو أن هذا البرنامج التعليمي How-To Geek موجه بما فيه الكفاية. على نظام التشغيل Linux، يعد فتح المنافذ أكثر متعة، وأنا شخصيًا أوصي باستخدام nginx مع إعادة توجيه المنفذ.

خريطة الطريق

الوضع الحالي للمشروع من منظور بعيد جدًا.

إنشاء Skybox: تم الانتهاء من الإصدار 0.4، انتقل إلى skybox/panorama_creator.py
إنشاء التضاريس: إنشاء التضاريس ثلاثية الأبعاد مبكرًا في environment/renderer.py غير مناسب للإنتاج الآن.
توليد الدعائم: استخدم اللوحات الإعلانية فقط لأن التكنولوجيا الحالية لا تسمح بحلم أكبر.

قائمة النماذج

يتضمن هذا المشروع العديد من نماذج الشبكات العصبية الاصطناعية. إذا كنت تريد استبدال نموذج بآخر، فيجب أن تكون لديك معرفة جيدة بما تفعله، وإلا فقد تنخفض جودة المنتج النهائي.

إنشاء الصورة: قاعدة Stable Diffusion XL 1.0 ومصفاة Stable Diffusion XL 1.0.
الطلاء الداخلي والطلاء الخارجي: Stable Diffusion XL 1.0 Inpainting 0.1.
تحويل الكلام إلى نص والترجمة: Whisper Large v3.

يرجى إلقاء نظرة على utils/download_models.py لمعرفة المكان الذي يتم منه تحميل هذه النماذج.

روابط مفيدة

يمكنك تنزيل عميل Unity الرسمي من VR-Environment-GenAI-Unity (GitHub). إذا كنت تبحث عن المستودع العام النشط لهذا المشروع، فانتقل إلى HugoFara/speech-to-world-server.

يوسع

معلومات إضافية