ดาวน์โหลด VR Environment GenAI Server - ดาวน์โหลดซอร์สโค้ด VR Environment GenAI Server

VR Environment GenAI Server

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การสร้างสภาพแวดล้อม VR ด้วย Generative AI, Python Server

โปรเจ็กต์ Python เพื่อสร้างสภาพแวดล้อม VR โดยใช้ Generative AI คุณสามารถรันเป็นเซิร์ฟเวอร์ TCP เพื่อเชื่อมต่อกับไคลเอ็นต์ Unity เพื่อรับแอปพลิเคชัน AI/VR ที่มีคุณสมบัติครบถ้วน

นี่เป็นไฟล์เก็บถาวรสาธารณะ การพัฒนายังคงดำเนินต่อไปที่ HugoFara/speech-to-world-server!

นี่เป็นกรณีการใช้งานของ Generative AI เพื่อสร้างฉาก VR ที่สมบูรณ์ ได้รับการพัฒนาที่ Fondation Campus Biotech Geneva โดยความร่วมมือกับ Laboratory of Cognitive Science โดย Hugo FARAJALLAH

ความต้องการ

ไพธอน 3.10.12+
กราฟิกการ์ดที่รองรับ CUDA และ VRAM อย่างน้อย 12 GB
พื้นที่เก็บข้อมูลสูงสุด 15 GB สำหรับรุ่นต่างๆ

การติดตั้ง

คุณต้องได้รับ Python 3.10 และ CUDA 12.1 (เวอร์ชันอื่นยังไม่ผ่านการทดสอบ) เมื่อติดตั้งข้อกำหนดแล้ว โปรเจ็กต์ควรจะทำงานได้

นี่คือขั้นตอนการติดตั้งโดยละเอียด:

ติดตั้ง CUDA 12.1 ซึ่งเปิดใช้งานการคำนวณบน GPU
ติดตั้ง Python 3.10 สำหรับ Windows คุณสามารถดาวน์โหลดได้โดยใช้ตัวติดตั้งอย่างเป็นทางการ
โคลนหรือคัดลอกที่เก็บ Git นี้: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/

สร้างสภาพแวดล้อมเสมือน Python แม้ว่าจะไม่จำเป็นอย่างเคร่งครัด แต่ก็ขอแนะนำอย่างยิ่งเนื่องจากโปรเจ็กต์มีการขึ้นต่อกันหลายอย่าง ตัวอย่างเช่นการใช้ venv:

บนลินุกซ์:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

บนวินโดวส์:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

ติดตั้งข้อกำหนด Python
```
pip install -r requirements.txt
```
ข้อสำคัญ : ในขณะที่เขียน (29-07-2567) PyTorch เวอร์ชันเริ่มต้นเข้ากันได้กับ CUDA 12.1 และคุณอาจไม่ต้องการขั้นตอนเพิ่มเติมใดๆ หากคุณได้รับข้อความแสดงข้อผิดพลาดแจ้งว่า PyTorch เวอร์ชันของคุณเข้ากันไม่ได้กับ CUDA ให้ถอนการติดตั้ง PyTorch โดยสมบูรณ์แล้วติดตั้งใหม่โดยเรียกใช้ pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 โปรดดูรายละเอียดที่https://pytorch.org/get-started/locally/

จากนี้ไป โครงการควรจะใช้งานได้ ส่วนถัดไปเป็นทางเลือก แต่ช่วยให้คุณประหยัดเวลาได้มาก

(ไม่บังคับ) คุณสามารถเพิ่มความเร็วในการสร้างภาพได้โดยใช้การเร่งความเร็ว ดาวน์โหลดด้วย pip install accelerate

รายละเอียดการติดตั้ง

จำเป็นต้องดาวน์โหลดโมเดลในครั้งแรก การดำเนินการนี้อาจใช้เวลาสักครู่ และคุณต้องเชื่อมต่ออินเทอร์เน็ต ส่วนการใช้งานจะอธิบายวิธีการดาวน์โหลดทุกรุ่นในคราวเดียว
สำหรับผู้ใช้ PyCharm โฟลเดอร์ .idea จะรวมอยู่ด้วยเพื่อเพิ่มโฟลเดอร์เป็นโปรเจ็กต์
ไม่บังคับ สาธิตเท่านั้น: หากต้องการบันทึกเสียงจากไมโครโฟนใน Python (ASR) คุณต้องมี ffmpeg, portaudio และ pyaudio:
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

การใช้งาน

แต่ละไฟล์สามารถดำเนินการได้อย่างอิสระ จึงมีจุดเริ่มต้นเท่ากับไฟล์

กรณีการใช้งานที่พบบ่อยที่สุดมีดังต่อไปนี้:

สร้างภาพใหม่ด้วย python -m skybox.diffusion
ดาวน์โหลดทุกรุ่นด้วย python -m utils.download_models หากคุณไม่ทำเช่นนี้ โมเดลต่างๆ จะถูกดาวน์โหลดในขณะใช้งานซึ่งอาจช้ามาก
เริ่มต้นเซิร์ฟเวอร์ด้วย python -m server.run

ต่อไปเป็นรายละเอียดไฟล์พิเศษ

การสร้างภาพ

ไปที่โฟลเดอร์ skybox

diffusion.py - โมดูลฐานเพื่อสร้างภาพจากแบบจำลองการแพร่กระจาย
inpainting.py - ใช้โมเดล inpainting
image_processing.py - กำหนดคุณสมบัติการประมวลผลภาพ
mask_editor.py - ตรรกะของโค้ดเพื่อสร้างมาสก์ที่ปรับให้เข้ากับรูปภาพ โดยปกติผลลัพธ์จะถูกส่งไปยังฟังก์ชันในการวาดภาพ
Panorama_creator.py - รหัสลอจิกเพื่อสร้างภาพพาโนรามา
รหัสใน skybox/legacy อาจไม่มีประโยชน์ ฉันเก็บไว้ที่นั่นเพื่อจุดประสงค์ส่วนตัว

คุณสมบัติ 3 มิติ

คุณสมบัติ 3D อยู่ในโฟลเดอร์ environment ยังอยู่ระหว่างการพัฒนา ณ เวลาที่เขียน (มิถุนายน 2024) ดังนั้นสิ่งต่อไปนี้อาจมีการเปลี่ยนแปลง

deep_generation.py - จัดทำแบบจำลองที่มาจากภาพ RGB มาตรฐานและสร้างแผนที่เชิงลึก
point_cloud_pipeline.py - ใช้ RGBD เพื่อสร้าง point cloud และแปลงเป็น mesh
mesh_pipeline.py - ใช้รูปภาพ RGBD และคุณสมบัติการแสดงเพื่อสร้างตาข่ายภูมิประเทศ
mask_former.py - การแบ่งส่วนความหมายของภาพ RGB
image_segmentation.py - ใช้รูปภาพ RGBD+ความหมายเพื่อแยกองค์ประกอบหลัก
deep_inpainting.py - รวม inpainting ที่ควบคุมโดยข้อมูลเชิงลึกเพื่อสร้างบางส่วนของภูมิประเทศขึ้นมาใหม่ ยังไม่ได้รวมเข้ากับฐานรหัสหลัก
rendered.py - สร้างมุมมอง 3 มิติสำหรับภูมิประเทศที่ยังไม่เสร็จสิ้น

คำพูดเป็นข้อความ (ASR)

สำหรับคุณสมบัติคำพูดเป็นข้อความ ให้ไปที่ asr (การรู้จำคำพูดอัตโนมัติ)

Speech_to_text.py - ใช้โมเดลการรู้จำเสียงอัตโนมัติ (ASR)
asr_demo.py - เป็นเพียงการสาธิต คุณสามารถใช้ไมโครโฟนหรือโหลดชุดข้อมูลก็ได้

อินเทอร์เฟซแบบกราฟิก ComfyUI

หากคุณต้องการใช้อินเทอร์เฟซแบบกราฟิกแทนโค้ด Python คุณสามารถใช้เวิร์กโฟลว์ ComfyUI ที่ให้มาในโฟลเดอร์ ComfyUI

คำอธิบายสำหรับแต่ละเวิร์กโฟลว์มีรายละเอียดอยู่ใน ComfyUI/README.md

เซิร์ฟเวอร์

คุณสมบัติเซิร์ฟเวอร์อยู่ใน server ดูเริ่มเป็นเซิร์ฟเวอร์ TCP สำหรับรายละเอียดการใช้งาน

run.py - เริ่มต้นเซิร์ฟเวอร์ TCP สามารถรองรับการร้องขอไปยังโมเดลที่กำหนดไว้ก่อนหน้านี้
Task_tracker.py - เพียงคลาสที่เพิ่มน้ำตาลวากยสัมพันธ์เพื่อติดตามงานได้อย่างง่ายดาย
utils.py - ฟังก์ชั่นยูทิลิตี้สำหรับเซิร์ฟเวอร์

คุณสมบัติอื่นๆ

จากการทดสอบ โฟลเดอร์ sound มีการทดลองบางอย่างเกี่ยวกับการสร้างเสียง
โฟลเดอร์ utils มีฟังก์ชันที่มีประโยชน์สำหรับผู้ใช้:
- download_models.py - ดาวน์โหลดโมเดลที่มีประโยชน์สำหรับเซิร์ฟเวอร์ มันไม่ได้ดาวน์โหลดทุกรุ่น

การกำหนดค่า

การกำหนดค่าเซิร์ฟเวอร์หลักอยู่ใน api.json ข้อมูลการกำหนดค่าที่สำคัญที่สุดคือ "serverIp" และ "serverPort" เนื่องจากเป็นการตั้งค่าที่อยู่ของเซิร์ฟเวอร์

เริ่มต้นเป็นเซิร์ฟเวอร์ TCP

สามารถเริ่มต้นเซิร์ฟเวอร์ TCP เพื่อถ่ายข้อมูลส่วน AI จากเธรดแอปพลิเคชัน เพียงเปิด python -m server.run การกำหนดค่าเซิร์ฟเวอร์ถูกกำหนดไว้ใน api.json การสื่อสารได้รับการจัดการในรูปแบบ JSON ด้วยรูปแบบ HTTP ที่แข็งแกร่ง

หากต้องการเชื่อมต่อกับเซิร์ฟเวอร์จากคอมพิวเตอร์เครื่องอื่นในเครือข่ายเดียวกัน คุณต้องเปิดพอร์ต บน Windows คุณเพียงแค่ต้องไปที่แผงควบคุมเพิ่มกฎใหม่สำหรับพอร์ต 9000 (พร้อมการกำหนดค่าเริ่มต้น) บทช่วยสอน How-To Geek นี้ดูเหมือนจะเป็นแนวทางเพียงพอ บน Linux การเปิดพอร์ตจะสนุกกว่าเล็กน้อย โดยส่วนตัวแล้วฉันแนะนำให้ใช้ nginx พร้อมการเปลี่ยนเส้นทางพอร์ต

แผนการทำงาน

สถานะปัจจุบันของโครงการจากมุมมองที่ไกลมาก

การสร้าง Skybox : v0.4 เสร็จแล้ว ไปที่ skybox/panorama_creator.py
การสร้างภูมิประเทศ : การสร้างภูมิประเทศ 3 มิติในช่วงแรกใน environment/renderer.py ไม่เหมาะสำหรับการผลิตในขณะนี้
การสร้างอุปกรณ์ประกอบฉาก : ใช้ป้ายโฆษณาเท่านั้นเนื่องจากเทคโนโลยีในปัจจุบันไม่อนุญาตให้ฝันใหญ่ขึ้น

รายการนางแบบ

โปรเจ็กต์นี้ประกอบด้วยโมเดลโครงข่ายประสาทเทียมหลายแบบ หากคุณต้องการเปลี่ยนโมเดลด้วยโมเดลอื่น คุณควรมีความรู้ที่ดีเกี่ยวกับสิ่งที่คุณกำลังทำ ไม่เช่นนั้นคุณภาพของผลิตภัณฑ์ขั้นสุดท้ายอาจลดลง

การสร้างภาพ: Stable Diffusion XL base 1.0 และ Stable Diffusion XL Refiner 1.0
การทาสีและการทาสีภายนอก : Stable Diffusion XL 1.0 การทาสี 0.1
การแปลงคำพูดเป็นข้อความและการแปล: Whisper Large v3.

โปรดดูที่ utils/download_models.py เพื่อดูว่าโมเดลเหล่านั้นโหลดมาจากที่ใด

ลิงค์ที่เป็นประโยชน์

คุณสามารถดาวน์โหลดไคลเอนต์ Unity อย่างเป็นทางการได้จาก VR-Environment-GenAI-Unity (GitHub) หากคุณกำลังมองหาพื้นที่เก็บข้อมูลสาธารณะที่ใช้งานอยู่ของโปรเจ็กต์นี้ ให้ไปที่ HugoFara/speech-to-world-server

ขยาย

ข้อมูลเพิ่มเติม