Download VR Environment GenAI Server - Download des Quellcodes VR Environment GenAI Server

VR Environment GenAI Server

AI-Quellcode

1.0.0

Herunterladen

Erstellung einer VR-Umgebung mit generativer KI, Python-Server

Ein Python-Projekt zur Erstellung von VR-Umgebungen mithilfe generativer KI. Sie können es als TCP-Server ausführen, um es mit einem Unity-Client zu verbinden und so die vollwertige KI/VR-Anwendung zu erhalten.

Dies ist ein öffentliches Archiv, die Entwicklung wird unter HugoFara/speech-to-world-server fortgesetzt!

Dies ist ein Anwendungsfall generativer KI zum Aufbau einer vollständigen VR-Szenerie. Es wurde an der Fondation Campus Biotech Genf in Zusammenarbeit mit dem Laboratory of Cognitive Science von Hugo FARAJALLAH entwickelt.

Anforderungen

Python 3.10.12+
Eine CUDA-kompatible Grafikkarte und mindestens 12 GB VRAM.
Bis zu 15 GB Speicher für die Modelle.

Installation

Sie benötigen Python 3.10 und CUDA 12.1 (andere Versionen sind ungetestet). Sobald die Anforderungen installiert sind, sollte das Projekt funktionieren.

Hier ist eine detaillierte Installationsprozedur:

Installieren Sie CUDA 12.1, es ermöglicht die Berechnung auf der GPU.
Installieren Sie Python 3.10 . Für Windows können Sie es mit dem offiziellen Installationsprogramm herunterladen.
Klonen oder kopieren Sie dieses Git-Repository: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

Erstellen Sie eine virtuelle Python-Umgebung. Obwohl dies nicht unbedingt erforderlich ist, wird es dringend empfohlen, da das Projekt viele Abhängigkeiten aufweist. Zum Beispiel mit venv:

Unter Linux:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

Unter Windows:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Installieren Sie die Python-Anforderungen.
```
pip install -r requirements.txt
```
Wichtig : Zum Zeitpunkt des Schreibens (29.07.2024) ist die Standardversion von PyTorch mit CUDA 12.1 kompatibel und Sie benötigen möglicherweise keine zusätzlichen Schritte. Wenn Sie eine Fehlermeldung erhalten, dass Ihre Version von PyTorch nicht mit CUDA kompatibel ist, deinstallieren Sie PyTorch vollständig und installieren Sie es erneut, indem Sie pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 ausführen. Weitere Informationen finden Sie unter https://pytorch.org/get-started/locally/.

Von hier an sollte das Projekt funktionsfähig sein. Der nächste Abschnitt ist optional, kann Ihnen aber viel Zeit sparen.

(optional) Sie können die Bilderzeugung mit beschleunigen beschleunigen. Laden Sie es mit pip install accelerate herunter.

Installationsdetails

Wenn ein Modell zum ersten Mal gestartet wird, muss es heruntergeladen werden. Dieser Vorgang kann einige Zeit dauern und Sie benötigen eine Internetverbindung. Im Abschnitt „Nutzung“ wird erläutert, wie Sie alle Modelle auf einmal herunterladen.
Für Benutzer von PyCharm ist ein .idea Ordner enthalten, um den Ordner als Projekt hinzuzufügen.

Optional, nur Demo: Um den Ton vom Mikrofon in Python (ASR) aufzunehmen, benötigen Sie ffmpeg, portaudio und pyaudio:

sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio

Verwendung

Jede Datei kann unabhängig ausgeführt werden, sodass es genauso viele Einstiegspunkte wie Dateien gibt.

Die häufigsten Anwendungsfälle sind die folgenden:

Erzeugen Sie ein neues Bild mit python -m skybox.diffusion .
Laden Sie alle Modelle mit python -m utils.download_models herunter. Wenn Sie dies nicht tun, werden die Modelle zur Laufzeit heruntergeladen, was sehr langsam sein kann.
Starten Sie den Server mit python -m server.run .

Als nächstes folgt das Detail für spezielle Dateien.

Bilderzeugung

Gehen Sie zum skybox -Ordner.

diffusion.py – Basismodul zum Erstellen eines Bildes aus einem Diffusionsmodell.
inpainting.py – implementiert ein Inpainting-Modell.
image_processing.py – definiert Bildverarbeitungsfunktionen
mask_editor.py – Codelogik zum Generieren einer an das Bild angepassten Maske. Das Ergebnis wird normalerweise an Inpainting-Funktionen übergeben.
panorama_creator.py – Codelogik zum Generieren eines Panoramas.
Der Code in skybox/legacy ist möglicherweise nicht nützlich. Ich behalte es aus persönlichen Gründen dort.

3D-Funktionen

3D-Features befinden sich im environment . Zum Zeitpunkt des Verfassens dieses Artikels (Juni 2024) befindet es sich noch in der aktiven Entwicklung, daher können sich die folgenden Änderungen ändern.

Depth_generation.py – stellt ein Modell bereit, das aus einem Standard-RGB-Bild stammt und eine Tiefenkarte erstellt.
point_cloud_pipeline.py – verwendet RGBD, um eine Punktwolke zu erstellen und wandelt sie in ein Netz um.
mesh_pipeline.py – verwendet die RGBD-Bild- und Darstellungsfunktionen, um ein Geländenetz zu erstellen.
mask_former.py – semantische Segmentierung eines RGB-Bildes.
image_segmentation.py – verwendet ein RGBD+semantisches Bild, um die Hauptelemente zu isolieren.
Depth_inpainting.py – kombiniert durch Tiefendaten gesteuertes Inpainting, um Teile eines Geländes nachzubilden. Noch nicht in die Hauptcodebasis integriert.
rendered.py – Erstellen Sie eine 3D-Ansicht für das Gelände, noch nicht fertig.

Speech-to-Text (ASR)

Informationen zu Sprach-zu-Text-Funktionen finden Sie unter asr (automatische Spracherkennung).

Speech_to_text.py – implementiert ein ASR-Modell (Automatic Speech Recognition).
asr_demo.py – einfach eine Demo, Sie können entweder Ihr Mikrofon verwenden oder den Datensatz laden

Grafische Benutzeroberfläche von ComfyUI

Wenn Sie anstelle von Python-Code eine grafische Oberfläche verwenden möchten, können Sie die bereitgestellten ComfyUI-Workflows im ComfyUI Ordner verwenden.

Die Erklärung für jeden Workflow finden Sie in ComfyUI/README.md.

Server

Die Serverfunktionen befinden sich in server . Einzelheiten zur Verwendung finden Sie unter Als TCP-Server starten.

run.py – startet einen TCP-Server, der Anfragen an die zuvor definierten Modelle weiterleiten kann.
task_tracker.py – Nur eine Klasse, die syntaktische Fehler hinzufügt, um eine Aufgabe einfach zu verfolgen
utils.py – Dienstprogrammfunktionen für den Server.

Weitere Funktionen

Als Test gibt es im sound -Ordner einige Experimente zur Klangerzeugung.
Der Ordner utils enthält nützliche Funktionen für den Benutzer:
- download_models.py – lädt nützliche Modelle für den Server herunter. Es werden nicht alle Modelle heruntergeladen.

Konfiguration

Die Hauptserverkonfiguration befindet sich in api.json . Die wichtigsten Konfigurationsdaten sind „serverIp“ und „serverPort“, da sie die Adresse des Servers festlegen.

Beginnen Sie als TCP-Server

Um den KI-Anteil aus dem Anwendungsthread auszulagern, kann ein TCP-Server gestartet werden. Starten Sie einfach python -m server.run . Die Serverkonfiguration ist in api.json definiert. Die Kommunikation erfolgt im JSON-Format mit einem starken HTTP-Stil.

Um von einem anderen Computer im selben Netzwerk aus eine Verbindung zum Server herzustellen, müssen Sie einen Port öffnen. Unter Windows müssen Sie lediglich in der Systemsteuerung eine neue Regel für den Port 9000 hinzufügen (mit der Standardkonfiguration). Dieses How-To-Geek-Tutorial scheint richtungsweisend genug zu sein. Unter Linux macht das Öffnen von Ports etwas mehr Spaß, ich persönlich empfehle die Verwendung von Nginx mit einer Portumleitung.

Roadmap

Aktueller Stand des Projekts, aus einer sehr fernen Perspektive.

Skybox-Generierung: v0.4 fertig, gehen Sie zu skybox/panorama_creator.py
Geländegenerierung: Die frühe 3D-Geländegenerierung in environment/renderer.py ist derzeit nicht für die Produktion geeignet.
Requisitengenerierung: Verwenden Sie nur Werbetafeln, da die aktuelle Technologie keine größeren Träume zulässt.

Liste der Models

Dieses Projekt umfasst mehrere künstliche neuronale Netzwerkmodelle. Wenn Sie ein Modell durch ein anderes ersetzen möchten, sollten Sie sich gut auskennen, da sonst die Qualität des Endprodukts beeinträchtigt werden kann.

Bilderzeugung: Stable Diffusion XL Base 1.0 und Stable Diffusion XL Refiner 1.0.
Inpainting und Outpainting: Stable Diffusion XL 1.0 Inpainting 0.1.
Speech-to-Text und Übersetzung: Whisper Large v3.

Bitte werfen Sie einen Blick auf utils/download_models.py um zu sehen, woher diese Modelle geladen werden.

Nützliche Links

Sie können den offiziellen Unity-Client von VR-Environment-GenAI-Unity (GitHub) herunterladen. Wenn Sie nach dem aktiven öffentlichen Repository dieses Projekts suchen, gehen Sie zu HugoFara/speech-to-world-server.

Expandieren

Zusätzliche Informationen