Téléchargement VR Environment GenAI Server - Téléchargement du code source VR Environment GenAI Server

VR Environment GenAI Server

Code Source AI

1.0.0

Télécharger

Création d'environnement VR avec IA générative, Python Server

Un projet Python pour créer des environnements VR à l'aide de Generative AI. Vous pouvez l'exécuter en tant que serveur TCP pour l'interfacer avec un client Unity, afin d'obtenir l'application AI/VR à part entière.

Il s'agit d'une archive publique, le développement se poursuit sur HugoFara/speech-to-world-server !

Il s'agit d'un cas d'utilisation de l'IA générative pour créer une scène VR complète. Il a été développé à la Fondation Campus Biotech Genève, en collaboration avec le Laboratoire des Sciences Cognitives, par Hugo FARAJALLAH.

Exigences

Python 3.10.12+
Une carte graphique compatible CUDA et au moins 12 Go de VRAM.
Jusqu'à 15 Go de stockage pour les modèles.

Installation

Vous devez obtenir Python 3.10 et CUDA 12.1 (les autres versions ne sont pas testées). Une fois les exigences installées, le projet devrait fonctionner.

Voici une procédure d'installation détaillée :

Installez CUDA 12.1, il permet le calcul sur le GPU.
Installez Python 3.10 , pour Windows, vous pouvez le télécharger à l'aide du programme d'installation officiel.
Clonez ou copiez ce référentiel Git : https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

Créez un environnement virtuel Python. Bien que cela ne soit pas strictement nécessaire, cela est fortement recommandé car le projet comporte de nombreuses dépendances. Par exemple en utilisant venv :

Sous Linux :

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

Sous Windows :

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Installez la configuration requise pour Python.
```
pip install -r requirements.txt
```
Important : au moment de la rédaction (2024-07-29), la version par défaut de PyTorch est compatible avec CUDA 12.1, et vous n'aurez peut-être pas besoin d'étapes supplémentaires. Si vous recevez un message d'erreur vous indiquant que votre version de PyTorch n'est pas compatible avec CUDA, désinstallez complètement PyTorch et réinstallez-le en exécutant pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 . Veuillez consulter https://pytorch.org/get-started/locally/ pour plus de détails.

A partir de là, le projet devrait être fonctionnel. La section suivante est facultative, mais elle peut vous faire gagner beaucoup de temps.

(facultatif) Vous pouvez accélérer la génération d’images en utilisant Accélérer. Téléchargez-le avec pip install accelerate .

Détails d'installation

La première fois qu'un modèle est lancé, il faut le télécharger, cette opération peut prendre un certain temps et vous avez besoin d'une connexion Internet. La section Utilisation explique comment télécharger tous les modèles en même temps.
Pour les utilisateurs de PyCharm, un dossier .idea est inclus pour ajouter le dossier en tant que projet.
Facultatif, démo uniquement : pour capturer l'audio du microphone en Python (ASR), vous avez besoin de ffmpeg, portaudio et pyaudio :
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

Usage

Chaque fichier peut être exécuté indépendamment, ils constituent donc autant de points d'entrée que de fichiers.

Les cas d'utilisation les plus courants sont les suivants :

Générez une nouvelle image avec python -m skybox.diffusion .
Téléchargez tous les modèles avec python -m utils.download_models . Si vous ne le faites pas, les modèles seront téléchargés au moment de l'exécution, ce qui peut être très lent.
Démarrez le serveur avec python -m server.run .

Vient ensuite le détail des fichiers spéciaux.

Génération d'images

Accédez au dossier skybox .

diffusion.py - module de base pour créer une image à partir d'un modèle de diffusion.
inpainting.py - implémente un modèle inpainting.
image_processing.py - définit les fonctionnalités de traitement d'image
mask_editor.py - code logique pour générer un masque adapté à l'image. Le résultat est généralement transmis aux fonctions d'inpainting.
panorama_creator.py - code logique pour générer un panorama.
Le code dans skybox/legacy peut ne pas être utile. Je le garde là à des fins personnelles.

Fonctionnalités 3D

Les fonctionnalités 3D se trouvent dans le dossier environment . Il est toujours en développement actif au moment de la rédaction (juin 2024), ce qui suit est donc sujet à changement.

profondeur_génération.py - fournit un modèle provenant d'une image RVB standard et crée une carte de profondeur.
point_cloud_pipeline.py - utilise le RGBD pour créer un nuage de points et le convertit en maillage.
mesh_pipeline.py - utilise les fonctionnalités d'image et de représentation RGBD pour créer un maillage de terrain.
mask_former.py - segmentation sémantique d'une image RVB.
image_segmentation.py - utilise une image RGBD+sémantique pour isoler les éléments principaux.
deep_inpainting.py - combine l'inpainting contrôlé par les données de profondeur pour recréer des parties d'un terrain. Pourtant pas intégré dans la base de code principale.
render.py - crée une vue 3D pour le terrain, pas encore terminé.

synthèse vocale (ASR)

Pour les fonctionnalités de synthèse vocale, accédez à asr (reconnaissance automatique de la parole)

Speech_to_text.py - implémente un modèle de reconnaissance automatique de la parole (ASR).
asr_demo.py - simplement une démo, vous pouvez soit utiliser votre microphone, soit charger l'ensemble de données

Interface graphique ComfyUI

Si vous souhaitez utiliser une interface graphique au lieu du code Python, vous pouvez utiliser les workflows ComfyUI fournis dans le dossier ComfyUI .

L'explication de chaque flux de travail est détaillée dans ComfyUI/README.md.

Serveur

Les fonctionnalités du serveur sont dans server . Voir Démarrer en tant que serveur TCP pour les détails sur l'utilisation.

run.py - démarre un serveur TCP, capable de répondre aux requêtes aux modèles précédemment définis.
task_tracker.py - Juste une classe ajoutant du sucre syntaxique pour suivre facilement une tâche
utils.py - Fonctions utilitaires pour le serveur.

Autres fonctionnalités

À titre de test, le dossier sound propose quelques expériences de génération de sons.
Le dossier utils contient des fonctions utiles pour l'utilisateur :
- download_models.py - télécharge des modèles utiles pour le serveur. Il ne télécharge pas tous les modèles.

Configuration

La configuration du serveur principal est dans api.json . Les données de configuration les plus importantes sont « serverIp » et « serverPort » car elles définissent l'adresse du serveur.

Démarrer en tant que serveur TCP

Un serveur TCP peut être démarré afin de décharger la partie IA du thread d'application. Lancez simplement python -m server.run . La configuration du serveur est définie dans api.json . La communication est gérée au format JSON, avec un style HTTP fort.

Pour vous connecter au serveur depuis un autre ordinateur sur le même réseau, vous devez ouvrir un port. Sous Windows, il vous suffit d'aller dans le panneau de configuration ajouter une nouvelle règle pour le port 9000 (avec la configuration par défaut). Ce didacticiel How-To Geek semble suffisamment guide. Sous Linux, ouvrir des ports est un peu plus amusant, je recommande personnellement d'utiliser nginx avec une redirection de port.

Feuille de route

État actuel du projet, d'un point de vue très lointain.

Génération Skybox : v0.4 terminée, rendez-vous sur skybox/panorama_creator.py
Génération de terrain : la première génération de terrain 3D dans environment/renderer.py ne convient pas à la production pour le moment.
Génération de props : utilisez uniquement des panneaux publicitaires car la technologie actuelle ne permet pas de rêver plus grand.

Liste des modèles

Ce projet comprend plusieurs modèles de réseaux de neurones artificiels. Si vous souhaitez remplacer un modèle par un autre, vous devez avoir une bonne connaissance de ce que vous faites, sinon la qualité du produit final pourrait être diminuée.

Création d'image : base Stable Diffusion XL 1.0 et affineur Stable Diffusion XL 1.0.
Inpainting et outpainting : Stable Diffusion XL 1.0 Inpainting 0.1.
Synthèse vocale et traduction : Whisper Large v3.

Veuillez jeter un œil à utils/download_models.py pour voir d'où ces modèles sont chargés.

Liens utiles

Vous pouvez télécharger le client Unity officiel depuis VR-Environment-GenAI-Unity (GitHub). Si vous recherchez le référentiel public actif de ce projet, rendez-vous sur HugoFara/speech-to-world-server.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-25
taille 3.75MB
Provenant de Github

Applications connexes

Dents de rechange VR

2022-09-04
Fruits Ninja VR

2022-08-31
Projet Terminus VR

2022-08-05
Barre d'horreur VR

2022-08-01
VR condamné

2022-08-01
Serveur FileZilla

2009-06-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout