Descarga VR Environment GenAI Server - Descarga del código fuente VR Environment GenAI Server

VR Environment GenAI Server

Código Fuente de IA

1.0.0

Descargar

Creación de entornos de realidad virtual con IA generativa y servidor Python

Un proyecto de Python para crear entornos de realidad virtual utilizando IA generativa. Puede ejecutarlo como un servidor TCP para conectarlo con un cliente Unity y obtener la aplicación AI/VR completa.

Este es un archivo público, ¡el desarrollo continúa en HugoFara/speech-to-world-server!

Este es un caso de uso de IA generativa para construir un escenario de realidad virtual completo. Fue desarrollado en la Fundación Campus Biotech de Ginebra, en colaboración con el Laboratorio de Ciencias Cognitivas, por Hugo FARAJALLAH.

Requisitos

Pitón 3.10.12+
Una tarjeta gráfica compatible con CUDA y al menos 12 GB de VRAM.
Hasta 15 GB de almacenamiento para los modelos.

Instalación

Necesita obtener Python 3.10 y CUDA 12.1 (otras versiones no están probadas). Una vez instalados los requisitos, el proyecto debería funcionar.

Aquí hay un procedimiento de instalación detallado:

Instale CUDA 12.1, permite el cálculo en la GPU.
Instale Python 3.10 , para Windows puede descargarlo usando el instalador oficial.
Clona o copia este repositorio de Git: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

Cree un entorno virtual Python. Si bien no es estrictamente necesario, es muy recomendable ya que el proyecto tiene muchas dependencias. Por ejemplo usando venv:

En Linux:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

En Windows:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Instale los requisitos de Python.
```
pip install -r requirements.txt
```
Importante : en el momento de escribir este artículo (29 de julio de 2024), la versión predeterminada de PyTorch es compatible con CUDA 12.1 y es posible que no necesite ningún paso adicional. Si recibe un mensaje de error que le indica que su versión de PyTorch no es compatible con CUDA, desinstale PyTorch por completo y vuelva a instalarlo ejecutando pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 . Eche un vistazo a https://pytorch.org/get-started/locally/ para obtener más detalles.

A partir de aquí, el proyecto debería ser funcional. La siguiente sección es opcional, pero puede ahorrarle mucho tiempo.

(opcional) Puede acelerar la generación de imágenes usando acelerar. Descárgalo con pip install accelerate .

Detalles de instalación

La primera vez que se inicia un modelo es necesario descargarlo, esta operación puede llevar algún tiempo y necesita una conexión a Internet. La sección Uso explica cómo descargar todos los modelos a la vez.
Para los usuarios de PyCharm, se incluye una carpeta .idea para agregar la carpeta como proyecto.
Opcional, solo demostración: para capturar el audio del micrófono en Python (ASR), necesitas ffmpeg, portaudio y pyaudio:
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

Uso

Cada archivo se puede ejecutar de forma independiente, por lo que hay tantos puntos de entrada como archivos.

Los casos de uso más comunes son los siguientes:

Genere una nueva imagen con python -m skybox.diffusion .
Descargue todos los modelos con python -m utils.download_models . Si no lo hace, los modelos se descargarán en tiempo de ejecución, lo que puede ser muy lento.
Inicie el servidor con python -m server.run .

El siguiente es el detalle de los archivos especiales.

Generación de imágenes

Vaya a la carpeta skybox .

diffusion.py: módulo base para crear una imagen a partir de un modelo de difusión.
inpainting.py: implementa un modelo inpainting.
image_processing.py: define las funciones de procesamiento de imágenes
mask_editor.py: lógica de código para generar una máscara adaptada a la imagen. El resultado generalmente se pasa a funciones inpainting.
panorama_creator.py: lógica de código para generar un panorama.
Es posible que el código en skybox/legacy no sea útil. Lo guardo allí para fines personales.

características 3D

Las características 3D están en la carpeta environment . Todavía se encuentra en desarrollo activo al momento de escribir este artículo (junio de 2024), por lo que lo siguiente está sujeto a cambios.

profundidad_generación.py: proporciona un modelo que proviene de una imagen RGB estándar y crea un mapa de profundidad.
point_cloud_pipeline.py: utiliza RGBD para crear una nube de puntos y la convierte en una malla.
mesh_pipeline.py: utiliza la imagen RGBD y las características de representación para crear una malla de terreno.
mask_former.py: segmentación semántica de una imagen RGB.
image_segmentation.py: utiliza una imagen semántica RGBD+ para aislar los elementos principales.
Depth_inpainting.py: combina pintura interna controlada por datos de profundidad para recrear partes de un terreno. Aún no está integrado en la base del código principal.
rendered.py: crea una vista 3D para el terreno, aún no terminado.

Voz a texto (ASR)

Para funciones de voz a texto, vaya a asr (reconocimiento automático de voz)

Speech_to_text.py: implementa un modelo de reconocimiento automático de voz (ASR).
asr_demo.py: simplemente una demostración, puede usar su micrófono o cargar el conjunto de datos

Interfaz gráfica cómoda UI

Si desea utilizar una interfaz gráfica en lugar de código Python, puede utilizar los flujos de trabajo de ComfyUI proporcionados en la carpeta ComfyUI .

La explicación de cada flujo de trabajo se detalla en ComfyUI/README.md.

Servidor

Las características del servidor están en server . Consulte Iniciar como servidor TCP para obtener detalles sobre el uso.

run.py: inicia un servidor TCP, capaz de atender solicitudes a los modelos definidos previamente.
task_tracker.py: solo una clase que agrega sugerencias sintácticas para realizar un seguimiento de una tarea fácilmente
utils.py: funciones de utilidad para el servidor.

Otras características

A modo de prueba, la carpeta sound tiene algunos experimentos con la generación de sonido.
La carpeta utils contiene funciones útiles para el usuario:
- download_models.py: descarga modelos útiles para el servidor. No descarga todos los modelos.

Configuración

La configuración del servidor principal está en api.json . Los datos de configuración más significativos son "serverIp" y "serverPort" ya que establecen la dirección del servidor.

Iniciar como servidor TCP

Se puede iniciar un servidor TCP para descargar la parte de IA del hilo de la aplicación. Simplemente inicie python -m server.run . La configuración del servidor se define en api.json . La comunicación se maneja en formato JSON, con un fuerte estilo HTTP.

Para conectarse al servidor desde otra computadora en la misma red, necesita abrir un puerto. En Windows, simplemente debes ir al panel de control y agregar una nueva regla para el puerto 9000 (con la configuración predeterminada). Este tutorial de How-To Geek parece suficiente guía. En Linux, abrir puertos es un poco más divertido; personalmente recomiendo usar nginx con redirección de puertos.

Hoja de ruta

Estado actual del proyecto, desde una perspectiva muy lejana.

Generación de Skybox: v0.4 finalizada, vaya a skybox/panorama_creator.py
Generación de terreno: la generación inicial de terreno 3D en environment/renderer.py no es apta para producción ahora.
Generación de utilería: utilice vallas publicitarias únicamente ya que la tecnología actual no permite soñar en grande.

lista de modelos

Este proyecto incluye varios modelos de redes neuronales artificiales. Si desea sustituir un modelo por otro, debe tener un buen conocimiento de lo que está haciendo, de lo contrario la calidad del producto final puede verse mermada.

Creación de imágenes: Stable Diffusion XL base 1.0 y Stable Diffusion XL refiner 1.0.
Pintura interior y exterior: Stable Diffusion XL 1.0 Pintura interior 0.1.
Conversión de voz a texto y traducción: Whisper Large v3.

Eche un vistazo a utils/download_models.py para ver desde dónde se cargan esos modelos.

Enlaces útiles

Puede descargar el cliente oficial de Unity desde VR-Environment-GenAI-Unity (GitHub). Si está buscando el repositorio público activo de este proyecto, vaya a HugoFara/speech-to-world-server.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-25
tamaño 3.75MB
Proviene de Github

Aplicaciones relacionadas

Dientes de repuesto VR

2022-09-04
Ninja de frutas VR

2022-08-31
Terminal del proyecto VR

2022-08-05
Barra de terror VR

2022-08-01
VR sentenciado

2022-08-01
Servidor FileZilla

2009-06-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo