Download VR Environment GenAI Server - Download do código-fonte VR Environment GenAI Server

VR Environment GenAI Server

Código-Fonte de IA

1.0.0

Baixar

Criação de ambiente VR com IA generativa, servidor Python

Um projeto Python para criar ambientes VR usando IA generativa. Você pode executá-lo como um servidor TCP para fazer interface com um cliente Unity, para obter o aplicativo AI/VR completo.

Este é um arquivo público, o desenvolvimento continua em HugoFara/speech-to-world-server!

Este é um caso de uso de IA generativa para construir um cenário completo de VR. Foi desenvolvido na Fondation Campus Biotech Geneva, em colaboração com o Laboratório de Ciência Cognitiva, por Hugo FARAJALLAH.

Requisitos

Pitão 3.10.12+
Uma placa gráfica compatível com CUDA e pelo menos 12 GB de VRAM.
Até 15 GB de armazenamento para os modelos.

Instalação

Você precisa obter Python 3.10 e CUDA 12.1 (outras versões não foram testadas). Depois que os requisitos forem instalados, o projeto deverá funcionar.

Aqui está um procedimento de instalação detalhado:

Instale o CUDA 12.1, ele permite a computação na GPU.
Instale o Python 3.10 , para Windows você pode baixá-lo usando o instalador oficial.
Clone ou copie este repositório Git: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

Crie um ambiente virtual Python. Embora não seja estritamente necessário, é altamente recomendado porque o projeto tem muitas dependências. Por exemplo, usando venv:

No Linux:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

No Windows:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Instale os requisitos do Python.
```
pip install -r requirements.txt
```
Importante : no momento da escrita (2024-07-29) a versão padrão do PyTorch é compatível com CUDA 12.1 e você pode não precisar de nenhuma etapa extra. Se você receber uma mensagem de erro informando que sua versão do PyTorch não é compatível com CUDA, desinstale o PyTorch completamente e reinstale-o executando pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 . Por favor, dê uma olhada em https://pytorch.org/get-started/locally/ para obter detalhes.

A partir daqui, o projeto deverá ser funcional. A próxima seção é opcional, mas pode economizar muito tempo.

(opcional) Você pode acelerar a geração de imagens usando acelerar. Faça o download com pip install accelerate .

Detalhes de instalação

Na primeira vez que um modelo é lançado é necessário fazer o download, esta operação pode levar algum tempo e você precisa de uma conexão com a internet. A seção Uso explica como baixar todos os modelos de uma vez.
Para usuários do PyCharm, uma pasta .idea está incluída para adicionar a pasta como um projeto.
Opcional, apenas demonstração: para capturar o áudio do microfone em Python (ASR), você precisa de ffmpeg, portaudio e pyaudio:
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

Uso

Cada arquivo pode ser executado de forma independente, portanto, são tantos pontos de entrada quanto arquivos.

Os casos de uso mais comuns são os seguintes:

Gere uma nova imagem com python -m skybox.diffusion .
Baixe todos os modelos com python -m utils.download_models . Se você não fizer isso, os modelos serão baixados em tempo de execução, o que pode ser muito lento.
Inicie o servidor com python -m server.run .

A seguir está o detalhe para arquivos especiais.

Geração de imagem

Vá para a pasta skybox .

diffusion.py - módulo base para criar uma imagem a partir de um modelo de difusão.
inpainting.py - implementa um modelo de pintura interna.
image_processing.py - define recursos de processamento de imagem
mask_editor.py - lógica de código para gerar uma máscara adaptada à imagem. O resultado geralmente é passado para funções de pintura.
panorama_creator.py - lógica de código para gerar um panorama.
O código em skybox/legacy pode não ser útil. Eu o mantenho lá para fins pessoais.

Recursos 3D

Os recursos 3D estão na pasta environment . Ele ainda está em desenvolvimento ativo no momento da redação deste artigo (junho de 2024), portanto, o seguinte está sujeito a alterações.

profundidade_geração.py - fornece um modelo a partir de uma imagem RGB padrão e cria um mapa de profundidade.
point_cloud_pipeline.py - usa RGBD para criar uma nuvem de pontos e a converte em uma malha.
mesh_pipeline.py - usa a imagem RGBD e recursos de representação para criar uma malha de terreno.
mask_former.py - segmentação semântica de uma imagem RGB.
image_segmentation.py - usa uma imagem RGBD+semântica para isolar os elementos principais.
deep_inpainting.py - combina pintura interna controlada por dados de profundidade para recriar partes de um terreno. Ainda não está integrado na base de código principal.
rendered.py - cria uma visualização 3D do terreno, ainda não finalizada.

Fala para texto (ASR)

Para recursos de fala em texto, vá para asr (reconhecimento automático de fala)

Speech_to_text.py - implementa um modelo de reconhecimento automático de fala (ASR).
asr_demo.py – simplesmente uma demonstração, você pode usar seu microfone ou carregar o conjunto de dados

Interface gráfica ComfyUI

Se quiser usar uma interface gráfica em vez do código Python, você pode usar os fluxos de trabalho ComfyUI fornecidos na pasta ComfyUI .

A explicação para cada fluxo de trabalho é detalhada em ComfyUI/README.md.

Servidor

Os recursos do servidor estão em server . Consulte Iniciar como um servidor TCP para obter detalhes sobre o uso.

run.py - inicia um servidor TCP, capaz de atender solicitações aos modelos previamente definidos.
task_tracker.py - Apenas uma classe adicionando sugestões sintáticas para rastrear uma tarefa facilmente
utils.py - Funções utilitárias para o servidor.

Outros recursos

A título de teste, a pasta sound possui alguns experimentos com geração de som.
A pasta utils contém funções úteis para o usuário:
- download_models.py - baixa modelos úteis para o servidor. Não baixa todos os modelos.

Configuração

A configuração principal do servidor está em api.json . Os dados de configuração mais significativos são “serverIp” e “serverPort”, pois definem o endereço do servidor.

Comece como um servidor TCP

Um servidor TCP pode ser iniciado para descarregar a parte AI do thread do aplicativo. Basta iniciar python -m server.run . A configuração do servidor é definida em api.json . A comunicação é feita no formato JSON, com um forte estilo HTTP.

Para se conectar ao servidor de outro computador na mesma rede, é necessário abrir uma porta. No Windows, basta ir ao painel de controle e adicionar uma nova regra para a porta 9000 (com a configuração padrão). Este tutorial How-To Geek parece bastante orientador. No Linux, abrir portas é um pouco mais divertido, eu pessoalmente recomendo usar o nginx com redirecionamento de porta.

Roteiro

Situação atual do projeto, numa perspectiva muito distante.

Geração Skybox: v0.4 concluída, vá para skybox/panorama_creator.py
Geração de terreno: A geração inicial de terreno 3D em environment/renderer.py não é adequada para produção agora.
Geração de adereços: use outdoors apenas porque a tecnologia atual não permite sonhar maior.

Lista de modelos

Este projeto inclui vários modelos de redes neurais artificiais. Se quiser substituir um modelo por outro, deverá ter um bom conhecimento do que está fazendo, caso contrário a qualidade do produto final poderá diminuir.

Criação de imagem: Stable Diffusion XL base 1.0 e Stable Diffusion XL refiner 1.0.
Pintura interna e externa: Difusão Estável XL 1.0 Pintura interna 0.1.
Conversão de fala para texto e tradução: Whisper Large v3.

Por favor, dê uma olhada em utils/download_models.py para ver de onde esses modelos são carregados.

Links úteis

Você pode baixar o cliente oficial do Unity em VR-Environment-GenAI-Unity (GitHub). Se você está procurando o repositório público ativo deste projeto, acesse HugoFara/speech-to-world-server.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-25
tamanho 3.75MB
Vindo de Github

Aplicativos Relacionados

Dentes sobressalentes VR

2022-09-04
Fruta Ninja VR

2022-08-31
Terminal do Projeto VR

2022-08-05
Barra de terror VR

2022-08-01
VR sentenciado

2022-08-01
Servidor FileZilla

2009-06-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos