Загрузка VR Environment GenAI Server - Загрузка исходного кода VR Environment GenAI Server

VR Environment GenAI Server

AI Исходный код

1.0.0

Скачать

Создание VR-среды с помощью генеративного искусственного интеллекта и сервера Python

Проект Python для создания VR-сред с использованием генеративного искусственного интеллекта. Вы можете запустить его как TCP-сервер для взаимодействия с клиентом Unity и получить полноценное приложение AI/VR.

Это публичный архив, разработка на HugoFara/speech-to-world-server продолжается!

Это вариант использования генеративного искусственного интеллекта для создания полноценного VR-пейзажа. Он был разработан Хьюго ФАРАДЖАЛЛАХом в Женевском кампусе Биотехнологий в сотрудничестве с Лабораторией когнитивных наук.

Требования

Питон 3.10.12+
CUDA-совместимая видеокарта и не менее 12 ГБ видеопамяти.
До 15 ГБ памяти для моделей.

Установка

Вам необходимо установить Python 3.10 и CUDA 12.1 (другие версии не тестировались). Как только требования установлены, проект должен работать.

Вот подробная процедура установки:

Установите CUDA 12.1, он позволяет выполнять вычисления на графическом процессоре.
Установите Python 3.10 , для Windows его можно скачать с помощью официального установщика.
Клонируйте или скопируйте этот репозиторий Git: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/.

Создайте виртуальную среду Python. Это не является строго необходимым, но настоятельно рекомендуется, поскольку проект имеет множество зависимостей. Например, используя venv:

В Linux:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

В Windows:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Установите требования Python.
```
pip install -r requirements.txt
```
Важно : на момент написания (29 июля 2024 г.) версия PyTorch по умолчанию совместима с CUDA 12.1, и вам могут не потребоваться какие-либо дополнительные действия. Если вы получили сообщение об ошибке, сообщающее, что ваша версия PyTorch несовместима с CUDA, полностью удалите PyTorch и переустановите его, запустив pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 . Подробности можно найти на https://pytorch.org/get-started/locally/.

С этого момента проект должен быть функциональным. Следующий раздел не является обязательным, но он может сэкономить вам много времени.

(необязательно) Вы можете ускорить создание изображений, используя ускорение. Загрузите его с помощью pip install accelerate .

Детали установки

При первом запуске модели ее необходимо загрузить. Эта операция может занять некоторое время, и вам потребуется подключение к Интернету. В разделе «Использование» объясняется, как загрузить все модели одновременно.
Для пользователей PyCharm включена папка .idea , позволяющая добавить ее в качестве проекта.
Необязательно, только демонстрация: для захвата звука с микрофона в Python (ASR) вам понадобятся ffmpeg, portaudio и pyaudio:
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

Использование

Каждый файл может выполняться независимо, поэтому у них столько же точек входа, сколько и у файлов.

Наиболее распространенными случаями использования являются следующие:

Создайте новое изображение с помощью python -m skybox.diffusion .
Загрузите все модели с помощью python -m utils.download_models . Если вы этого не сделаете, модели будут загружаться во время выполнения, что может быть очень медленным.
Запустите сервер с помощью python -m server.run .

Далее идет детализация специальных файлов.

Генерация изображений

Заходим в папку skybox .

диффузия.py — базовый модуль для создания изображения из диффузной модели.
inpainting.py — реализует модель рисования.
image_processing.py — определяет функции обработки изображений.
Mask_editor.py — логика кода для создания маски, адаптированной к изображению. Результат обычно передается функциям рисования.
panorama_creator.py — логика кода для создания панорамы.
Код в skybox/legacy может оказаться бесполезным. Я храню его там для личных целей.

3D-функции

3D-функции находятся в папке environment . На момент написания статьи (июнь 2024 г.) он все еще находился в активной разработке, поэтому нижеследующее может быть изменено.

глубины_генерации.py — предоставляет модель, основанную на стандартном изображении RGB и создающую карту глубины.
point_cloud_pipeline.py — использует RGBD для создания облака точек и преобразует его в сетку.
mesh_pipeline.py — использует возможности изображения и представления RGBD для создания сетки ландшафта.
Mask_former.py — семантическая сегментация RGB-изображения.
image_segmentation.py — использует семантическое изображение RGBD+ для изоляции основных элементов.
deep_inpainting.py — сочетает в себе рисование, управляемое данными глубины, для воссоздания частей ландшафта. Но не интегрирован в основную базу кода.
render.py — создаёт 3D-вид местности, ещё не законченный.

Преобразование речи в текст (ASR)

Для функций преобразования речи в текст перейдите в asr (автоматическое распознавание речи).

речь_to_text.py — реализует модель автоматического распознавания речи (ASR).
asr_demo.py — просто демо, вы можете использовать микрофон или загрузить набор данных.

Удобный графический интерфейсUI

Если вы хотите использовать графический интерфейс вместо кода Python, вы можете использовать предоставленные рабочие процессы ComfyUI в папке ComfyUI .

Объяснение каждого рабочего процесса подробно описано в ComfyUI/README.md.

Сервер

Возможности сервера находятся в server . Подробные сведения об использовании см. в разделе Запуск в качестве TCP-сервера.

run.py — запускает TCP-сервер, способный обслуживать запросы к ранее определенным моделям.
Task_tracker.py — просто класс, добавляющий синтаксический сахар для легкого отслеживания задачи.
utils.py — служебные функции для сервера.

Другие особенности

В качестве теста в папке sound есть несколько экспериментов с генерацией звука.
В папке utils собраны полезные для пользователя функции:
- download_models.py — скачивает полезные модели для сервера. Не все модели скачиваются.

Конфигурация

Основная конфигурация сервера находится в api.json . Наиболее важными данными конфигурации являются «serverIp» и «serverPort», поскольку они задают адрес сервера.

Запустить как TCP-сервер

TCP-сервер может быть запущен, чтобы разгрузить часть AI из потока приложения. Просто запустите python -m server.run . Конфигурация сервера определяется в api.json . Связь осуществляется в формате JSON в строгом стиле HTTP.

Чтобы подключиться к серверу с другого компьютера в той же сети, вам необходимо открыть порт. В Windows вам просто нужно зайти в панель управления и добавить новое правило для порта 9000 (с конфигурацией по умолчанию). Это руководство How-To Geek кажется достаточно информативным. В Linux открывать порты немного веселее, лично я рекомендую использовать nginx с перенаправлением портов.

Дорожная карта

Текущее состояние проекта в очень далекой перспективе.

Генерация Skybox: версия 0.4 готова, перейдите в skybox/panorama_creator.py
Генерация ландшафта: Ранняя генерация 3D-террейна в environment/renderer.py сейчас не подходит для производства.
Генерация реквизита: используйте только рекламные щиты, поскольку современные технологии не позволяют мечтать о большем.

Список моделей

Этот проект включает в себя несколько моделей искусственных нейронных сетей. Если вы хотите заменить одну модель на другую, вы должны хорошо знать, что делаете, иначе качество конечного продукта может снизиться.

Создание образа: база Stable Diffusion XL 1.0 и рафинер Stable Diffusion XL 1.0.
Окрашивание и закрашивание: Stable Diffusion XL 1.0 Окраска 0,1.
Преобразование речи в текст и перевод: Whisper Large v3.

Пожалуйста, загляните в utils/download_models.py , чтобы узнать, откуда загружаются эти модели.

Полезные ссылки

Вы можете скачать официальный клиент Unity с сайта VR-Environment-GenAI-Unity (GitHub). Если вы ищете активный общедоступный репозиторий этого проекта, перейдите по адресу HugoFara/speech-to-world-server.

Расширять

Дополнительная информация