VR Environment GenAI Server 다운로드 - VR Environment GenAI Server 소스코드 다운로드

VR Environment GenAI Server

AI 소스 코드

1.0.0

다운로드

Generative AI, Python Server를 활용한 VR 환경 구축

Generative AI를 사용하여 VR 환경을 만드는 Python 프로젝트입니다. 이를 TCP 서버로 실행하여 Unity 클라이언트와 인터페이스하고 완전한 AI/VR 애플리케이션을 얻을 수 있습니다.

이것은 공개 아카이브이며 HugoFara/speech-to-world-server에서 개발이 계속됩니다!

이는 완전한 VR 풍경을 구축하기 위한 생성 AI의 사용 사례입니다. 이는 Hugo FARAJALLAH가 인지 과학 연구소와 협력하여 Fondation Campus Biotech Geneva에서 개발했습니다.

요구사항

파이썬 3.10.12+
CUDA 호환 그래픽 카드 및 최소 12GB VRAM.
모델의 경우 최대 15GB의 저장 공간이 제공됩니다.

설치

Python 3.10 및 CUDA 12.1이 필요합니다(다른 버전은 테스트되지 않음). 요구 사항이 설치되면 프로젝트가 작동해야 합니다.

자세한 설치 절차는 다음과 같습니다.

CUDA 12.1을 설치하면 GPU에서 계산이 가능해집니다.
Python 3.10을 설치합니다. Windows의 경우 공식 설치 프로그램을 사용하여 다운로드할 수 있습니다.
이 Git 저장소(https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/)를 복제하거나 복사하세요.

Python 가상 환경을 만듭니다. 꼭 필요한 것은 아니지만 프로젝트에 종속성이 많기 때문에 적극 권장됩니다. 예를 들어 venv를 사용하는 경우:

리눅스의 경우:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

Windows의 경우:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Python 요구 사항을 설치합니다.
```
pip install -r requirements.txt
```
중요 : 이 글을 쓰는 시점(2024-07-29)에는 PyTorch의 기본 버전이 CUDA 12.1과 호환되므로 추가 단계가 필요하지 않을 수도 있습니다. PyTorch 버전이 CUDA와 호환되지 않는다는 오류 메시지가 표시되면 PyTorch를 완전히 제거하고 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 실행하여 다시 설치하세요. 자세한 내용은 https://pytorch.org/get-started/locally/를 참조하세요.

이제부터 프로젝트가 작동해야 합니다. 다음 섹션은 선택 사항이지만 시간을 많이 절약할 수 있습니다.

(선택 사항) 가속을 사용하여 이미지 생성 속도를 높일 수 있습니다. pip install accelerate 으로 다운로드하세요.

설치 세부사항

모델을 처음 실행하는 경우 다운로드가 필요하며 이 작업에는 시간이 걸릴 수 있으며 인터넷 연결이 필요합니다. 사용법 섹션에서는 모든 모델을 한 번에 다운로드하는 방법을 설명합니다.
PyCharm 사용자의 경우 해당 폴더를 프로젝트로 추가할 수 있도록 .idea 폴더가 포함되어 있습니다.
선택 사항, 데모 전용: Python(ASR)의 마이크에서 오디오를 캡처하려면 ffmpeg, portaudio 및 pyaudio가 필요합니다.
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

용법

각 파일은 독립적으로 실행될 수 있으므로 파일만큼 많은 진입점이 있습니다.

가장 일반적인 사용 사례는 다음과 같습니다.

python -m skybox.diffusion 사용하여 새 이미지를 생성합니다.
python -m utils.download_models 사용하여 모든 모델을 다운로드합니다. 그렇게 하지 않으면 모델이 런타임에 다운로드되므로 속도가 매우 느려질 수 있습니다.
python -m server.run 으로 서버를 시작합니다.

다음은 특수 파일에 대한 세부 사항입니다.

이미지 생성

skybox 폴더로 이동합니다.

확산.py - 확산 모델에서 이미지를 생성하는 기본 모듈입니다.
inpainting.py - 인페인팅 모델을 구현합니다.
image_processing.py - 이미지 처리 기능을 정의합니다.
Mask_editor.py - 이미지에 적합한 마스크를 생성하는 코드 로직입니다. 결과는 일반적으로 인페인팅 함수로 전달됩니다.
Panorama_creator.py - 파노라마를 생성하는 코드 로직입니다.
skybox/legacy 의 코드는 유용하지 않을 수 있습니다. 개인적인 의도로 거기에 보관합니다.

3D 기능

3D 기능은 environment 폴더에 있습니다. 이 글을 쓰는 시점(2024년 6월)을 기준으로 아직 개발 중이므로 다음 내용이 변경될 수 있습니다.

깊이 생성.py - 표준 RGB 이미지에서 가져와 깊이 맵을 생성하는 모델을 제공합니다.
point_cloud_pipeline.py - RGBD를 사용하여 포인트 클라우드를 생성하고 이를 메시로 변환합니다.
mesh_pipeline.py - RGBD 이미지와 표현 기능을 사용하여 지형 메시를 생성합니다.
Mask_former.py - RGB 이미지의 의미론적 분할.
image_segmentation.py - RGBD+의미론적 이미지를 사용하여 주요 요소를 분리합니다.
깊이_inpainting.py - 깊이 데이터로 제어되는 인페인팅을 결합하여 지형의 일부를 다시 만듭니다. 아직 기본 코드 베이스에 통합되지 않았습니다.
render.py - 아직 완료되지 않은 지형에 대한 3D 뷰를 만듭니다.

음성-텍스트(ASR)

음성을 텍스트로 변환하는 기능을 보려면 asr (자동 음성 인식)로 이동하세요.

speech_to_text.py - ASR(자동 음성 인식) 모델을 구현합니다.
asr_demo.py - 단순한 데모입니다. 마이크를 사용하거나 데이터세트를 로드할 수 있습니다.

ComfyUI 그래픽 인터페이스

Python 코드 대신 그래픽 인터페이스를 사용하려는 경우 ComfyUI 폴더에 제공된 ComfyUI 워크플로를 사용할 수 있습니다.

각 작업 흐름에 대한 설명은 ComfyUI/README.md에 자세히 나와 있습니다.

섬기는 사람

서버 기능은 server 에 있습니다. 사용법에 대한 자세한 내용은 TCP 서버로 시작을 참조하세요.

run.py - 이전에 정의된 모델에 대한 요청을 제공할 수 있는 TCP 서버를 시작합니다.
task_tracker.py - 작업을 쉽게 추적하기 위해 구문적 suger를 추가하는 클래스입니다.
utils.py - 서버용 유틸리티 기능입니다.

기타 기능

테스트로서 sound 폴더에는 사운드 생성에 대한 몇 가지 실험이 있습니다.
utils 폴더에는 사용자에게 유용한 기능이 포함되어 있습니다.
- download_models.py - 서버에 유용한 모델을 다운로드합니다. 모든 모델을 다운로드하지는 않습니다.

구성

기본 서버 구성은 api.json 에 있습니다. 가장 중요한 구성 데이터는 서버 주소를 설정하는 "serverIp" 및 "serverPort"입니다.

TCP 서버로 시작

애플리케이션 스레드에서 AI 부분을 오프로드하기 위해 TCP 서버를 시작할 수 있습니다. python -m server.run 실행하세요. 서버 구성은 api.json 에 정의되어 있습니다. 통신은 강력한 HTTP 스타일을 사용하여 JSON 형식으로 처리됩니다.

동일한 네트워크에 있는 다른 컴퓨터에서 서버에 연결하려면 포트를 열어야 합니다. Windows에서는 제어판으로 이동하여 포트 9000 에 대한 새 규칙을 추가하기만 하면 됩니다(기본 구성 사용). 이 How-To Geek 튜토리얼은 충분히 안내하는 것 같습니다. Linux에서는 포트를 여는 것이 좀 더 재미있습니다. 개인적으로 포트 리디렉션과 함께 nginx를 사용하는 것이 좋습니다.