VR Environment GenAI Serverのダウンロード - VR Environment GenAI Serverソースコードのダウンロード

VR Environment GenAI Server

AI ソースコード

1.0.0

ダウンロード

Generative AI、Python ServerによるVR環境構築

Generative AI を使用して VR 環境を作成する Python プロジェクト。これを TCP サーバーとして実行して Unity クライアントと接続し、本格的な AI/VR アプリケーションを取得できます。

これは公開アーカイブであり、開発は HugoFara/speech-to-world-server で継続されます。

これは、完全な VR シーナリーを構築するための生成 AI の使用例です。これは、ヒューゴ・ファラハラ氏によって認知科学研究所と協力して、ジュネーブ財団キャンパス・バイオテックで開発されました。

要件

Python 3.10.12+
CUDA 互換のグラフィックカードと 12 GB 以上の VRAM。
モデルごとに最大 15 GB のストレージ。

インストール

Python 3.10 と CUDA 12.1 を入手する必要があります (他のバージョンはテストされていません)。要件がインストールされると、プロジェクトは機能するはずです。

詳細なインストール手順は次のとおりです。

CUDA 12.1 をインストールすると、GPU での計算が有効になります。
Python 3.10をインストールします。Windows の場合は、公式インストーラーを使用してダウンロードできます。
この Git リポジトリをクローンまたはコピーします: https://github.com/fcbg-hnp-vr/VR-Environment-GenAI-Server/。

Python 仮想環境を作成します。厳密に必要というわけではありませんが、プロジェクトには多くの依存関係があるため、これを強くお勧めします。たとえば、venv を使用すると、次のようになります。

Linux の場合:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv       # Creates the virtual environment under .venv
source .venv/bin/activate  # Activates it

Windows の場合:

 cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv        # Creates the virtual environment under .venv
.venv S cripts a ctivate  # Activates it

Python の要件をインストールします。
```
pip install -r requirements.txt
```
重要: この記事の執筆時点 (2024 年 7 月 29 日) では、PyTorch のデフォルトバージョンは CUDA 12.1 と互換性があり、追加の手順は必要ない場合があります。ご使用の PyTorch のバージョンが CUDA と互換性がないことを示すエラーメッセージが表示された場合は、PyTorch を完全にアンインストールし、 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121を実行して再インストールします。詳細については、https://pytorch.org/get-started/locally/ をご覧ください。

ここから、プロジェクトは機能するはずです。次のセクションはオプションですが、時間を大幅に節約できます。

(オプション) アクセラレータを使用すると、イメージの生成を高速化できます。 pip install accelerateでダウンロードします。

インストールの詳細

モデルを初めて起動するときはダウンロードする必要があります。この操作には時間がかかる場合があり、インターネット接続が必要です。「使用法」セクションでは、すべてのモデルを一度にダウンロードする方法について説明します。
PyCharm のユーザー向けに、フォルダーをプロジェクトとして追加するための.ideaフォルダーが含まれています。
オプション、デモのみ: Python (ASR) でマイクから音声をキャプチャするには、ffmpeg、portaudio、および pyaudio が必要です。
```
sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio 
```

使用法

各ファイルは独立して実行できるため、ファイルと同じ数のエントリポイントになります。

最も一般的な使用例は次のとおりです。

python -m skybox.diffusionを使用して新しいイメージを生成します。
python -m utils.download_modelsを使用してすべてのモデルをダウンロードします。これを行わないと、モデルは実行時にダウンロードされ、非常に遅くなる可能性があります。
python -m server.runでサーバーを起動します。

次に特殊ファイルの詳細について説明します。

画像生成

skyboxフォルダーに移動します。

diffusion.py - 拡散モデルから画像を作成する基本モジュール。
inpainting.py - 修復モデルを実装します。
image_processing.py - 画像処理機能を定義します
Mask_editor.py - 画像に適合するマスクを生成するコードロジック。結果は通常、修復関数に渡されます。
panorama_creator.py - パノラマを生成するコードロジック。
skybox/legacyのコードは役に立たない可能性があります。私は個人的な意図のためにそれをそこに保管します。

3D機能

3D フィーチャはenvironmentフォルダーにあります。この記事の執筆時点 (2024 年 6 月) ではまだ開発中であるため、以下は変更される可能性があります。

Depth_generation.py - 標準の RGB 画像から取得して深度マップを作成するためのモデルを提供します。
point_cloud_pipeline.py - RGBD を使用して点群を作成し、それをメッシュに変換します。
Mesh_pipeline.py - RGBD イメージと表現機能を使用して地形メッシュを作成します。
Mask_former.py - RGB 画像のセマンティックセグメンテーション。
image_segmentation.py - RGBD+セマンティックイメージを使用して主要要素を分離します。
Depth_inpainting.py - 深度データによって制御される修復を組み合わせて、地形の一部を再作成します。まだメインのコードベースには統合されていません。
rendered.py - 地形の 3D ビューを作成します。まだ完了していません。

音声テキスト変換 (ASR)

音声テキスト変換機能については、 asr (自動音声認識) を参照してください。

speech_to_text.py - 自動音声認識 (ASR) モデルを実装します。
asr_demo.py - 単なるデモです。マイクを使用するか、データセットをロードできます。

ComfyUI グラフィカルインターフェイス

Python コードの代わりにグラフィカルインターフェイスを使用する場合は、 ComfyUIフォルダーにある ComfyUI ワークフローを使用できます。

各ワークフローの説明は ComfyUI/README.md に詳しく記載されています。

サーバ

サーバー機能はserverにあります。使用方法の詳細については、「TCP サーバーとして開始する」を参照してください。

run.py - TCP サーバーを起動し、以前に定義されたモデルへのリクエストを処理できるようにします。
task_tracker.py - タスクを簡単に追跡するための構文sugerを追加するだけのクラス
utils.py - サーバー用のユーティリティ関数。

その他の機能

テストとして、 soundフォルダーにサウンド生成に関する実験がいくつかあります。
utilsフォルダーには、ユーザーにとって便利な機能が含まれています。
- download_models.py - サーバーに役立つモデルをダウンロードします。すべてのモデルをダウンロードするわけではありません。

構成

メインのサーバー構成はapi.jsonにあります。最も重要な構成データは、サーバーのアドレスを設定する「serverIp」と「serverPort」です。

TCPサーバーとして起動する

AI 部分をアプリケーションスレッドからオフロードするために、TCP サーバーを起動できます。 python -m server.runを起動するだけです。サーバー構成はapi.jsonで定義されます。通信は、強力な HTTP スタイルの JSON 形式で処理されます。

同じネットワーク上の別のコンピュータからサーバーに接続するには、ポートを開く必要があります。 Windows では、コントロールパネルに移動して、ポート9000の新しいルールを追加するだけです (デフォルト設定を使用)。この How-To Geek チュートリアルは十分に役立つようです。 Linux では、ポートを開くのがもう少し楽しくなります。個人的には、ポートリダイレクトを備えた nginx を使用することをお勧めします。

ロードマップ

非常に遠い視点から見たプロジェクトの現在の状況。

Skybox の生成: v0.4 が完了しましたskybox/panorama_creator.pyに移動します。
地形生成: environment/renderer.pyでの初期の 3D 地形生成は、現在実稼働には適していません。
小道具の生成 : 現在のテクノロジーではより大きな夢を実現できないため、掲示板のみを使用してください。

モデル一覧

このプロジェクトには、いくつかの人工ニューラルネットワークモデルが含まれています。あるモデルを別のモデルで置き換える場合は、自分が何をしているのかについて十分な知識を持っている必要があります。そうしないと、最終製品の品質が低下する可能性があります。

画像作成：Stable Diffusion XL Base 1.0 および Stable Diffusion XL Refiner 1.0。
インペイントとアウトペイント: Stable Diffusion XL 1.0 インペイント 0.1。
音声テキスト化と翻訳: Whisper Large v3。

これらのモデルがどこからロードされているかを確認するには、 utils/download_models.pyを参照してください。

役立つリンク

公式 Unity クライアントは VR-Environment-GenAI-Unity (GitHub) からダウンロードできます。このプロジェクトのアクティブなパブリックリポジトリを探している場合は、HugoFara/speech-to-world-server にアクセスしてください。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2024-12-25
サイズ 3.75MB
から Github

VR Environment GenAI Server

Generative AI、Python ServerによるVR環境構築

要件

インストール

インストールの詳細

使用法

画像生成