Proyek Python untuk menciptakan lingkungan VR menggunakan AI Generatif. Anda dapat menjalankannya sebagai server TCP untuk menghubungkannya dengan klien Unity, untuk mendapatkan aplikasi AI/VR yang lengkap.
Ini adalah arsip publik, pengembangan berlanjut di HugoFara/speech-to-world-server!
Ini adalah kasus penggunaan AI generatif untuk membangun pemandangan VR yang lengkap. Ini dikembangkan di Fondation Campus Biotech Jenewa, bekerja sama dengan Laboratorium Ilmu Kognitif, oleh Hugo FARAJALLAH.
Anda perlu mendapatkan Python 3.10 dan CUDA 12.1 (versi lain belum teruji). Setelah persyaratan diinstal, proyek akan berjalan.
Berikut adalah prosedur instalasi terperinci:
cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
python -m venv .venv # Creates the virtual environment under .venv
source .venv/bin/activate # Activates it
cd VR-Environment-GenAI-Server
# From https://packaging.python.org/en/latest/guides/installing-using-pip-and-virtual-environments/#create-and-use-virtual-environments
py -m venv .venv # Creates the virtual environment under .venv
.venv S cripts a ctivate # Activates it
pip install -r requirements.txt
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
. Silakan lihat di https://pytorch.org/get-started/locally/ untuk detailnya.Mulai saat ini, proyek harus berfungsi. Bagian selanjutnya bersifat opsional, tetapi dapat menghemat banyak waktu.
(opsional) Anda dapat mempercepat pembuatan gambar menggunakan akselerasi. Unduh dengan
pip install accelerate
.
.idea
disertakan untuk menambahkan folder tersebut sebagai proyek.sudo apt install ffmpeg portaudio19-dev python3-pyaudio
pip install -r requirements-optional.txt # Installs PyAudio
Setiap file dapat dieksekusi secara independen, sehingga titik masuknya sama banyaknya dengan file.
Kasus penggunaan yang paling umum adalah sebagai berikut:
python -m skybox.diffusion
.python -m utils.download_models
. Jika Anda tidak melakukannya, model akan diunduh saat run time yang mungkin sangat lambat.python -m server.run
.Berikutnya adalah detail untuk file khusus.
Masuk ke folder skybox
.
skybox/legacy
mungkin tidak berguna. Saya menyimpannya di sana untuk keperluan pribadi. Fitur 3D ada di folder environment
. Ini masih dalam pengembangan aktif pada saat penulisan ini (Juni 2024), oleh karena itu hal-hal berikut ini dapat berubah.
Untuk fitur ucapan ke teks, buka asr
(pengenalan ucapan otomatis)
Jika Anda ingin menggunakan antarmuka grafis alih-alih kode Python, Anda dapat menggunakan alur kerja ComfyUI yang disediakan di folder ComfyUI
.
Penjelasan untuk setiap alur kerja dirinci di ComfyUI/README.md.
Fitur server ada di server
. Lihat Mulai sebagai server TCP untuk detail penggunaan.
sound
melakukan beberapa eksperimen dengan pembuatan suara.utils
berisi fungsi-fungsi yang berguna bagi pengguna: Konfigurasi server utama ada di api.json
. Data konfigurasi yang paling signifikan adalah "serverIp" dan "serverPort" karena keduanya menetapkan alamat server.
Server TCP dapat dimulai untuk melepas bagian AI dari thread aplikasi. Luncurkan saja python -m server.run
. Konfigurasi server ditentukan di api.json
. Komunikasi ditangani dalam format JSON, dengan gaya HTTP yang kuat.
Untuk terhubung ke server dari komputer lain di jaringan yang sama, Anda perlu membuka port. Di Windows, Anda hanya perlu masuk ke panel kontrol dan menambahkan aturan baru untuk port 9000
(dengan konfigurasi default). Tutorial How-To Geek ini sepertinya cukup membimbing. Di Linux, membuka port sedikit lebih menyenangkan, saya pribadi merekomendasikan menggunakan nginx dengan pengalihan port.
Status proyek saat ini, dari sudut pandang yang sangat jauh.
skybox/panorama_creator.py
environment/renderer.py
tidak cocok untuk produksi saat ini. Proyek ini mencakup beberapa model jaringan saraf tiruan. Jika Anda ingin mengganti suatu model dengan model lain, Anda harus memiliki pengetahuan yang baik tentang apa yang Anda lakukan, jika tidak, kualitas produk akhir dapat menurun.
Silakan lihat utils/download_models.py
untuk melihat dari mana model tersebut dimuat.
Anda dapat mengunduh klien Unity resmi dari VR-Environment-GenAI-Unity (GitHub). Jika Anda mencari repositori publik aktif dari proyek ini, kunjungi HugoFara/speech-to-world-server.