Penebak Geo GenAI
Tebak nama negara dari hits yang dihasilkan oleh AI
Proyek ini berbeda dengan game GeoGuessr yang populer di mana Anda ditempatkan di lokasi dunia acak di Google Maps dan harus menebak lokasi tersebut selama hitungan mundur waktu. Di sini Anda harus menebak nama negara berdasarkan petunjuk multimoda yang dihasilkan oleh model AI, Anda dapat memilih di antara 3 modalitas, teks yang memberi Anda deskripsi tekstual negara tersebut, gambar yang memberi Anda gambar yang menyerupai negara dan audio yang memberi Anda Anda sampel audio yang terkait dengan negara tersebut.
Anda dapat memeriksa demo online aplikasi ini di ruang HuggingFace, demo ini dibatasi hanya untuk menghasilkan petunjuk gambar karena alasan kinerja.
Jika Anda ingin mempelajari lebih lanjut tentang cara kerja proyek ini dan cara pembuatannya, lihat artikel "Membangun GeoGuesser berbasis AI generatif".
Alur kerja
- Pilih modalitas petunjuk yang diinginkan.
- Pilih jumlah petunjuk untuk setiap modalitas.
- Klik tombol "Mulai permainan".
- Lihatlah semua petunjuk dan ketik tebakan Anda di kolom "Tebakan negara".
- Klik tombol "Tebak".
Demo
Untuk contoh di bawah, negara yang dipilih adalah Rusia .
Petunjuk teks
Petunjuk gambar
Petunjuk audio
Penggunaan
Pendekatan yang disarankan untuk menggunakan repositori ini adalah dengan Docker, tetapi Anda juga dapat menggunakan venv khusus, pastikan untuk menginstal semua dependensi.
Konfigurasi
local:
to_use: true
text:
model_id: google/gemma-1.1-2b-it
device: cpu
max_output_tokens: 50
temperature: 1
top_p: 0.95
top_k: 32
image:
model_id: stabilityai/sdxl-turbo
device: mps
num_inference_steps: 1
guidance_scale: 0.0
audio:
model_id: cvssp/audioldm2-music
device: cpu
num_inference_steps: 200
audio_length_in_s: 10
vertex:
to_use: false
project: {VERTEX_AI_PROJECT}
location: {VERTEX_AI_LOCALTION}
text:
model_id: gemini-1.5-pro-preview-0409
max_output_tokens: 50
temperature: 1
top_p: 0.95
top_k: 32
- lokal
- to_use: Jika proyek harus menggunakan konfigurasi pengaturan ini
- teks
- model_id: Model yang digunakan untuk membuat petunjuk teks
- perangkat: Perangkat yang digunakan oleh model, biasanya salah satu dari (cpu, cuda, mps)
- max_output_tokens: Jumlah maksimum token yang dihasilkan oleh model
- suhu: Suhu mengontrol tingkat keacakan dalam pemilihan token. Temperatur yang lebih rendah baik untuk perintah yang mengharapkan respons yang benar, sedangkan temperatur yang lebih tinggi dapat memberikan hasil yang lebih beragam atau tidak terduga. Dengan suhu 0, token dengan probabilitas tertinggi selalu dipilih
- top_p: Top-p mengubah cara model memilih token untuk keluaran. Token dipilih dari yang paling mungkin hingga yang paling kecil hingga jumlah probabilitasnya sama dengan nilai p teratas. Misalnya, jika token A, B, dan C memiliki probabilitas 0,3, 0,2, dan 0,1 dan nilai p teratas adalah 0,5, maka model akan memilih A atau B sebagai token berikutnya (menggunakan suhu )
- top_k: Top-k mengubah cara model memilih token untuk keluaran. Top-k dari 1 berarti token yang dipilih adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut serakah decoding), sedangkan top-k dari 3 berarti bahwa token berikutnya dipilih dari antara 3 token yang paling mungkin ( menggunakan suhu)
- gambar
- model_id: Model yang digunakan untuk membuat petunjuk gambar
- perangkat: Perangkat yang digunakan oleh model, biasanya salah satu dari (cpu, cuda, mps)
- num_inference_steps: Jumlah langkah inferensi untuk model
- skala_panduan: Memaksa pembuatan agar lebih sesuai dengan perintah yang berpotensi mengorbankan kualitas atau keragaman gambar
- audio
- model_id: Model yang digunakan untuk membuat petunjuk audio
- perangkat: Perangkat yang digunakan oleh model, biasanya salah satu dari (cpu, cuda, mps)
- num_inference_steps: Jumlah langkah inferensi untuk model
- audio_length_in_s: Durasi petunjuk audio
- puncak
- to_use: Jika proyek harus menggunakan konfigurasi pengaturan ini
- proyek: Nama proyek yang digunakan oleh Vertex AI
- lokasi: Lokasi proyek yang digunakan oleh Vertex AI
- teks
- model_id: Model yang digunakan untuk membuat petunjuk teks
- max_output_tokens: Jumlah maksimum token yang dihasilkan oleh model
- suhu: Suhu mengontrol tingkat keacakan dalam pemilihan token. Temperatur yang lebih rendah baik untuk perintah yang mengharapkan respons yang benar, sedangkan temperatur yang lebih tinggi dapat memberikan hasil yang lebih beragam atau tidak terduga. Dengan suhu 0, token dengan probabilitas tertinggi selalu dipilih
- top_p: Top-p mengubah cara model memilih token untuk keluaran. Token dipilih dari yang paling mungkin hingga yang paling kecil hingga jumlah probabilitasnya sama dengan nilai p teratas. Misalnya, jika token A, B, dan C memiliki probabilitas 0,3, 0,2, dan 0,1 dan nilai p teratas adalah 0,5, maka model akan memilih A atau B sebagai token berikutnya (menggunakan suhu )
- top_k: Top-k mengubah cara model memilih token untuk keluaran. Top-k dari 1 berarti token yang dipilih adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut serakah decoding), sedangkan top-k dari 3 berarti bahwa token berikutnya dipilih dari antara 3 token yang paling mungkin ( menggunakan suhu)
Perintah
Mulai aplikasi permainan.
Bangun gambar Docker.
Terapkan lint dan pemformatan pada kode (hanya diperlukan untuk pengembangan).