Deskripsi: Ini adalah Google Gemini Vision Pro yang luar biasa?, alat canggih yang memindai gambar, menghasilkan deskripsi menggunakan Gemini AI Pro Vision API, dan memberikan umpan balik ucapan. Hal ini juga menangkap gambar menggunakan webcam.
? Perkenalan ?
Google Gemini Vision Pro adalah aplikasi serbaguna yang menggabungkan pemrosesan gambar ?️, pengenalan suara?, dan kemampuan text-to-speech?. Dengan aplikasi ini, Anda dapat mengambil gambar menggunakan webcam?, mengubah kata-kata yang diucapkan menjadi teks, menghasilkan deskripsi gambar, dan bahkan membuat deskripsi tersebut diucapkan kembali kepada Anda.
Panduan Instalasi
Langkah 1: Kloning repositori
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Langkah 2: Instal dependensi
pip install -r requirements.txt
Langkah 3: Jalankan aplikasi
Langkah 4: Dapatkan kunci Google Palm API dan Siapkan aplikasi
- Dapatkan kunci Google Palm API.
- Kunjungi URL berikut: Google AI Studio
- Klik pada tombol Buat Kunci API .
- Kunci yang dihasilkan adalah kunci API Anda. Pastikan untuk menyalinnya dan menempelkannya di pengaturan aplikasi .
- Kunci API sangat penting agar dapat berfungsi. Harap pastikan untuk menyimpannya dengan aman dan jangan membaginya dengan siapa pun .
Pengaturan AI Gemini:
Bagian AI
Bagian inti AI dari proyek ini meliputi:
- ? Deteksi webcam menggunakan WebRTC, OpenCV, dan PIL
- Konversi ucapan-ke-teks menggunakan Google Cloud Speech-to-Text API
- ?️ Konversi Text-to-speech menggunakan Google Cloud Text-to-Speech API
- ? Pemrosesan gambar menggunakan Gemini AI Pro Vision API
Fitur
- ? Deteksi webcam dengan pengambilan gambar waktu nyata
- Konversi ucapan-ke-teks untuk kata-kata yang diucapkan
- ?️ Text-to-speech untuk menghasilkan deskripsi lisan
- ? Pemrosesan gambar menggunakan AI untuk memberikan deskripsi detail
- Logging menggunakan modul logging Python
- Penanganan kesalahan dengan penanganan pengecualian Python
WebUI - Etalase Aplikasi
Demo YouTube:
Webcam dengan umpan langsung:
Demo Gemini Ai Vision dengan objek sebagai Cap:
Demo Gemini Ai Vision dengan Tangan:
Demo Gemini Ai Vision dengan Gerakan:
Paket yang Digunakan
Proyek ini mengandalkan berbagai paket Python, termasuk:
- Streamlit - Kerangka aplikasi web yang digunakan untuk membangun aplikasi
- Streamlit Webrtc - Digunakan untuk mengambil gambar dari webcam
- OpenCV - Digunakan untuk pengambilan gambar webcam
- PIL (Bantal) - Digunakan untuk pemrosesan dan konversi gambar
- gTTS (Google Text-to-Speech) - Mengubah teks menjadi ucapan
- SpeechRecognition - Mengubah ucapan menjadi teks
- google.cloud.speech - Bagian dari layanan Google Cloud untuk konversi ucapan-ke-teks
Tautan dan Referensi
Ikuti tautan berikut untuk konten terkait Google Gemini Vision Pro :
- Google AI Studio
- Google Gemini Visi Pro
- Pikiran Dalam Google Gemini
Pembuatan versi
Berkontribusi
Kami menyambut kontribusi! Silakan ikuti Pedoman Kontribusi kami untuk memulai.
Lisensi
Proyek ini dilisensikan di bawah Lisensi MIT - lihat file LISENSI untuk detailnya.
Pengarang
- SurgaHM
- Tanggal: 17-12-2023