Description : Il s'agit de l'incroyable Google Gemini Vision Pro ?, un outil puissant qui numérise des images, génère des descriptions à l'aide de l'API Gemini AI Pro Vision et fournit des commentaires vocaux. Il capture également des images à l'aide de la webcam.
? Introduction ?
Google Gemini Vision Pro est une application polyvalente qui combine le traitement d'image ?️, la reconnaissance vocale ? et les capacités de synthèse vocale ?. Avec cette application, vous pouvez capturer des images à l'aide de votre webcam ?, convertir des mots prononcés en texte, générer des descriptions d'images et même vous faire répondre les descriptions.
Guide d'installation
Étape 1 : Cloner le référentiel
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Étape 2 : Installer les dépendances
pip install -r requirements.txt
Étape 3 : Exécutez l'application
Étape 4 : Obtenez la clé API Google Palm et configurez l'application
- Obtenez la clé API Google Palm.
- Visitez l'URL suivante : Google AI Studio
- Cliquez sur le bouton Créer une clé API .
- La clé générée est votre clé API. Assurez-vous de le copier et de le coller dans les paramètres de l'application .
- La clé API est cruciale pour le fonctionnement. Veuillez vous assurer de la conserver en sécurité et de ne la partager avec personne .
Paramètres de l'IA Gemini :
Sections IA
Les principales sections IA de ce projet comprennent :
- ? Détection de webcam à l'aide de WebRTC, OpenCV et PIL
- Conversion de la parole en texte à l'aide de l'API Google Cloud Speech-to-Text
- ?️ Conversion de synthèse vocale à l'aide de l'API de synthèse vocale de Google Cloud
- ? Traitement d'images à l'aide de l'API Gemini AI Pro Vision
Caractéristiques
- ? Détection de webcam avec capture d'image en temps réel
- Conversion parole en texte pour les mots prononcés
- ?️ Synthèse vocale pour générer des descriptions orales
- ? Traitement d'images utilisant l'IA pour fournir des descriptions détaillées
- Journalisation à l'aide du module de journalisation de Python
- Gestion des erreurs avec la gestion des exceptions de Python
WebUI - Vitrine d'applications
Démo YouTube :
Webcam avec flux en direct :
Démo Gemini Ai Vision avec objet comme Cap :
Démo Gemini Ai Vision avec Hand :
Démo Gemini Ai Vision avec Gesture :
Forfaits utilisés
Ce projet s'appuie sur divers packages Python, notamment :
- Streamlit - Un framework d'application Web utilisé pour créer l'application
- Streamlit Webrtc - Utilisé pour capturer des images de la webcam
- OpenCV - Utilisé pour la capture d'images par webcam
- PIL (Pillow) - Utilisé pour le traitement et la conversion d'images
- gTTS (Google Text-to-Speech) - Convertit le texte en parole
- SpeechRecognition - Convertit la parole en texte
- google.cloud.speech - Fait partie des services Google Cloud pour la conversion parole-texte
Liens et références
Suivez ces liens pour accéder au contenu lié à Google Gemini Vision Pro :
- Google IA Studio
- Google Gemini Vision Pro
- Google Gémeaux Deepmind
Gestion des versions
- Version : 1.0 : Version initiale
Contribuer
Nous apprécions les contributions ! Veuillez suivre nos directives de contribution pour commencer.
Licence
Ce projet est sous licence MIT - voir le fichier LICENSE pour plus de détails.
Auteur