Beschreibung: Dies ist das erstaunliche Google Gemini Vision Pro?, ein leistungsstarkes Tool, das Bilder scannt, Beschreibungen mithilfe der Gemini AI Pro Vision API generiert und Sprachfeedback bereitstellt. Es erfasst auch Bilder mit der Webcam.
? Einführung ?
Google Gemini Vision Pro ist eine vielseitige Anwendung, die Bildverarbeitung, Spracherkennung und Text-zu-Sprache-Funktionen kombiniert. Mit dieser Anwendung können Sie Bilder mit Ihrer Webcam aufnehmen, gesprochene Wörter in Text umwandeln, Bildbeschreibungen erstellen und sich die Beschreibungen sogar vorsprechen lassen.
Installationsanleitung
Schritt 1: Klonen Sie das Repository
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Schritt 2: Installieren Sie die Abhängigkeiten
pip install -r requirements.txt
Schritt 3: Führen Sie die Anwendung aus
Schritt 4: Besorgen Sie sich den Google Palm-API-Schlüssel und richten Sie die Anwendung ein
- Besorgen Sie sich den Google Palm-API-Schlüssel.
- Besuchen Sie die folgende URL: Google AI Studio
- Klicken Sie auf die Schaltfläche API-Schlüssel erstellen .
- Der generierte Schlüssel ist Ihr API-Schlüssel. Bitte kopieren Sie es unbedingt und fügen Sie es in die Anwendungseinstellungen ein .
- Der API-Schlüssel ist für das Funktionieren von entscheidender Bedeutung. Bitte bewahren Sie ihn sicher auf und geben Sie ihn nicht an Dritte weiter .
Gemini AI-Einstellungen:
KI-Abschnitte
Zu den zentralen KI-Abschnitten dieses Projekts gehören:
- ? Webcam-Erkennung mit WebRTC, OpenCV und PIL
- Konvertierung von Sprache in Text mit der Google Cloud Speech-to-Text API
- ?️ Text-zu-Sprache-Konvertierung mithilfe der Google Cloud Text-to-Speech-API
- ? Bildverarbeitung mit der Gemini AI Pro Vision API
Merkmale
- ? Webcam-Erkennung mit Echtzeit-Bilderfassung
- Sprach-zu-Text-Konvertierung für gesprochene Wörter
- ?️ Text-to-Speech zur Generierung gesprochener Beschreibungen
- ? Bildverarbeitung mittels KI zur Bereitstellung detaillierter Beschreibungen
- Protokollierung mit dem Protokollierungsmodul von Python
- Fehlerbehandlung mit der Ausnahmebehandlung von Python
WebUI – Anwendungsschaufenster
YouTube-Demo:
Webcam mit Live-Feed:
Gemini Ai Vision Demo mit Objekt als Cap:
Gemini Ai Vision-Demo mit Hand:
Gemini Ai Vision-Demo mit Geste:
Verwendete Pakete
Dieses Projekt basiert auf verschiedenen Python-Paketen, darunter:
- Streamlit – Ein Web-App-Framework, das zum Erstellen der Anwendung verwendet wird
- Streamlit Webrtc – Wird zum Aufnehmen von Bildern von der Webcam verwendet
- OpenCV – Wird für die Webcam-Bilderfassung verwendet
- PIL (Pillow) – Wird zur Bildverarbeitung und -konvertierung verwendet
- gTTS (Google Text-to-Speech) – Wandelt Text in Sprache um
- SpeechRecognition – Wandelt Sprache in Text um
- google.cloud.speech – Teil der Google Cloud-Dienste für die Konvertierung von Sprache in Text
Links und Referenzen
Folgen Sie diesen Links für Inhalte zu Google Gemini Vision Pro :
- Google AI Studio
- Google Gemini Vision Pro
- Google Gemini Deepmind
Versionierung
- Version : 1.0: Erstveröffentlichung
Mitwirken
Wir freuen uns über Beiträge! Bitte befolgen Sie zunächst unsere Beitragsrichtlinien .
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ- Datei.
Autor
- HimmelHM
- Datum: 17.12.2023