gemini vision pro Download - gemini vision pro Quellcode herunterladen

gemini vision pro

Anderer Quellcode

1.0.0

Herunterladen

Beschreibung: Dies ist das erstaunliche Google Gemini Vision Pro?, ein leistungsstarkes Tool, das Bilder scannt, Beschreibungen mithilfe der Gemini AI Pro Vision API generiert und Sprachfeedback bereitstellt. Es erfasst auch Bilder mit der Webcam.

? Einführung ?

Google Gemini Vision Pro ist eine vielseitige Anwendung, die Bildverarbeitung, Spracherkennung und Text-zu-Sprache-Funktionen kombiniert. Mit dieser Anwendung können Sie Bilder mit Ihrer Webcam aufnehmen, gesprochene Wörter in Text umwandeln, Bildbeschreibungen erstellen und sich die Beschreibungen sogar vorsprechen lassen.

Installationsanleitung

Schritt 1: Klonen Sie das Repository

git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro

Schritt 2: Installieren Sie die Abhängigkeiten

pip install -r requirements.txt

Schritt 3: Führen Sie die Anwendung aus

streamlit run script.py

Schritt 4: Besorgen Sie sich den Google Palm-API-Schlüssel und richten Sie die Anwendung ein

Besorgen Sie sich den Google Palm-API-Schlüssel.
Besuchen Sie die folgende URL: Google AI Studio
Klicken Sie auf die Schaltfläche API-Schlüssel erstellen .
Der generierte Schlüssel ist Ihr API-Schlüssel. Bitte kopieren Sie es unbedingt und fügen Sie es in die Anwendungseinstellungen ein .
Der API-Schlüssel ist für das Funktionieren von entscheidender Bedeutung. Bitte bewahren Sie ihn sicher auf und geben Sie ihn nicht an Dritte weiter .

Gemini AI-Einstellungen:

KI-Abschnitte

Zu den zentralen KI-Abschnitten dieses Projekts gehören:

? Webcam-Erkennung mit WebRTC, OpenCV und PIL
Konvertierung von Sprache in Text mit der Google Cloud Speech-to-Text API
?️ Text-zu-Sprache-Konvertierung mithilfe der Google Cloud Text-to-Speech-API
? Bildverarbeitung mit der Gemini AI Pro Vision API

Merkmale

? Webcam-Erkennung mit Echtzeit-Bilderfassung
Sprach-zu-Text-Konvertierung für gesprochene Wörter
?️ Text-to-Speech zur Generierung gesprochener Beschreibungen
? Bildverarbeitung mittels KI zur Bereitstellung detaillierter Beschreibungen
Protokollierung mit dem Protokollierungsmodul von Python
Fehlerbehandlung mit der Ausnahmebehandlung von Python

WebUI – Anwendungsschaufenster

YouTube-Demo:

Webcam mit Live-Feed:

Gemini Ai Vision Demo mit Objekt als Cap:

Gemini Ai Vision-Demo mit Hand:

Gemini Ai Vision-Demo mit Geste:

Verwendete Pakete

Dieses Projekt basiert auf verschiedenen Python-Paketen, darunter:

Streamlit – Ein Web-App-Framework, das zum Erstellen der Anwendung verwendet wird
Streamlit Webrtc – Wird zum Aufnehmen von Bildern von der Webcam verwendet
OpenCV – Wird für die Webcam-Bilderfassung verwendet
PIL (Pillow) – Wird zur Bildverarbeitung und -konvertierung verwendet
gTTS (Google Text-to-Speech) – Wandelt Text in Sprache um
SpeechRecognition – Wandelt Sprache in Text um
google.cloud.speech – Teil der Google Cloud-Dienste für die Konvertierung von Sprache in Text

Links und Referenzen

Folgen Sie diesen Links für Inhalte zu Google Gemini Vision Pro :

Google AI Studio
Google Gemini Vision Pro
Google Gemini Deepmind

Versionierung

Version : 1.0: Erstveröffentlichung

Mitwirken

Wir freuen uns über Beiträge! Bitte befolgen Sie zunächst unsere Beitragsrichtlinien .

Lizenz

Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ- Datei.

Autor

HimmelHM
Datum: 17.12.2023

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2024-11-29
Größe 11.52KB
Kommt von Github

Ähnliche Anwendungen

Zwillinge

2022-08-11
Gemini Rue

2022-07-23
BSPlayer Pro

2009-06-03
ACDSee Pro

2009-05-30
TopStyle Pro

2009-05-29
Kopierprofi

2009-04-20

gemini vision pro

? Einführung ?

Installationsanleitung

Schritt 1: Klonen Sie das Repository

Schritt 2: Installieren Sie die Abhängigkeiten

Schritt 3: Führen Sie die Anwendung aus

Schritt 4: Besorgen Sie sich den Google Palm-API-Schlüssel und richten Sie die Anwendung ein

Gemini AI-Einstellungen:

KI-Abschnitte

Merkmale

WebUI – Anwendungsschaufenster

YouTube-Demo:

Webcam mit Live-Feed:

Gemini Ai Vision Demo mit Objekt als Cap:

Gemini Ai Vision-Demo mit Hand:

Gemini Ai Vision-Demo mit Geste:

Verwendete Pakete

Links und Referenzen

Versionierung

Mitwirken

Lizenz

Autor

Zwillinge

Gemini Rue

BSPlayer Pro

ACDSee Pro

TopStyle Pro

Kopierprofi

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind