Descargar gemini vision pro - descargar código fuente gemini vision pro

gemini vision pro

Otro código fuente

1.0.0

Descargar

Descripción: ¿Este es el increíble Google Gemini Vision Pro?, una poderosa herramienta que escanea imágenes, genera descripciones utilizando la API Gemini AI Pro Vision y proporciona comentarios de voz. También captura imágenes utilizando la cámara web.

? Introducción ?

Google Gemini Vision Pro es una aplicación versátil que combina procesamiento de imágenes ?️, reconocimiento de voz ?y capacidades de conversión de texto a voz ?. Con esta aplicación, puede capturar imágenes usando su cámara web, convertir palabras habladas en texto, generar descripciones de imágenes e incluso recibir las descripciones devueltas.

Guía de instalación

Paso 1: clonar el repositorio

git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro

Paso 2: instalar las dependencias

pip install -r requirements.txt

Paso 3: ejecuta la aplicación

streamlit run script.py

Paso 4: Obtenga la clave API de Google Palm y configure la aplicación

Obtenga la clave API de Google Palm.
Visite la siguiente URL: Google AI Studio
Haga clic en el botón Crear clave API .
La clave generada es su clave API. Asegúrese de copiarlo y pegarlo en la configuración de la aplicación .
La clave API es crucial para el funcionamiento. Asegúrese de mantenerla segura y no compartirla con nadie .

Configuración de IA de Géminis:

Secciones de IA

Las secciones centrales de IA de este proyecto incluyen:

? Detección de cámara web mediante WebRTC, OpenCV y PIL
Conversión de voz a texto mediante la API de voz a texto de Google Cloud
?️ Conversión de texto a voz mediante la API de texto a voz de Google Cloud
? Procesamiento de imágenes utilizando la API Gemini AI Pro Vision

Características

? Detección de cámara web con captura de imágenes en tiempo real
Conversión de voz a texto para palabras habladas
?️ Texto a voz para generar descripciones habladas
? Procesamiento de imágenes mediante IA para proporcionar descripciones detalladas
Registro utilizando el módulo de registro de Python
Manejo de errores con el manejo de excepciones de Python

WebUI: presentación de aplicaciones

Demostración de YouTube:

Cámara web con transmisión en vivo:

Demostración de Gemini Ai Vision con objeto como gorra:

Demostración de Gemini Ai Vision con mano:

Demostración de Gemini Ai Vision con gesto:

Paquetes usados

Este proyecto se basa en varios paquetes de Python, que incluyen:

Streamlit: un marco de aplicación web utilizado para crear la aplicación.
Streamlit Webrtc: se utiliza para capturar imágenes desde la cámara web
OpenCV: utilizado para la captura de imágenes de la cámara web
PIL (Almohada): se utiliza para el procesamiento y conversión de imágenes.
gTTS (Google Text-to-Speech): convierte texto en voz
SpeechRecognition: convierte voz en texto
google.cloud.speech: parte de los servicios de Google Cloud para la conversión de voz a texto