Descripción: ¿Este es el increíble Google Gemini Vision Pro?, una poderosa herramienta que escanea imágenes, genera descripciones utilizando la API Gemini AI Pro Vision y proporciona comentarios de voz. También captura imágenes utilizando la cámara web.
? Introducción ?
Google Gemini Vision Pro es una aplicación versátil que combina procesamiento de imágenes ?️, reconocimiento de voz ?y capacidades de conversión de texto a voz ?. Con esta aplicación, puede capturar imágenes usando su cámara web, convertir palabras habladas en texto, generar descripciones de imágenes e incluso recibir las descripciones devueltas.
Guía de instalación
Paso 1: clonar el repositorio
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Paso 2: instalar las dependencias
pip install -r requirements.txt
Paso 3: ejecuta la aplicación
Paso 4: Obtenga la clave API de Google Palm y configure la aplicación
- Obtenga la clave API de Google Palm.
- Visite la siguiente URL: Google AI Studio
- Haga clic en el botón Crear clave API .
- La clave generada es su clave API. Asegúrese de copiarlo y pegarlo en la configuración de la aplicación .
- La clave API es crucial para el funcionamiento. Asegúrese de mantenerla segura y no compartirla con nadie .
Configuración de IA de Géminis:
Secciones de IA
Las secciones centrales de IA de este proyecto incluyen:
- ? Detección de cámara web mediante WebRTC, OpenCV y PIL
- Conversión de voz a texto mediante la API de voz a texto de Google Cloud
- ?️ Conversión de texto a voz mediante la API de texto a voz de Google Cloud
- ? Procesamiento de imágenes utilizando la API Gemini AI Pro Vision
Características
- ? Detección de cámara web con captura de imágenes en tiempo real
- Conversión de voz a texto para palabras habladas
- ?️ Texto a voz para generar descripciones habladas
- ? Procesamiento de imágenes mediante IA para proporcionar descripciones detalladas
- Registro utilizando el módulo de registro de Python
- Manejo de errores con el manejo de excepciones de Python
WebUI: presentación de aplicaciones
Demostración de YouTube:
Cámara web con transmisión en vivo:
Demostración de Gemini Ai Vision con objeto como gorra:
Demostración de Gemini Ai Vision con mano:
Demostración de Gemini Ai Vision con gesto:
Paquetes usados
Este proyecto se basa en varios paquetes de Python, que incluyen:
- Streamlit: un marco de aplicación web utilizado para crear la aplicación.
- Streamlit Webrtc: se utiliza para capturar imágenes desde la cámara web
- OpenCV: utilizado para la captura de imágenes de la cámara web
- PIL (Almohada): se utiliza para el procesamiento y conversión de imágenes.
- gTTS (Google Text-to-Speech): convierte texto en voz
- SpeechRecognition: convierte voz en texto
- google.cloud.speech: parte de los servicios de Google Cloud para la conversión de voz a texto
Enlaces y referencias
Siga estos enlaces para ver contenido relacionado con Google Gemini Vision Pro :
- Estudio de IA de Google
- Google Géminis Visión Pro
- Mente profunda de Géminis de Google
Versionado
- Versión : 1.0: Versión inicial
Contribuyendo
¡Agradecemos las contribuciones! Siga nuestras Pautas de contribución para comenzar.
Licencia
Este proyecto tiene la licencia MIT ; consulte el archivo de LICENCIA para obtener más detalles.
Autor
- CieloHM
- Fecha: 17-12-2023