Download gemini vision pro - download do código-fonte gemini vision pro

gemini vision pro

Outro código-fonte

1.0.0

Baixar

Descrição: Este é o incrível Google Gemini Vision Pro?, uma ferramenta poderosa que digitaliza imagens, gera descrições usando a API Gemini AI Pro Vision e fornece feedback de fala. Ele também captura imagens usando a webcam.

? Introdução ?

O Google Gemini Vision Pro é um aplicativo versátil que combina processamento de imagem ?️, reconhecimento de fala ?e recursos de conversão de texto em fala ?. Com este aplicativo, você pode capturar imagens usando sua webcam, converter palavras faladas em texto, gerar descrições de imagens e até receber as descrições faladas para você.

Guia de instalação

Etapa 1: clonar o repositório

git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro

Passo 2: Instale as dependências

pip install -r requirements.txt

Etapa 3: execute o aplicativo

streamlit run script.py

Etapa 4: Obtenha a chave da API do Google Palm e configure o aplicativo

Obtenha a chave da API do Google Palm.
Visite o seguinte URL: Google AI Studio
Clique no botão Criar chave de API .
A chave gerada é sua chave de API. Certifique-se de copiá-lo e colá-lo nas configurações do aplicativo .
A chave API é crucial para o funcionamento. Certifique-se de mantê-la segura e não a compartilhe com ninguém .

Configurações de IA do Gemini:

Seções de IA

As principais seções de IA deste projeto incluem:

? Detecção de webcam usando WebRTC, OpenCV e PIL
Conversão de fala em texto usando a API Google Cloud Speech-to-Text
?️ Conversão de texto em fala usando a API Text-to-Speech do Google Cloud
? Processamento de imagem usando API Gemini AI Pro Vision

Características

? Detecção de webcam com captura de imagem em tempo real
Conversão de fala em texto para palavras faladas
?️ Conversão de texto para fala para gerar descrições faladas
? Processamento de imagens usando IA para fornecer descrições detalhadas
Log usando o módulo de log do Python
Tratamento de erros com tratamento de exceções do Python

WebUI - Demonstração de Aplicativos

Demonstração do YouTube:

Webcam com transmissão ao vivo:

Demonstração do Gemini Ai Vision com objeto como boné:

Demonstração Gemini Ai Vision com mão:

Demonstração Gemini Ai Vision com gesto:

Pacotes usados

Este projeto depende de vários pacotes Python, incluindo:

Streamlit - Uma estrutura de aplicativo da web usada para construir o aplicativo
Streamlit Webrtc - Usado para capturar imagens da webcam
OpenCV - Utilizado para captura de imagens de webcam
PIL (travesseiro) - Usado para processamento e conversão de imagens
gTTS (Google Text-to-Speech) - Converte texto em fala
SpeechRecognition - Converte fala em texto
google.cloud.speech – Parte dos serviços do Google Cloud para conversão de fala em texto