Descrição: Este é o incrível Google Gemini Vision Pro?, uma ferramenta poderosa que digitaliza imagens, gera descrições usando a API Gemini AI Pro Vision e fornece feedback de fala. Ele também captura imagens usando a webcam.
? Introdução ?
O Google Gemini Vision Pro é um aplicativo versátil que combina processamento de imagem ?️, reconhecimento de fala ?e recursos de conversão de texto em fala ?. Com este aplicativo, você pode capturar imagens usando sua webcam, converter palavras faladas em texto, gerar descrições de imagens e até receber as descrições faladas para você.
Guia de instalação
Etapa 1: clonar o repositório
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
Passo 2: Instale as dependências
pip install -r requirements.txt
Etapa 3: execute o aplicativo
Etapa 4: Obtenha a chave da API do Google Palm e configure o aplicativo
- Obtenha a chave da API do Google Palm.
- Visite o seguinte URL: Google AI Studio
- Clique no botão Criar chave de API .
- A chave gerada é sua chave de API. Certifique-se de copiá-lo e colá-lo nas configurações do aplicativo .
- A chave API é crucial para o funcionamento. Certifique-se de mantê-la segura e não a compartilhe com ninguém .
Configurações de IA do Gemini:
Seções de IA
As principais seções de IA deste projeto incluem:
- ? Detecção de webcam usando WebRTC, OpenCV e PIL
- Conversão de fala em texto usando a API Google Cloud Speech-to-Text
- ?️ Conversão de texto em fala usando a API Text-to-Speech do Google Cloud
- ? Processamento de imagem usando API Gemini AI Pro Vision
Características
- ? Detecção de webcam com captura de imagem em tempo real
- Conversão de fala em texto para palavras faladas
- ?️ Conversão de texto para fala para gerar descrições faladas
- ? Processamento de imagens usando IA para fornecer descrições detalhadas
- Log usando o módulo de log do Python
- Tratamento de erros com tratamento de exceções do Python
WebUI - Demonstração de Aplicativos
Demonstração do YouTube:
Webcam com transmissão ao vivo:
Demonstração do Gemini Ai Vision com objeto como boné:
Demonstração Gemini Ai Vision com mão:
Demonstração Gemini Ai Vision com gesto:
Pacotes usados
Este projeto depende de vários pacotes Python, incluindo:
- Streamlit - Uma estrutura de aplicativo da web usada para construir o aplicativo
- Streamlit Webrtc - Usado para capturar imagens da webcam
- OpenCV - Utilizado para captura de imagens de webcam
- PIL (travesseiro) - Usado para processamento e conversão de imagens
- gTTS (Google Text-to-Speech) - Converte texto em fala
- SpeechRecognition - Converte fala em texto
- google.cloud.speech – Parte dos serviços do Google Cloud para conversão de fala em texto
Links e Referências
Siga estes links para conteúdo relacionado ao Google Gemini Vision Pro :
- Estúdio de IA do Google
- Google Gemini Vision Pro
- Google Gêmeos Deepmind
Versionamento
- Versão : 1.0: versão inicial
Contribuindo
Aceitamos contribuições! Siga nossas Diretrizes de Contribuição para começar.
Licença
Este projeto está licenciado sob a licença MIT - consulte o arquivo LICENSE para obter detalhes.
Autor