Analisador de captura de tela GPT-4V
Descrição
O GPT-4V Screenshot Analyzer é uma ferramenta que integra os recursos da API GPT-4 Vision da OpenAI em uma forma interativa de analisar e compreender suas capturas de tela. As capturas de tela são analisadas pelo GPT-4V para fornecer descrições detalhadas. Além disso, esta ferramenta suporta diálogo interativo, permitindo aos usuários fazer perguntas de acompanhamento sobre as capturas de tela para obter informações mais detalhadas.
Características
- Análise de imagem : Utilize a API GPT-4 Vision para analisar e descrever capturas de tela.
- Diálogo interativo : participe de um bate-papo com a IA sobre a captura de tela para obter informações detalhadas e perguntas de acompanhamento.
- Interface amigável : GUI simples para visualizar capturas de tela e interagir com a IA.
Instalação (testada no Ubuntu 20.04)
Clonar o repositório
git clone https://github.com/jeremy-collins/gpt4v-screenshot-analyzer.git
Instalar dependências
- Certifique-se de que o Python 3 esteja instalado.
- Instale as bibliotecas Python necessárias:
pip install -r requirements.txt
Configurar chave de API OpenAI
- Obtenha uma chave de API da OpenAI.
- Defina sua chave de API OpenAI como uma variável de ambiente:
echo 'export OPENAI_API_KEY=<put your key here>' >> ~/.bashrc
- Alternativamente, você pode definir a variável api_key dentro de gpt4v_screenshot_analyzer.py para sua chave OpenAI, mas isso é um risco de segurança.
Configuração do serviço Systemd (opcional)
- Primeiro, torne o arquivo gpt4_screenshot_analyzer.py executável:
sudo chmod +x gpt4_screenshot_analyzer.py
- Em seguida, personalize o arquivo gpt4-screenshot.service de acordo com suas necessidades.
- Você precisará alterar o caminho para o arquivo gpt4_screenshot_analyzer.py dentro da linha ExecStart.
- Também pode ser necessário alterar o número de exibição na linha Ambiente.
- Por último, você pode querer alterar a linha User.
- Para executar o aplicativo como um serviço a ser iniciado na inicialização, siga estas etapas:
sudo cp gpt4-screenshot.service /etc/systemd/system/
sudo systemctl enable gpt4-screenshot
sudo systemctl start gpt4-screenshot
- Se isso não funcionar, você pode depurar o serviço executando:
sudo systemctl status gpt4-screenshot
- Estes comandos também podem ser úteis:
sudo systemctl daemon-reload
sudo systemctl stop gpt4-screenshot
sudo systemctl restart gpt4-screenshot
sudo systemctl disable gpt4-screenshot
Habilitando o acesso à tela na inicialização (opcional)
- Para habilitar o acesso à tela na inicialização, abra Aplicativos de inicialização (Ubuntu) e adicione um programa de inicialização com o seguinte comando:
path/to/repo/gpt4v-screenshot-analyzer/enable_xhost.sh
Uso
- Inicie o aplicativo (você pode pular esta etapa se tiver seguido as etapas 4 e 5):
python3 gpt4_screenshot_analyzer.py
- Use a tecla de atalho
Ctrl+Alt+S
para iniciar uma captura de tela. - Arraste para selecionar a área que deseja capturar.
- O GPT-4V analisará a captura de tela e exibirá os resultados em uma janela GUI.
- Use a caixa de texto na GUI para fazer perguntas de acompanhamento.
Contribuindo
Contribuições são bem-vindas! Se você quiser contribuir, faça um fork do repositório e use um branch de recursos. Solicitações pull são bem-vindas.
Licença
Este projeto está licenciado sob a licença MIT - consulte o arquivo LICENSE para obter detalhes.
Créditos
Desenvolvido por Jeremy A. Collins. Agradecimentos especiais à OpenAI por fornecer a API GPT-4 Vision.