Analizador de capturas de pantalla GPT-4V
Descripción
El analizador de capturas de pantalla GPT-4V es una herramienta que integra las capacidades de la API GPT-4 Vision de OpenAI en una forma interactiva de analizar y comprender sus capturas de pantalla. GPT-4V analiza las capturas de pantalla para proporcionar descripciones detalladas. Además, esta herramienta admite el diálogo interactivo, lo que permite a los usuarios hacer preguntas de seguimiento sobre las capturas de pantalla para obtener información más detallada.
Características
- Análisis de imágenes : utilice GPT-4 Vision API para analizar y describir capturas de pantalla.
- Diálogo interactivo : participe en un chat con la IA sobre la captura de pantalla para obtener información detallada y preguntas de seguimiento.
- Interfaz fácil de usar : GUI simple para ver capturas de pantalla e interactuar con la IA.
Instalación (probada en Ubuntu 20.04)
Clonar el repositorio
git clone https://github.com/jeremy-collins/gpt4v-screenshot-analyzer.git
Instalar dependencias
- Asegúrese de que Python 3 esté instalado.
- Instale las bibliotecas de Python necesarias:
pip install -r requirements.txt
Configurar la clave API de OpenAI
- Obtenga una clave API de OpenAI.
- Configure su clave API de OpenAI como una variable de entorno:
echo 'export OPENAI_API_KEY=<put your key here>' >> ~/.bashrc
- Alternativamente, puede configurar la variable api_key dentro de gpt4v_screenshot_analyzer.py en su clave OpenAI, pero esto es un riesgo para la seguridad.
Configuración del servicio Systemd (opcional)
- Primero, haga ejecutable el archivo gpt4_screenshot_analyzer.py:
sudo chmod +x gpt4_screenshot_analyzer.py
- Luego, personalice el archivo gpt4-screenshot.service según sus necesidades.
- Deberá cambiar la ruta al archivo gpt4_screenshot_analyzer.py dentro de la línea ExecStart.
- Es posible que también necesite cambiar el número de visualización en la línea Entorno.
- Por último, es posible que desee cambiar la línea de Usuario.
- Para ejecutar la aplicación como un servicio que se iniciará al arrancar, siga estos pasos:
sudo cp gpt4-screenshot.service /etc/systemd/system/
sudo systemctl enable gpt4-screenshot
sudo systemctl start gpt4-screenshot
- Si esto no funciona, puedes depurar el servicio ejecutando:
sudo systemctl status gpt4-screenshot
- Estos comandos también pueden resultar útiles:
sudo systemctl daemon-reload
sudo systemctl stop gpt4-screenshot
sudo systemctl restart gpt4-screenshot
sudo systemctl disable gpt4-screenshot
Habilitar el acceso a la pantalla al iniciar (opcional)
- Para habilitar el acceso a la pantalla al inicio, abra Aplicaciones de inicio (Ubuntu) y agregue un Programa de inicio con el siguiente comando:
path/to/repo/gpt4v-screenshot-analyzer/enable_xhost.sh
Uso
- Inicie la aplicación (puede omitir este paso si siguió los pasos 4 y 5):
python3 gpt4_screenshot_analyzer.py
- Utilice la tecla de acceso rápido
Ctrl+Alt+S
para iniciar una captura de pantalla. - Arrastre para seleccionar el área que desea capturar.
- GPT-4V analizará la captura de pantalla y mostrará los resultados en una ventana GUI.
- Utilice el cuadro de texto en la GUI para hacer preguntas de seguimiento.
Contribuyendo
¡Las contribuciones son bienvenidas! Si desea contribuir, bifurque el repositorio y utilice una rama de funciones. Las solicitudes de extracción son bienvenidas.
Licencia
Este proyecto tiene la licencia MIT; consulte el archivo de LICENCIA para obtener más detalles.
Créditos
Desarrollado por Jeremy A. Collins. Un agradecimiento especial a OpenAI por proporcionar la API GPT-4 Vision.