Analyseur de capture d'écran GPT-4V
Description
L'analyseur de captures d'écran GPT-4V est un outil qui intègre les capacités de l'API GPT-4 Vision d'OpenAI de manière interactive pour analyser et comprendre vos captures d'écran. Les captures d'écran sont analysées par GPT-4V pour fournir des descriptions détaillées. De plus, cet outil prend en charge le dialogue interactif, permettant aux utilisateurs de poser des questions de suivi sur les captures d'écran pour obtenir des informations plus détaillées.
Caractéristiques
- Analyse d'image : utilisez l'API GPT-4 Vision pour analyser et décrire les captures d'écran.
- Dialogue interactif : discutez avec l'IA à propos de la capture d'écran pour obtenir des informations détaillées et des questions de suivi.
- Interface conviviale : interface graphique simple pour visualiser des captures d'écran et interagir avec l'IA.
Installation (testée sur Ubuntu 20.04)
Cloner le référentiel
git clone https://github.com/jeremy-collins/gpt4v-screenshot-analyzer.git
Installer les dépendances
- Assurez-vous que Python 3 est installé.
- Installez les bibliothèques Python requises :
pip install -r requirements.txt
Configurer la clé API OpenAI
- Obtenez une clé API auprès d'OpenAI.
- Définissez votre clé API OpenAI comme variable d'environnement :
echo 'export OPENAI_API_KEY=<put your key here>' >> ~/.bashrc
- Alternativement, vous pouvez définir la variable api_key dans gpt4v_screenshot_analyzer.py sur votre clé OpenAI, mais cela constitue un risque de sécurité.
Configuration du service Systemd (facultatif)
- Tout d'abord, rendez le fichier gpt4_screenshot_analyzer.py exécutable :
sudo chmod +x gpt4_screenshot_analyzer.py
- Ensuite, personnalisez le fichier gpt4-screenshot.service selon vos besoins.
- Vous devrez modifier le chemin d'accès au fichier gpt4_screenshot_analyzer.py dans la ligne ExecStart.
- Vous devrez peut-être également modifier le numéro d'affichage dans la ligne Environnement.
- Enfin, vous souhaiterez peut-être modifier la ligne Utilisateur.
- Pour exécuter l'application en tant que service à démarrer au démarrage, procédez comme suit :
sudo cp gpt4-screenshot.service /etc/systemd/system/
sudo systemctl enable gpt4-screenshot
sudo systemctl start gpt4-screenshot
- Si cela ne fonctionne pas, vous pouvez déboguer le service en exécutant :
sudo systemctl status gpt4-screenshot
- Ces commandes peuvent également être utiles :
sudo systemctl daemon-reload
sudo systemctl stop gpt4-screenshot
sudo systemctl restart gpt4-screenshot
sudo systemctl disable gpt4-screenshot
Activation de l'accès à l'affichage au démarrage (facultatif)
- Pour activer l'accès à l'affichage au démarrage, ouvrez les applications de démarrage (Ubuntu) et ajoutez un programme de démarrage avec la commande suivante :
path/to/repo/gpt4v-screenshot-analyzer/enable_xhost.sh
Usage
- Démarrez l'application (vous pouvez ignorer cette étape si vous avez suivi les étapes 4 et 5) :
python3 gpt4_screenshot_analyzer.py
- Utilisez le raccourci clavier
Ctrl+Alt+S
pour démarrer une capture d'écran. - Faites glisser pour sélectionner la zone que vous souhaitez capturer.
- GPT-4V analysera la capture d'écran et affichera les résultats dans une fenêtre GUI.
- Utilisez la zone de texte de l'interface graphique pour poser des questions de suivi.
Contribuer
Les contributions sont les bienvenues ! Si vous souhaitez contribuer, veuillez créer le référentiel et utiliser une branche de fonctionnalités. Les demandes de tirage sont les bienvenues.
Licence
Ce projet est sous licence MIT - voir le fichier LICENSE pour plus de détails.
Crédits
Développé par Jeremy A. Collins. Un merci spécial à OpenAI pour avoir fourni l'API GPT-4 Vision.