GPT-4V Screenshot-Analysator
Beschreibung
Der GPT-4V Screenshot Analyzer ist ein Tool, das die Funktionen der GPT-4 Vision API von OpenAI in eine interaktive Möglichkeit zur Analyse und zum Verständnis Ihrer Screenshots integriert. Screenshots werden von GPT-4V analysiert, um detaillierte Beschreibungen bereitzustellen. Darüber hinaus unterstützt dieses Tool den interaktiven Dialog, sodass Benutzer Folgefragen zu den Screenshots stellen können, um detailliertere Informationen zu erhalten.
Merkmale
- Bildanalyse : Nutzen Sie die GPT-4 Vision API, um Screenshots zu analysieren und zu beschreiben.
- Interaktiver Dialog : Chatten Sie mit der KI über den Screenshot, um detaillierte Einblicke zu erhalten und Anschlussfragen zu stellen.
- Benutzerfreundliche Oberfläche : Einfache GUI zum Anzeigen von Screenshots und zur Interaktion mit der KI.
Installation (Getestet auf Ubuntu 20.04)
Klonen Sie das Repository
git clone https://github.com/jeremy-collins/gpt4v-screenshot-analyzer.git
Abhängigkeiten installieren
- Stellen Sie sicher, dass Python 3 installiert ist.
- Installieren Sie die erforderlichen Python-Bibliotheken:
pip install -r requirements.txt
Richten Sie den OpenAI-API-Schlüssel ein
- Besorgen Sie sich einen API-Schlüssel von OpenAI.
- Legen Sie Ihren OpenAI-API-Schlüssel als Umgebungsvariable fest:
echo 'export OPENAI_API_KEY=<put your key here>' >> ~/.bashrc
- Alternativ können Sie die Variable api_key in gpt4v_screenshot_analyzer.py auf Ihren OpenAI-Schlüssel setzen, dies stellt jedoch ein Sicherheitsrisiko dar.
Systemd-Dienst-Setup (optional)
- Machen Sie zunächst die Datei gpt4_screenshot_analyzer.py ausführbar:
sudo chmod +x gpt4_screenshot_analyzer.py
- Passen Sie dann die Datei gpt4-screenshot.service an Ihre Bedürfnisse an.
- Sie müssen den Pfad zur Datei gpt4_screenshot_analyzer.py in der ExecStart-Zeile ändern.
- Möglicherweise müssen Sie auch die Anzeigenummer in der Zeile „Umgebung“ ändern.
- Schließlich möchten Sie möglicherweise die Benutzerzeile ändern.
- Um die Anwendung als Dienst auszuführen, der beim Booten gestartet wird, führen Sie die folgenden Schritte aus:
sudo cp gpt4-screenshot.service /etc/systemd/system/
sudo systemctl enable gpt4-screenshot
sudo systemctl start gpt4-screenshot
- Wenn dies nicht funktioniert, können Sie den Dienst debuggen, indem Sie Folgendes ausführen:
sudo systemctl status gpt4-screenshot
- Diese Befehle können ebenfalls nützlich sein:
sudo systemctl daemon-reload
sudo systemctl stop gpt4-screenshot
sudo systemctl restart gpt4-screenshot
sudo systemctl disable gpt4-screenshot
Aktivieren des Anzeigezugriffs beim Start (optional)
- Um den Anzeigezugriff beim Start zu aktivieren, öffnen Sie Startanwendungen (Ubuntu) und fügen Sie mit dem folgenden Befehl ein Startprogramm hinzu:
path/to/repo/gpt4v-screenshot-analyzer/enable_xhost.sh
Verwendung
- Starten Sie die Anwendung (Sie können diesen Schritt überspringen, wenn Sie die Schritte 4 und 5 befolgt haben):
python3 gpt4_screenshot_analyzer.py
- Verwenden Sie die Tastenkombination
Ctrl+Alt+S
, um eine Screenshot-Aufnahme zu starten. - Ziehen Sie, um den Bereich auszuwählen, den Sie erfassen möchten.
- GPT-4V analysiert den Screenshot und zeigt die Ergebnisse in einem GUI-Fenster an.
- Verwenden Sie das Textfeld in der GUI, um weitere Fragen zu stellen.
Mitwirken
Beiträge sind willkommen! Wenn Sie einen Beitrag leisten möchten, forken Sie bitte das Repository und verwenden Sie einen Feature-Branch. Pull-Anfragen sind willkommen.
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ-Datei.
Credits
Entwickelt von Jeremy A. Collins. Besonderer Dank geht an OpenAI für die Bereitstellung der GPT-4 Vision API.