SingularGPT ist ein Open-Source-Projekt, das Ihr Gerät mithilfe von ChatGPT und GPT-4 automatisiert.
Mit SingularGPT können Sie Ihr Gerät ganz einfach mit einfachen textbasierten Abfragen anweisen.
Zum Beispiel:
Nehmen wir an, Sie müssen auf eine Schaltfläche klicken, die den Text „Datei“ enthält. Sagen Sie es einfach:
Frage: Hey, bitte klicken Sie auf das Element mit der Textdatei.
Es führt die Aktion aus, indem es Ihre Anfrage verarbeitet, sie in verständliche Anweisungen umwandelt und diese ausführt.
Sie können es einfach in Google Colab mit einer GPU ausführen.
Befolgen Sie diese Schritte sorgfältig
pip install -r requirements.txt
Stellen Sie sicher, dass Sie diesen Befehl in demselben Verzeichnis ausführen, in dem sich die Datei requirements.txt
befindet.
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
Wenn Sie Linux verwenden, stellen Sie Folgendes ein: _PLATFORM
als Linux [Standardmäßig ist windows
]
main.py
aus, indem Sie Ihre Abfrage übergeben. python main . py
SingularGPT
-Bot, wenn Sie nicht weiterkommen oder ein Problem ansprechenscript.py
enthalten sind. Erstellen Sie eine .env
Datei mit OPENAI_API
und platzieren Sie Ihre openai_api-API dort oder übergeben Sie sie als Umgebungsvariable.
Fügen Sie Automatisierungsskripte in script.py
ein und führen Sie es aus.
Schreiben Sie Ihre Eingabeaufforderungsabfrage in die Datei Prompts/prompts.txt
oder übergeben Sie sie als Zeichenfolge in der Datei main.py
# Run the main script.
python main . py
Um dies zu veranschaulichen, sehen Sie sich diesen Bot auf Poe an
Der alte Weg mit X_PATH oder CSS/JS-Selektoren oder nur durch Koordinaten.
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
Nein, es werden die neuen Techniken zur Erkennung von GUI-Elementen verwendet.
Nein!
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
Suchen Sie das Element, das sich links oder rechts befindet, oder sogar das Element, das ihm am nächsten liegt, und führen Sie Aktionen für dieses aus.
ZexUI ist eine eigenständige Bibliothek, die Bildverarbeitungstechniken für die GUI-Automatisierung verwendet.
Hier sind einige Methoden und deren Verwendung.
Sicher! Hier sind die Beschreibungen für jede Methode:
text()
: Diese Methode wird verwendet, um ein Textelement auf der Webseite basierend auf dem in der Abfrage bereitgestellten Textinhalt zu finden.
textRegex()
: Diese Methode wird verwendet, um ein Textelement auf der Webseite basierend auf einem in der Abfrage bereitgestellten regulären Ausdruck zu finden.
textContains()
: Diese Methode wird verwendet, um ein Textelement auf der Webseite zu finden, das ein bestimmtes in der Abfrage bereitgestelltes Wort enthält.
image()
: Diese Methode wird verwendet, um ein Bildelement auf der Webseite basierend auf dem in der Abfrage angegebenen Bildpfad zu finden.
findLeftOf()
: Diese Methode wird verwendet, um ein Element zu finden, das sich links vom in der Abfrage bereitgestellten Text/Bild befindet.
findRightOf()
: Diese Methode wird verwendet, um ein Element zu finden, das sich rechts vom in der Abfrage bereitgestellten Text/Bild befindet.
findTopOf()
: Diese Methode wird verwendet, um ein Element zu finden, das sich über dem in der Abfrage bereitgestellten Text/Bild befindet.
findBottomOf()
: Diese Methode wird verwendet, um ein Element zu finden, das sich unter dem in der Abfrage bereitgestellten Text/Bild befindet.
findNearestTo()
: Diese Methode wird verwendet, um das Element zu finden, das dem in der Abfrage bereitgestellten Text/Bild am nächsten liegt.
click()
: Diese Methode wird verwendet, um auf das Element zu klicken, das mit dem Text/Bild oder einer anderen Methode gefunden wird.
mouseMove()
: Diese Methode wird verwendet, um die Maus zu dem Element zu bewegen, das mit dem Text/Bild oder einer anderen Methode gefunden wird.
scroll_up()
: Diese Methode wird verwendet, um auf der Webseite nach oben zu scrollen.
scroll_down()
: Diese Methode wird verwendet, um auf der Webseite nach unten zu scrollen.
scroll_left()
: Diese Methode wird verwendet, um auf der Webseite nach links zu scrollen.
scroll_right()
: Diese Methode wird verwendet, um auf der Webseite nach rechts zu scrollen.
... Weitere Informationen finden Sie in den Dokumenten.
Das ist es, was dieses Projekt anstrebt und versucht, dasselbe zu erreichen.
? So funktionieren die Dinge unter der Haube:
Konvertiert Abfragen in natürlicher Sprache in Automatisierungsskripte, die weiter zur Erfüllung der Aufgabe verwendet werden können
SingularGPT Verarbeitet Ihren Bildschirm und ruft die erforderlichen Daten ab, nach denen gefragt wird.
Erzeugt Befehle, um die Aufgabe zu erfüllen.
Erkennen Sie, was auf Ihrem Bildschirm angezeigt wird
Sogar das, was sich auf Ihrem Headless-Server mit x11 befindet
Kann sie intern verarbeiten.
Erstellen Sie eigene Automatisierungsskripte
Automatisiert Ihr Gerät
Dieses Projekt wird mit Hilfe verschiedener Bereiche der Informatik ermöglicht, wie z. B. KI-basiertes Sehen, benutzerdefinierte Bibliotheken, Geräteautomatisierung und interne Logikverarbeitung unter Verwendung des neuesten ChatGPT und GPT-4.
Zusamenfassend:
KI Computer Vision + Automatisierung (ZexUI) + GPT
Überlege, einen Stern zu hinterlassen.
Hilfe beim Schreiben der Dokumente für das Projekt.