SingularGPT est un projet open source qui automatise votre appareil à l'aide de ChatGPT et GPT-4.
Avec SingularGPT, vous pouvez facilement instruire votre appareil avec de simples requêtes textuelles.
Par exemple:
Disons que vous devez cliquer sur un bouton contenant un texte comme « Fichier », dites-le :
Requête : Hé, veuillez cliquer sur l'élément contenant le texte Fichier.
Il effectuera l'action en traitant votre requête, en la transformant en instructions compréhensibles et en les exécutant.
Vous pouvez simplement l'exécuter dans Google Colab avec un GPU.
Suivez attentivement ces étapes
pip install -r requirements.txt
Assurez-vous d'exécuter cette commande dans le même répertoire où se trouve le fichier requirements.txt
.
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
si vous êtes sous Linux, définissez-le comme : _PLATFORM
as linux [Par défaut, c'est windows
]
main.py
en transmettant votre requête. python main . py
SingularGPT
si vous êtes bloqué ou si vous soulevez un problèmescript.py
. Créez un fichier .env
avec OPENAI_API
et placez-y votre API openai_api ou transmettez-la comme variable d'environnement.
Mettez les scripts d'automatisation dans script.py
et exécutez-le.
Écrivez votre requête d'invite dans le fichier Prompts/prompts.txt
ou transmettez-la sous forme de chaîne dans le fichier main.py
# Run the main script.
python main . py
Pour visualiser cela, voir ce bot sur Poe
L'ancienne méthode en utilisant des sélecteurs X_PATH ou CSS/JS ou simplement par des coordonnées.
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
Non, il utilise les nouvelles techniques de détection d'éléments GUI.
Non !
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
Localisez et effectuez des actions sur l'élément qui se trouve à gauche ou à droite ou même sur l'élément le plus proche de celui-ci.
ZexUI est une bibliothèque autonome qui utilise des techniques de traitement d'image pour l'automatisation de l'interface graphique.
Voici quelques méthodes et leur utilisation.
Bien sûr! Voici les descriptions de chaque méthode :
text()
: Cette méthode est utilisée pour localiser un élément de texte sur la page Web en fonction du contenu textuel fourni dans la requête.
textRegex()
: Cette méthode est utilisée pour localiser un élément de texte sur la page Web en fonction d'une expression régulière fournie dans la requête.
textContains()
: Cette méthode est utilisée pour localiser un élément de texte sur la page Web qui contient un mot spécifique fourni dans la requête.
image()
: Cette méthode est utilisée pour localiser un élément d'image sur la page Web en fonction du chemin d'image fourni dans la requête.
findLeftOf()
: Cette méthode est utilisée pour localiser un élément qui se trouve à gauche du texte/image fourni dans la requête.
findRightOf()
: Cette méthode est utilisée pour localiser un élément qui se trouve à droite du texte/image fourni dans la requête.
findTopOf()
: Cette méthode est utilisée pour localiser un élément qui se trouve au-dessus du texte/image fourni dans la requête.
findBottomOf()
: Cette méthode est utilisée pour localiser un élément qui se trouve en dessous du texte/image fourni dans la requête.
findNearestTo()
: Cette méthode est utilisée pour localiser l'élément le plus proche du texte/image fourni dans la requête.
click()
: Cette méthode permet de cliquer sur l'élément qui se trouve à l'aide du texte/image ou de toute autre méthode.
mouseMove()
: Cette méthode est utilisée pour déplacer la souris vers l'élément qui se trouve à l'aide du texte/image ou de toute autre méthode.
scroll_up()
: Cette méthode est utilisée pour faire défiler la page Web vers le haut.
scroll_down()
: Cette méthode est utilisée pour faire défiler la page Web.
scroll_left()
: Cette méthode est utilisée pour faire défiler vers la gauche sur la page Web.
scroll_right()
: Cette méthode est utilisée pour faire défiler vers la droite sur la page Web.
... Plus d'informations sont sur la documentation.
C’est ce que vise ce projet et tente d’atteindre le même but.
? Voici donc comment les choses fonctionnent sous le capot :
Convertit la requête en langage naturel en scripts d'automatisation qui peuvent en outre être utilisés pour accomplir la tâche
SingularGPT Traitez votre écran, obtenez les données requises ce qui est demandé.
Génère des commandes pour accomplir la tâche.
Reconnaissez ce qui est sur votre écran
Même ce qui se trouve sur votre serveur sans tête utilisant x11
Peut les traiter en interne.
Créer ses propres scripts d'automatisation
Automatise votre appareil
Ce projet est rendu possible grâce à l'aide de divers domaines de l'informatique tels que la vision basée sur l'IA, les bibliothèques personnalisées, l'automatisation des appareils et le traitement logique interne à l'aide des derniers ChatGPT et GPT-4.
En bref:
Vision par ordinateur IA + Automatisation (ZexUI) + GPT
J'envisage de quitter une étoile.
Aide à la rédaction de la documentation du projet.