SingularGPT es un proyecto de código abierto que automatiza su dispositivo utilizando ChatGPT y GPT-4.
Con SingularGPT puede indicar fácilmente a su dispositivo con consultas simples basadas en texto.
Por ejemplo:
Digamos que necesita hacer clic en el botón que tiene un texto como "Archivo", simplemente dígalo:
Consulta: Oye, haz clic en el elemento con Archivo de texto.
Realizará la acción procesando su consulta, convirtiéndola en instrucciones comprensibles y ejecutándolas.
Puedes ejecutarlo en Google Colab con una GPU.
Sigue estos pasos cuidadosamente
pip install -r requirements.txt
Asegúrese de ejecutar este comando en el mismo directorio donde se encuentra el archivo requirements.txt
.
! sudo apt-get install xvfb xorg xserver-xorg scrot imagemagick x11-utils xdotool
config/CONFIG.py
si está en Linux, configúrelo como: _PLATFORM
como Linux [Por defecto es windows
]
main.py
pasando su consulta. python main . py
SingularGPT
si está atascado o plantea un problemascript.py
. Cree un archivo .env
con OPENAI_API
y coloque su API openai_api allí o páselo como variable de entorno.
Coloque los scripts de automatización en script.py
y ejecútelos.
Escriba su consulta rápida en el archivo Prompts/prompts.txt
o pásela como una cadena en el archivo main.py
# Run the main script.
python main . py
Para visualizar esto vea este bot en Poe
A la antigua usanza usando selectores X_PATH o CSS/JS o simplemente mediante coordenadas.
element_xpath = driver . find_element ( By . XPATH , "//a[@href='/login']" )
element_xpath . click ()
# or
element_css = driver . find_element ( By . CSS_SELECTOR , "button.btn-primary" )
element_css . click ()
No, utiliza las nuevas técnicas de detección de elementos GUI.
¡No!
zex . text ( 'Menu' ). click ()
zex . text ( 'Edit' ). FindLeftOf (). click () # Used to locate the element that is just left side of the target element.
Localiza y realiza acciones sobre el elemento que está a la izquierda o a la derecha o incluso al elemento más cercano a él.
ZexUI es una biblioteca independiente que utiliza técnicas de procesamiento de imágenes para la automatización de GUI.
A continuación se muestran algunos métodos y su uso.
¡Seguro! Aquí están las descripciones de cada método:
text()
: este método se utiliza para ubicar un elemento de texto en la página web según el contenido de texto proporcionado en la consulta.
textRegex()
: este método se utiliza para ubicar un elemento de texto en la página web según una expresión regular proporcionada en la consulta.
textContains()
: este método se utiliza para localizar un elemento de texto en la página web que contiene una palabra específica proporcionada en la consulta.
image()
: este método se utiliza para ubicar un elemento de imagen en la página web según la ruta de la imagen proporcionada en la consulta.
findLeftOf()
: este método se utiliza para localizar un elemento que está a la izquierda del texto/imagen proporcionado en la consulta.
findRightOf()
: este método se utiliza para localizar un elemento que está a la derecha del texto/imagen proporcionado en la consulta.
findTopOf()
: este método se utiliza para localizar un elemento que está encima del texto/imagen proporcionado en la consulta.
findBottomOf()
: este método se utiliza para localizar un elemento que está debajo del texto/imagen proporcionado en la consulta.
findNearestTo()
: este método se utiliza para localizar el elemento más cercano al texto/imagen proporcionado en la consulta.
click()
: este método se utiliza para hacer clic en el elemento que se encuentra utilizando el texto/imagen o cualquier otro método.
mouseMove()
: este método se utiliza para mover el mouse al elemento que se encuentra usando el texto/imagen o cualquier otro método.
scroll_up()
: este método se utiliza para desplazarse hacia arriba en la página web.
scroll_down()
: este método se utiliza para desplazarse hacia abajo en la página web.
scroll_left()
: este método se utiliza para desplazarse hacia la izquierda en la página web.
scroll_right()
: este método se utiliza para desplazarse hacia la derecha en la página web.
... Hay más en los documentos.
Esto es lo que este proyecto pretende y trata de lograr lo mismo.
? Entonces, así es como funcionan las cosas bajo el capó:
Convierte consultas en lenguaje natural en scripts de automatización que se pueden utilizar para realizar la tarea.
SingularGPT procesa su pantalla, obtiene los datos requeridos que se solicitan.
Genera comandos para lograr la tarea.
Reconoce lo que hay en tu pantalla
Incluso lo que hay en tu servidor sin cabeza usando x11
Puede procesarlos internamente.
Cree scripts de automatización por su cuenta
Automatiza tu dispositivo
Este proyecto es posible con la ayuda de varios campos de la informática, como la visión basada en IA, bibliotecas personalizadas, automatización de dispositivos y procesamiento lógico interno utilizando los últimos ChatGPT y GPT-4.
En breve:
Visión por computadora con IA + Automatización (ZexUI) + GPT
Considerando dejar una estrella.
Ayuda en la redacción de los documentos del proyecto.